Megatron 并行机制笔记

系统梳理 Megatron 与 DeepSpeed 并行策略的工程边界。

最后更新

2025-02-12

阅读时长

35 min

Star

1.9k

语言

Python / CUDA

观万物流行之理·究极致效率之道

项目概览

围绕 Tensor Parallel、Pipeline Parallel 与 Sequence Parallel，拆解模型切分、通信调度与 bubble 形成机制。

当模型规模超过单卡容量后，训练性能不再只取决于算子速度，而取决于通信、显存与调度之间的整体平衡。

提供并行策略对照、通信路径图、典型配置建议与故障排查清单，便于后续工程复盘。

TP / PP / SP 边界一图对齐。

记录 Collective 与 overlap 代价。

配置、指标、排查路径可复用。

TREE HOLLOW LAB

从项目复盘回到完整项目集，或前往博客阅读与此相关的源码笔记。