Megatron 并行机制笔记

系统梳理 Megatron 与 DeepSpeed 并行策略的工程边界。

  • PyTorch
  • Megatron
  • DeepSpeed
最后更新
2025-02-12
阅读时长
35 min
Star
1.9k
语言
Python / CUDA

项目概览

围绕 Tensor Parallel、Pipeline Parallel 与 Sequence Parallel,拆解模型切分、通信调度与 bubble 形成机制。

背景与动机

当模型规模超过单卡容量后,训练性能不再只取决于算子速度,而取决于通信、显存与调度之间的整体平衡。

核心特性

提供并行策略对照、通信路径图、典型配置建议与故障排查清单,便于后续工程复盘。

核心特性

并行地图

TP / PP / SP 边界一图对齐。

通信复盘

记录 Collective 与 overlap 代价。

工程可用

配置、指标、排查路径可复用。

性能示例

指标结果说明
训练卡数128H100 集群
并行策略3TP / PP / SP
复盘条目42工程笔记

TREE HOLLOW LAB

继续翻阅夕丰木中的工程卷宗

从项目复盘回到完整项目集,或前往博客阅读与此相关的源码笔记。