项目概览
围绕 PyTorch 分布式后端,构建自定义 Collective 的注册、调度、通信与 profile 流程。
背景与动机
训练瓶颈常常隐藏在梯度通信中,需要在框架层观察通信何时发生、如何与计算重叠。
核心特性
打通 ProcessGroup、NCCL stream、bucket 化梯度与异步 work handle。
核心特性
通信路径
清晰映射前后端调用链。
异步重叠
观察计算与通信调度。
Profile
从 trace 定位吞吐瓶颈。
性能示例
| 指标 | 结果 | 说明 |
|---|---|---|
| 吞吐提升 | +18% | 端到端 |
| 通信原语 | 4 | Collective |
| 追踪指标 | 12 | Profile |






