Distributed Training 工程实践

训练前后端的系统化工程落地记录。

  • DDP
  • FSDP
  • ZeRO
最后更新
2024-05-14
阅读时长
38 min
Star
2.3k
语言
Python / CUDA

项目概览

把 DDP、FSDP、ZeRO 等训练策略放到真实工程链路中观察,包含调度、监控、容错与数据面。

背景与动机

大规模训练不只关心算法,还关心失败恢复、资源利用率、日志可观测性与可复现的 benchmark。

核心特性

形成从启动脚本到通信 profile,再到异常定位的全链路文档与工具。

核心特性

容错

节点异常下的恢复策略。

监控

显存、吞吐、通信统一看板。

调度

任务生命周期更可控。

性能示例

指标结果说明
稳定运行72h压力测试
GPU 利用+21%调优后
告警项18可观测

TREE HOLLOW LAB

继续翻阅夕丰木中的工程卷宗

从项目复盘回到完整项目集,或前往博客阅读与此相关的源码笔记。