项目概览
把 DDP、FSDP、ZeRO 等训练策略放到真实工程链路中观察,包含调度、监控、容错与数据面。
背景与动机
大规模训练不只关心算法,还关心失败恢复、资源利用率、日志可观测性与可复现的 benchmark。
核心特性
形成从启动脚本到通信 profile,再到异常定位的全链路文档与工具。
核心特性
容错
节点异常下的恢复策略。
监控
显存、吞吐、通信统一看板。
调度
任务生命周期更可控。
性能示例
| 指标 | 结果 | 说明 |
|---|---|---|
| 稳定运行 | 72h | 压力测试 |
| GPU 利用 | +21% | 调优后 |
| 告警项 | 18 | 可观测 |






