2023.07 — 至今
AI Framework Engineer
Megatron 团队 / DeepSpeed 社区
- PyTorch
- Distributed
- CUDA
- 参与 Megatron-LM 与 DeepSpeed 并行策略与调度系统的设计与实现。
- 优化大规模训练的通信效率与显存利用率,支持千卡级别模型训练。
- 构建自动化性能分析与瓶颈诊断工具链,提升训练稳定性与可观测性。

Megatron 团队 / DeepSpeed 社区
某 AI 基础设施公司
某研究机构
系统性梳理 Megatron 及 DeepSpeed 并行策略与实现细节,结合源码与公式,形成可复用笔记。
基于 warp-level 优化的高性能 Softmax Kernel 实现,支持 FP32/FP16 混合精度加速。
实现高性能自定义通信算子,支持 AllReduce / ReduceScatter 等分布式集合通信场景。