
藏书枝阁
收录技术文章、学习札记与工程复盘
夕木成林·枝上藏书
精选卷宗
全部文章
Megatron 并行机制笔记
梳理 Megatron-LM 的模型并行、流水并行、张量并行与序列并行原理及实现细节。
2025-05-08 20 分钟阅读
- LLM
- Distributed
- Megatron
自定义 AllReduce 算子实现思路
从环形 AllReduce 到树形 AllReduce,详解自定义算子的实现与优化策略。
2025-04-02 16 分钟阅读
- Distributed
- NCCL
- CUDA
ProcessGroup 与 NCCL 通信路径梳理
深入 ProcessGroup 的后端实现,梳理 NCCL 通信路径、Stream 管理与异步执行机制。
2025-03-28 15 分钟阅读
- Distributed
- PyTorch
- NCCL
从 Softmax Kernel 到性能优化
分析 Softmax 的计算特征与访存模式,探讨 Kernel 优化方法与性能对比。
2025-03-20 14 分钟阅读
- CUDA
- Kernel
- Optimization
TorchScript / FX / torch.compile 关系总结
对比三种图表示与编译路径,总结在不同场景下的适用性与最佳实践。
2025-03-15 17 分钟阅读
- PyTorch
- Compiler
- FX
ZeRO 参数分片与 AllGather 流程分析
解析 ZeRO 各阶段的内存优化策略,深入 AllGather 的执行流程与通信开销。
2025-03-10 19 分钟阅读
- LLM
- ZeRO
- Distributed

月窗茶室
Get In Touch
月色入窗,茶气未散。若你也在 GPU、编译器与分布式系统之间游走,欢迎留信,约一次安静的对谈。






