
项目集
PROJECTS在夕丰木中,每个项目都是一段探索与实践的记录, 从想法到实现,从算法到系统,从代码到影响力。
万物皆可炼·代码亦成器
视图:
Megatron 并行机制笔记
系统性梳理 Megatron 及 DeepSpeed 并行策略与实现细节,结合源码与公式,形成可复用笔记。
- PyTorch
- Megatron
- DeepSpeed
2025-02-12 1.9k 115
CUDA Softmax Kernel
基于 warp-level 优化的高性能 Softmax Kernel 实现,支持 FP32/FP16 混合精度加速。
- CUDA
- Kernel
- Performance
2024-11-28 2.8k 12k
PyTorch Custom Collective
实现高性能自定义通信算子,支持 AllReduce / ReduceScatter 等分布式集合通信场景。
- PyTorch
- Distributed
- NCCL
2024-10-08 2.1k 993
LLM Inference 优化实践
从 Tokenization 到 KV Cache,再到推理优化,记录一系列工程优化实践与方案对比。
- Inference
- Optimization
- KV Cache
2024-07-21 1.6k 6.3k
Distributed Training 工程实践
大规模分布式训练的系统设计与落地,包括调度、监控、容错与性能分析工具链。
- DDP
- FSDP
- ZeRO
2024-05-14 2.3k 7.8k
PyTorch Dispatcher 调度机制大全
深入解析 PyTorch Dispatcher、Operator 注册、Kernel 选择与执行路径。
- PyTorch
- Dispatcher
- Kernel
2024-04-12 2.6k 9.1k




