藏书枝阁

BLOG

收录 AI 基础框架、推理系统、并行编程与工程复盘

夕木成林·枝上藏书

精选卷宗

Triton 与 CUDA 核心原理整理

深入 Triton 与 CUDA 的执行模型，调度关键路径，编译优化策略与性能关键点。

2025-05-26 22 分钟阅读

CUDA
Performance
Kernel

Megatron 并行机制笔记

梳理 Megatron-LM 的模型并行、流水并行、张量并行与序列并行原理及实现细节。

2025-05-08 20 分钟阅读

LLM
Distributed
Megatron

全部文章

Triton 与 CUDA 核心原理整理

深入 Triton 与 CUDA 的执行模型，调度关键路径，编译优化策略与性能关键点。

2025-05-26 22 分钟阅读

CUDA
Performance
Kernel

Megatron 并行机制笔记

梳理 Megatron-LM 的模型并行、流水并行、张量并行与序列并行原理及实现细节。

2025-05-08 20 分钟阅读

LLM
Distributed
Megatron

PyTorch 调度器干货大合集

系统梳理 PyTorch Dispatcher、Kernel 注册、调度路径与执行模型的核心知识体系。

2025-04-12 18 分钟阅读

PyTorch
Distributed
NCCL

自定义 AllReduce 算子实现思路

从环形 AllReduce 到树形 AllReduce，详解自定义算子的实现与优化策略。

2025-04-02 16 分钟阅读

Distributed
NCCL
CUDA

ProcessGroup 与 NCCL 通信路径梳理

深入 ProcessGroup 的后端实现，梳理 NCCL 通信路径、Stream 管理与异步执行机制。

2025-03-28 15 分钟阅读

Distributed
PyTorch
NCCL

从 Softmax Kernel 到性能优化

分析 Softmax 的计算特征与访存模式，探讨 Kernel 优化方法与性能对比。

2025-03-20 14 分钟阅读

CUDA
Kernel
Optimization

TorchScript / FX / torch.compile 关系总结

对比三种图表示与编译路径，总结在不同场景下的适用性与最佳实践。

2025-03-15 17 分钟阅读

PyTorch
Compiler
FX

ZeRO 参数分片与 AllGather 流程分析

解析 ZeRO 各阶段的内存优化策略，深入 AllGather 的执行流程与通信开销。

2025-03-10 19 分钟阅读

LLM
ZeRO
Distributed

月窗茶室

Get In Touch

月色入窗，茶气未散。若你也在 AI Infra、应用落地、鸣潮、方舟肉鸽与洛克王国之间游走，欢迎留信，我们可以聊聊系统、优化与好玩的世界。

yinjieshen411@gmail.com

github.com/XiFenM

linkedin.com/in/yinjie-shen-1915a8295