夕丰木 — Yinjie Shen

项目概览

该项目系统梳理 Triton 与 CUDA 的核心概念、编程模型、内存层次、并行执行、性能优化方法与常见高性能算子实现方式。

TRITON PROGRAMCUDA KERNEL

BLOCK · WARP · SHARED MEMORY · GLOBAL MEMORY

在深度学习与科学计算领域，GPU 已经成为性能核心。项目通过从零实现 Softmax，观察访存、规约与数值稳定性如何共同决定吞吐。

包含 shared memory 缓存、warp-level reduction、向量化访存、在线归并与性能基线对照。

从基础概念到高阶优化。

提供可复现源码与注释。

用指标驱动优化路径。

结构清晰，便于迁移。