项目概览
该项目系统梳理 Triton 与 CUDA 的核心概念、编程模型、内存层次、并行执行、性能优化方法与常见高性能算子实现方式。
TRITON PROGRAMCUDA KERNEL
BLOCK · WARP · SHARED MEMORY · GLOBAL MEMORY
背景与动机
在深度学习与科学计算领域,GPU 已经成为性能核心。项目通过从零实现 Softmax,观察访存、规约与数值稳定性如何共同决定吞吐。
核心特性
包含 shared memory 缓存、warp-level reduction、向量化访存、在线归并与性能基线对照。
核心特性
系统化梳理
从基础概念到高阶优化。
大量示例
提供可复现源码与注释。
性能导向
用指标驱动优化路径。
工程可用
结构清晰,便于迁移。
性能示例
| 指标 | 结果 | 说明 |
|---|---|---|
| PyTorch FP32 | 43.21ms | 1.00x |
| Triton FP32 | 18.76ms | 2.30x |
| CUDA FP32 | 13.42ms | 3.21x |






