CUDA Softmax Kernel

从 Triton 与 CUDA 视角拆解 GPU 编程、内核优化与算子实现。

  • CUDA
  • Kernel
  • Performance
最后更新
2024-11-28
阅读时长
40 min
Star
2.8k
语言
Python / CUDA

项目概览

该项目系统梳理 Triton 与 CUDA 的核心概念、编程模型、内存层次、并行执行、性能优化方法与常见高性能算子实现方式。

Triton 与 CUDA 技术图示
TRITON PROGRAMCUDA KERNEL
BLOCK · WARP · SHARED MEMORY · GLOBAL MEMORY

背景与动机

在深度学习与科学计算领域,GPU 已经成为性能核心。项目通过从零实现 Softmax,观察访存、规约与数值稳定性如何共同决定吞吐。

核心特性

包含 shared memory 缓存、warp-level reduction、向量化访存、在线归并与性能基线对照。

核心特性

系统化梳理

从基础概念到高阶优化。

大量示例

提供可复现源码与注释。

性能导向

用指标驱动优化路径。

工程可用

结构清晰,便于迁移。

性能示例

指标结果说明
PyTorch FP3243.21ms1.00x
Triton FP3218.76ms2.30x
CUDA FP3213.42ms3.21x

TREE HOLLOW LAB

继续翻阅夕丰木中的工程卷宗

从项目复盘回到完整项目集,或前往博客阅读与此相关的源码笔记。