沈寅杰/ Yinjie Shen

AI Framework Engineer · GPU Computing · Distributed Systems

热爱 AI 基础设施、GPU 计算与分布式系统。喜欢在复杂系统中寻找优雅、清晰、可复现的实现路径。

PyTorch InternalsCUDADistributed Training

关于我

About Me
专注于 AI 基础设施系统研究

深入底层框架实现、探索计算系统的边界。

我的专注

AI 框架内核、GPU 计算引擎、分布式系统训练,并行计算与自动化性能分析。

我的特质

底层思考、性能优化、工程落地。

灵木技能树

Skills Tree
AI Frameworks
  • PyTorch
  • Megatron
  • JAX
  • TensorFlow
  • Triton
  • ONNX
CUDA / GPU Computing
  • CUDA
  • cuBLAS
  • cuDNN
  • Kernel Tuning
  • NCCL
  • GPUDirect
LLM Systems
  • Tokenization
  • KV Cache
  • Inference Optimization
  • Quantization
PyTorch Internals
  • Dispatcher
  • ATen
  • Autograd
  • Memory Model
  • Torch.compile
Distributed Training
  • DDP
  • FSDP
  • ZeRO
  • Parallelism
  • Collective Comm.
Backend / Tooling
  • Linux
  • gRPC
  • Protobuf
  • Docker
  • C/C++

精选项目

Featured Projects

CUDA Softmax Kernel

基于 warp-level 优化的高性能 Softmax Kernel 实现,支持 FP32/FP16 混合精度加速。

  • CUDA
  • Kernel
  • Performance

PyTorch Custom Collective

实现高性能自定义通信算子,支持 AllReduce / ReduceScatter 等分布式集合通信场景。

  • PyTorch
  • Distributed
  • NCCL

LLM Inference 优化实践

从 Tokenization 到 KV Cache,再到推理优化,记录一系列工程优化实践与方案对比。

  • Inference
  • Optimization
  • KV Cache

年轮时间线

Timeline
  1. 2021
    本科毕业

    专注于 GPU 并行计算与深度学习系统方向,并持续探索未来

  2. 2023
    工程实践

    参与多项 AI 基础设施项目,专注性能优化与工程落地

  3. 2024
    算法探索

    深入分布式系统与训练优化,探索大模型算法和系统实现

  4. 2025
    系统架构

    构建独立完整的训练系统,持续优化性能与可扩展性

最新技博

Latest Notes

月窗茶室

Get In Touch

月色入窗,茶气未散。若你也在 GPU、编译器与分布式系统之间游走,欢迎留信,约一次安静的对谈。