我的简历

RESUME

热爱系统与性能，专注 AI 基础设施、高性能计算与算法工程。持续构建可落地、可扩展、可复用的技术方案。

下载 PDF 简历联系我

以木为根·以技为枝

工作经历

2023.07 — 至今

AI Framework Engineer

Megatron 团队 / DeepSpeed 社区

PyTorch
Distributed
CUDA

参与 Megatron-LM 与 DeepSpeed 并行策略与调度系统的设计与实现。
优化大规模训练的通信效率与显存利用率，支持千卡级别模型训练。
构建自动化性能分析与瓶颈诊断工具链，提升训练稳定性与可观测性。

2022.06 — 2023.06

高性能计算研发工程师

某 AI 基础设施公司

GPU
Performance
C++

负责 GPU 计算内核优化与推理加速，提升模型推理吞吐与延迟。
参与自研推理框架设计与实现，支持多模型异构后端。
构建性能基准测试体系与自动化回归检测工具。

2021.03 — 2022.06

算法工程实习生

某研究机构

Research
PyTorch
System

参与大规模模型训练与分布式系统相关研究。
实现数据并行与模型并行在训练框架中的高效集成。
撰写技术文档与内部技术分享，沉淀最佳实践。

代表项目

查看全部项目 →

AI / 深度学习

Megatron 并行机制笔记

系统性梳理 Megatron 及 DeepSpeed 并行策略与实现细节，结合源码与公式，形成可复用笔记。

PyTorch
Megatron
DeepSpeed

2025-02-12 1.9k 115

CUDA Softmax Kernel

基于 warp-level 优化的高性能 Softmax Kernel 实现，支持 FP32/FP16 混合精度加速。

CUDA
Kernel
Performance

2024-11-28 2.8k 12k

AI / 深度学习

PyTorch Custom Collective

实现高性能自定义通信算子，支持 AllReduce / ReduceScatter 等分布式集合通信场景。

PyTorch
Distributed
NCCL

2024-10-08 2.1k 993

荣誉与证明

Top Coder LeetCode Top 1%

ACM ICPC Regional Bronze Medal

国家奖学金 2019, 2020

上海交通大学优秀毕业生 2022

NVIDIA Deep Learning Institute

期待与你一起探索更多可能。

如果你对我的工作感兴趣，欢迎在月窗茶室留下一次安静的对谈。