LLM Inference 优化实践

从 Tokenization 到 KV Cache,压缩推理延迟。

  • Inference
  • Optimization
  • KV Cache
最后更新
2024-07-21
阅读时长
31 min
Star
1.6k
语言
Python / CUDA

项目概览

梳理大模型推理链路中的延迟来源,并围绕 KV Cache、batching 与内存复用做实验。

背景与动机

推理服务的真实瓶颈往往随负载形态变化,需要同时关注首 token 延迟、吞吐、显存与尾延迟。

核心特性

包含请求调度、缓存复用、分层指标面板与优化前后对比。

核心特性

延迟拆解

TTFT 与 TPOT 分开观察。

缓存策略

KV Cache 生命周期管理。

服务视角

兼顾稳定性与吞吐。

性能示例

指标结果说明
TTFT-32%优化后
吞吐+24%batching
显存-18%缓存复用

TREE HOLLOW LAB

继续翻阅夕丰木中的工程卷宗

从项目复盘回到完整项目集,或前往博客阅读与此相关的源码笔记。