LLM Inference 优化实践

从 Tokenization 到 KV Cache，压缩推理延迟。

最后更新

2024-07-21

阅读时长

31 min

Star

1.6k

语言

Python / CUDA

观万物流行之理·究极致效率之道

项目概览

梳理大模型推理链路中的延迟来源，并围绕 KV Cache、batching 与内存复用做实验。

推理服务的真实瓶颈往往随负载形态变化，需要同时关注首 token 延迟、吞吐、显存与尾延迟。

包含请求调度、缓存复用、分层指标面板与优化前后对比。

TTFT 与 TPOT 分开观察。

KV Cache 生命周期管理。

兼顾稳定性与吞吐。

TREE HOLLOW LAB

从项目复盘回到完整项目集，或前往博客阅读与此相关的源码笔记。