项目概览
梳理大模型推理链路中的延迟来源,并围绕 KV Cache、batching 与内存复用做实验。
背景与动机
推理服务的真实瓶颈往往随负载形态变化,需要同时关注首 token 延迟、吞吐、显存与尾延迟。
核心特性
包含请求调度、缓存复用、分层指标面板与优化前后对比。
核心特性
延迟拆解
TTFT 与 TPOT 分开观察。
缓存策略
KV Cache 生命周期管理。
服务视角
兼顾稳定性与吞吐。
性能示例
| 指标 | 结果 | 说明 |
|---|---|---|
| TTFT | -32% | 优化后 |
| 吞吐 | +24% | batching |
| 显存 | -18% | 缓存复用 |






