多模型推理的 GPU 显存计算:为什么大多数团队会过度配置 3 倍资源
大多数在生产环境中部署 LLM 的团队都在为不需要的 GPU 容量浪费资金。根本原因并非粗心大意 —— 而是因为 LLM 推理的 GPU 显存大小涉及四个相互作用的变量(模型权重、KV 缓存、激活内存和框架开销),任何一个出错都意味着你会在整个堆栈上过度配置。当你跨共享基础设施的多个模型放大这种错误时,浪费会迅速累积。
计算本身并不难。但大多数团队从不计算,因为“直接给它一个 80GB 的 A100”比计算 48GB 的 L40S 是否足够要容易得多。本文将通过算术演示如何确定可以在单个 GPU 上放置多少个模型,以及使之成为可能的量化权衡。
