跳到主要内容

3 篇博文 含有标签「quantization」

查看所有标签

多模型推理的 GPU 显存计算:为什么大多数团队会过度配置 3 倍资源

· 阅读需 10 分钟
Tian Pan
Software Engineer

大多数在生产环境中部署 LLM 的团队都在为不需要的 GPU 容量浪费资金。根本原因并非粗心大意 —— 而是因为 LLM 推理的 GPU 显存大小涉及四个相互作用的变量(模型权重、KV 缓存、激活内存和框架开销),任何一个出错都意味着你会在整个堆栈上过度配置。当你跨共享基础设施的多个模型放大这种错误时,浪费会迅速累积。

计算本身并不难。但大多数团队从不计算,因为“直接给它一个 80GB 的 A100”比计算 48GB 的 L40S 是否足够要容易得多。本文将通过算术演示如何确定可以在单个 GPU 上放置多少个模型,以及使之成为可能的量化权衡。

多模型推理服务的 GPU 显存计算:为什么大多数团队会过度配置 3 倍资源

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数运行 LLM 推理的团队将 GPU 配置视作一场猜谜游戏。他们看到模型在 FP16 精度下需要 “140 GB”,便感到恐慌,于是申请四张 A100-80GB 显卡,然后就觉得万事大吉了。他们没有计算的是 KV 缓存、并发和量化是如何相互作用并决定实际显存占用的——而这种误算通常意味着他们多支付了 3 倍的冤枉钱。

这套计算并不复杂。但在签署云服务合同之前,几乎没有人去计算。本文将详细介绍这些精确的公式,揭示隐藏的显存黑洞,并解释装箱(bin-packing)策略,让你能在原本只够运行一个模型的硬件预算下服务四个模型。

生产环境下的自托管 LLM:没人告诉你的 GPU 显存计算公式

· 阅读需 12 分钟
Tian Pan
Software Engineer

大多数决定自托管 LLM 的工程师都会从同样的计算开始:模型有 70B 参数,FP16 每参数 2 字节,所以是 140 GB。他们检查发现两块 A100-80GB GPU 能容纳 160 GB,感到很满意,于是订购了硬件。然后进入生产环境,却发现还没服务一个真实用户,显存(VRAM)就已经耗尽了。

模型权重只是故事的一部分。让几乎每个团队都感到意外的部分是 KV 缓存(KV cache)—— 理解它会改变你的每一个决定,从量化选择到推理框架,再到你实际需要的 GPU 数量。