Morealityの碎碎念
09:49 · Mar 2, 2025 · Sun
vllm 的 cpu offload 参数卸载逻辑代码简析
via
Blog
Telegraph
vllm 的 cpu offload 参数卸载逻辑代码简析
最近在看 vllm 的代码,cpu offloading 这部分它的实现还是比较简单的,这里简单记录一下。 由于大模型的参数量实在很大,所以如果想在单机上运行一般都需要跑量化蒸馏后的模型,但是有时又不想牺牲模型质量,于是CPU/SSD 卸载成为一种折衷方案,通过增加推理时间来降低内存需求。 vllm 也实现了一个简单的 cpu offload 的机制,可以通过 --cpu-offload-gb 启用。 官方文档: https://docs.vllm.ai/en/latest/getting_starte…
Home
Powered by
BroadcastChannel
&
Sepia