vllm 的 cpu offload 参数卸载逻辑代码简析via Blog

最近在看 vllm 的代码，cpu offloading 这部分它的实现还是比较简单的，这里简单记录一下。由于大模型的参数量实在很大，所以如果想在单机上运行一般都需要跑量化蒸馏后的模型，但是有时又不想牺牲模型质量，于是CPU/SSD 卸载成为一种折衷方案，通过增加推理时间来降低内存需求。 vllm 也实现了一个简单的 cpu offload 的机制，可以通过 --cpu-offload-gb 启用。官方文档: https://docs.vllm.ai/en/latest/getting_starte…