公司要在本地部署 ds ,搞了一台服务器,让我部署一下,内存 DDR5 2T ,显存 640G ,我现在 llamacpp 部署的 q4 量化版,并发设置了 4 ,但是 4 个人同时用的时候输出就会很慢。求推荐个可以支持 10 个并发的推理框架。vllm 我试了说是不支持 deepseek2 ,我是下载的 gguf 文件

1 dayeye2006199 Feb 16, 2025 sglang |
2 raycool/strong> Feb 16, 2025 是 404G 大小的模型文件吗? 这个 8 卡可以部署成功? |
4 zhyim OP @dayeye2006199 也是不支持 deepseek2 ,我下载的别人的量化模型,单 gguf |
5 JackyTsang Feb 17, 2025 SGLang 部署。 |
6 haimianbihdata Mar 3, 2025 @JackyTsang 这个支持并发怎样 |
7 weiming Mar 4, 2025 vllm + awq 量化 |
9 weiming Mar 4, 2025 @zhyim 不应该啊,我用 A800x8 都有 30t/s 。用这个配置, https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ |
11 volvo007 Mar 4, 2025 请问 op ,8 卡的外部设备是什么。比如这 8 张卡都是 pcie 版本吗?那不是只能通过 pcie 通信,速度上不去吧。而使用 nvlink 的话,还不如直接买 HGX 节点?因为最近我们这也想部署,但是一开始是双卡,后面会慢慢加,所以来请教一下 |
14 weiming Mar 4, 2025 @zhyim vllm 0.7.2 awq Parallel request Token per second ( Total ) Token per second(per request) 1 30 30 10 81 10 30 144 6.2 50 180 5 |
15 weiming Mar 4, 2025 4 并发 17t/s 。a800 没有原生 fp8 支持,算力大打折扣。而且最近 vllm 在 H 系列上的优化 patch 挺多的,拍脑袋至少还能再快个 30%。 |