8 路 L40 部署 R1-671B 上限是多少呢 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jinja27
V2EX    Local LLM

8 路 L40 部署 R1-671B 上限是多少呢

  •  
  •   jinja27 231 天前 2409 次点击
    这是一个创建于 231 天前的主题,其中的信息可能已经有所发展或是发生改变。

    各位大佬,最近尝试部署 R1-671B 遇到了不少问题,希望能有大牛来帮忙解答: 基本情况:2 块 Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz+8 路 L40+500G 内存 部署 DeepSeek-R1-671B-Q4_K ,约 370G

    由于模型文件无法完整加载到 8 张显存上(只能加载约 40 层)

    最终结果感觉不理:

    8 张显卡显存近乎加载完全,但是 GPU 利用率仅 3%左右 llama_perf_sampler_print: sampling time = 166.42 ms / 1222 runs ( 0.14 ms per token, 7342.91 tokens per second)

    llama_perf_context_print: load time = 74364.88 ms

    llama_perf_context_print: prompt eval time = 20711.60 ms / 54 tokens ( 383.55 ms per token, 2.61 tokens per second)

    llama_perf_context_print: eval time = 635627.49 ms / 3816 runs ( 166.57 ms per token, 6.00 tokens per second)

    现在我的问题是: 1.是否因为显存瓶颈导致的 CPU+GPU 混合推理性能低? 8 路显卡在我这个场景里是否存在严重的显卡资源浪费?在不改变硬件的前提下是否有优化空间?如何优化? 2.如果此场景并发的话大概能有多少并发量? 3.我使用的是 llama.cpp ,使用其他推理框架,如 kt ,能有更好的效果吗? 4.如果 GPU 能完整加载,性能提升大概多少? 5.如果更新硬件如何更新? CPU 是否是此场景的瓶颈? 6.并发量主要取决于什么技术指标呢?

    10 条回复    2025-02-24 10:19:40 +08:00
    guoyijun163
        1
    guoyijun163  
       231 天前
    那肯定得用 ktransformers ,传统的开源推理框架基本都没考虑过 MoE
    v1
        2
    v1  
       231 天前
    llama 要给定参数--n-gpu-layers 对应层数分散计算压力
    yukino
        3
    yukino  
       230 天前 via Android
    别用 llama.cpp ,不能张量并行,同一时间只有一个显卡工作
    Attenton
        4
    Attenton  
       230 天前
    500G 的显存为啥会无法完全加载 370G ?推理框架现在的事实标准应该都是 vllm 吧,试下 vllm 吧
    jinja27
        5
    jinja27  
    OP
       230 天前
    @guoyijun163
    但是 KT 不是走纯 CPU 方案吗?这样 8 路显卡的资源浪费不是更严重了?
    jinja27
        6
    jinja27  
    OP
       230 天前
    @Attenton
    500G 是内存,显存的话每张显卡实际可用的只有 44 左右,8*44 约 350G
    jinja27
        7
    jinja27  
    OP
       230 天前
    @kk2syc
    给过了,模型共 61 层,GPU 上只有 40 层,再大显存就不够了,但是 40 层显卡几乎没工作
    jinja27
        8
    jinja27  
    OP
       230 天前
    @Attenton 而且我下载的 671B 4bit 量化是 gguf 格式,VLLM 运行不了
    homolabby
        9
    homolabby  
       229 天前
    看看 sglang ?这个显存的量差不多 q4 可以完全装下?我记得 sglang 对于 moe 的支持好一些,尤其 ds r1
    jingzf0214
        10
    jingzf0214  
       228 天前
    sglang 或者 TensorRT-LLM
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     883 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 21:17 PVG 05:17 LAX 14:17 JFK 17:17
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86