NVLink 对显卡集群的影响有多大? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zhuwd
V2EX    NVIDIA

NVLink 对显卡集群的影响有多大?

  •  
  •   zhuwd 303 天前 4858 次点击
    这是一个创建于 303 天前的主题,其中的信息可能已经有所发展或是发生改变。
    组了 8 台 NVIDIA A100-PCIE-40GB ,用 Ollama 跑了 Deepseek 的 70B 版本,理论上性能是足够的,但是思考时间特别长,显存的占用率也不是很高,功率甚至连五分之一都没达到,不知道问题出在什么地方
    19 条回复    2025-02-17 20:46:39 +08:00
    neteroster
        1
    neteroster  
       303 天前 via Android   1
    1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥
    2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。
    zhuwd
        2
    zhuwd  
    OP
       303 天前
    @neteroster 感谢!!小白刚上手,搜了下都是用 ollama 在部署,这就去看一下 sglang
    hertzry
        3
    hertzry  
       303 天前 via iPhone
    NVLink 需要专门的硬件交换机,你这 PCIe 版用不了。
    TimeNewRome
        4
    TimeNewRome  
       303 天前
    deepseek 对 IO 要求很高。楼主的 token 输出慢,多半是因为 IO 传输存在瓶颈。

    所以最好的解决办法,应该是换成 NVLINK 而不是继续用 PCIE 。

    PCIE 通道数有上限,会严重拖慢 IO 速度。
    liuyuncai
        5
    liuyuncai  
       303 天前
    被多机互联的通信带宽限制了,而且你这个是 PCIE 的,GPU 通信也被限制了
    cpstar
        6
    cpstar  
       303 天前
    谁给的勇气判定“理论上性能是足够的”?
    这 8 台,还不知道单台多少块 A100 ,就算是 8 块,总共 64 块。那么首先单台的八卡联合工作问题不大,总共可用显存 320G ,可以上 q8 甚至 fp16 量化,但是 671b 够不到。
    然后就是 8 台机器协同,基本上 PCIE 的不要想了。如果是 8 卡的情况,还需要 8 条 PCIE 插槽给每个显卡配套一张 IB 卡,然后 IB 组网还需要至少 8 台交换机(也许更多,具体方案没有细算过)。反正是 PCIE 版的基本就放弃机间组网,玩一玩本机多卡协同就到头了。然后如果需要机器协同,请去查找 SXM 版的 A100 。
    zhuwd
        7
    zhuwd  
    OP
       303 天前
    @cpstar 目前 8 张卡在一台机器上,总显存 320G ,部署 70B 版本的应该够了吧,只不过 8 张卡是 PCIe 版的
    scys
        8
    scys  
       303 天前
    看运行环境的占用情况和参考 Ollama 的 issue 讨论 8xA100 相关就明白。
    apuslilie
        9
    apuslilie  
       303 天前
    好奇去了解了一下 NVlink ,感觉机器学习对 GPU 之间通信的要求还挺高的(不然 PCIe 应该就够了)。

    个人理解这方面是不是在算法上还有继续挖掘的空间?如果对通信带宽的要求这么高,通信本身的开销就不小吧。

    一般 CPU 为主的计算,通信的开销有,但是感觉要小得多,节点不多的时候用普通网线连接都可以。
    iorilu
        10
    iorilu  
       303 天前
    70b? 为什么要这么多卡
    wuyadaxian
        11
    wuyadaxian  
       303 天前   1
    https://post.smzdm.com/p/a96e6rg5/
    早上刚看了这个。
    reeco
        12
    reeco  
       303 天前   1
    生产环境显存足够还用 ollama 这种套壳干嘛,暴殄天物。70B 用 Triton + TensorRT-LLM 理论性能是最好的
    secondwtq
        13
    secondwtq  
       303 天前
    你把 PCIe P2P 搞起来就可以,应该是不需要 NVLink 的。
    secondwtq
        14
    secondwtq  
       303 天前
    70B 的话试试用四块跑,卡越多通信开销越大。
    kernelpanic
        15
    kernelpanic  
       303 天前
    deepseek 只有一个 671B 版本
    eternitym31
        16
    eternitym31  
       302 天前
    我试过 pcie 和 nvlink 的 8 卡 a100 ,性能差的很少,10%都不到。另外如果是 fp16 权重我感觉 40gb x 8 是不够部署 70B 模型的,我怀疑可能发生了显存和内存的交换,出现了 IO 瓶颈。
    carmark
        17
    carmark  
       302 天前
    8 台还是 8 张,节点内可以走 nvlink 或者 pcie ,节点间如果要低延时可以走 IB 或者 RoCE 。一般而言推理并不需要高带宽,但是需要低延迟的产品。所以如果是 8 台机器最好上 IB 或者 RoCE ,这个比以太网好太多,如果是单机八卡那么其实上 nvlink 意义不大,重点还是要用正经的推理引擎,ollama 的目标是为了能兼容多种硬件。
    lkc3093
        18
    lkc3093  
       302 天前 via Android
    sxm 版本的才能用 nvlink
    mengban
        19
    mengban  
       300 天前
    70B 是指蒸馏版本的 Qwen 吧? 严格来说 这个和 dsk 相差甚远 真想部署所谓的满血 dsk 起步配置是 16 张 80G 的卡 你这配置估计体验不到 dsk 的能力
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3211 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 11:18 PVG 19:18 LAX 03:18 JFK 06:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86