NVIDIA GPU CUDA core 数对性能的影响 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
feather12315
V2EX    NVIDIA

NVIDIA GPU CUDA core 数对性能的影响

  •  
  •   feather12315 2023-02-14 00:00:36 +08:00 via Android 2733 次点击
    这是一个创建于 1036 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ampere 架构比 turing CUDA cores 翻倍,比如 2060 ( CUDA cores 2176 ) vs A4500 ( CUDA cores 5888 ),理论上计算性能也会翻倍的,在带宽不是瓶颈的情况下,计算相同的东西 GPU 使用量 A4500 比 2060 少一半才对。但是在实际使用上并没有,A4500 只好一丢丢。

    有人能解释下原因吗

    9 条回复    2023-02-15 01:04:52 +08:00
    leimao
        1
    leimao  
       2023-02-14 00:57:56 +08:00 via iPhone   2
    影响因素有很多,很多时候都是参数或者编程没有优化好。首先得保证 GPU utilization 都是 100%。
    FindHao
        2
    FindHao  
       2023-02-14 01:34:46 +08:00 via Android   1
    你测试下最简单的矩阵乘,比如 torch.mm 。结果应该是确实少了一半的执行时间。因为这种程序计算简单,可以达到真正计算单元的瓶颈。到了实际中你使用的程序,就复杂很多了。
    okakuyang
        3
    okakuyang  
       2023-02-14 01:41:17 +08:00
    CUDA 从某一代开始成为英伟达的一种“概念”。
    当它宣称 CUDA 数量的时候,指的不是芯片真实的核心数量,而是一种逻辑上的概念。
    feather12315
        4
    feather12315  
    OP
       2023-02-14 08:56:05 +08:00 via Android
    @okakuyang #3 有出处吗
    neopenx
        5
    neopenx  
       2023-02-14 14:31:18 +08:00
    你代码问题吧。gpu spec 给出了两者的渲染性能 perf 就是 2 倍。
    https://www.techpowerup.com/gpu-specs/geforce-rtx-2060.c3310
    考虑到 2060 的 fp32 peak flops 才是 A4500 的四分之一,跑个 cublas 的 gemm 能摸到 fp32 peak 的完全是暴打 2060 了
    neopenx
        6
    neopenx  
       2023-02-14 14:43:42 +08:00
    @okakuyang CUDA core 是 Stream Processor 或(Shading Unit)的黄氏叫法,就是物理数量。逻辑概念是 CUDA thread ,thread 在代码中可以开到 2**31-1 以上, 但是没有足够的 CUDA core ,所以是分批次调度完的(一次 60K~120K threads)。但凡你写过 cuda 或者 shader 就不会这么说了
    feather12315
        7
    feather12315  
    OP
       2023-02-14 22:58:54 +08:00 via Android
    @neopenx
    1. 我确实没写过 CUDA 或 shader
    2. 确实是没把 GPU 吃满。可这里比较的是相同计算量下的 GPU 使用率,并不是满载的情况。
    Laussan
        8
    Laussan  
       2023-02-15 01:03:47 +08:00
    首先 GPU 不是所有的计算都在 cuda core 上。
    其次核数翻倍不是主频翻倍也不是 ipc 翻倍,粗略加速比计算参考 Amdal's Law.
    最后想要获得比较准确的加速比,需要对你的任务做 profiling.
    Laussan
        9
    Laussan  
       2023-02-15 01:04:52 +08:00
    Amdal -> Amdahl ,这自动语法纠正把对的纠成错的也太搞了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4992 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 03:49 PVG 11:49 LAX 19:49 JFK 22:49
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86