请教,关于显卡内存 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
abc634
V2EX    Local LLM

请教,关于显卡内存

  •  
  •   abc634 272 天前 2387 次点击
    这是一个创建于 272 天前的主题,其中的信息可能已经有所发展或是发生改变。

    运行 llm 需要一定的显卡内存。 但是市面上的显卡内存超过 12G 的话就贵了。

    因此有个猜想的方案, 使用 可以分享内存的集成显卡(例如 AMD 的)

    然后可以把内存例如 32 G 分配给 集成显卡, 从而达到运行 大参数模型的目的。

    当然,我知道 集成显卡算力差,但是有时候验证原型花一些时间等待是可以接受的。

    请问有没有人这么做过,或者是否可行?

    感谢赐教先。

    22 条回复    2025-01-23 16:22:18 +08:00
    cbythe434
        1
    cbythe434  
       272 天前
    苹果统一内存,咔咔整
    Boyang
        2
    Boyang  
       272 天前
    ROG 在今年 CES 上发布的幻 X 着重就讲了这点,128G 统一内存可以分配给核显跑模型
    Remember
        3
    Remember  
       272 天前
    strix halo 了解一下?
    june4
        4
    june4  
       272 天前
    瓶颈在内存性能,每生成一个 token 都要扫一次,普通内存不行
    wangritian
        5
    wangritian  
       272 天前
    2080ti 22g 魔改版 2200 元
    hertzry
        6
    hertzry  
       272 天前 via iPhone
    用 deepspeed offload 到 cpu(内存),甚至可以 offload 到硬盘;使用 bf16 混合精度;还可以用 bitsandbytes 量化到 8bit 和 4bit 。
    ztmzzz
        7
    ztmzzz  
       272 天前 via iPhone
    14b 模型 lora 微调,用 deepspeed offload 到内存和直接跑对比,速度差了一倍。如果能接受就还可行。
    paopjian
        8
    paopjian  
       272 天前
    可行,意义不大, 会导致频繁的内存-显存交换, wsl2 好像早就可以了, 搜索 NVIDIA shared memory
    MacsedProtoss
        9
    MacsedProtoss  
       272 天前 via iPhone
    你是不是在找:Mac Studio
    emberzhang
        10
    emberzhang  
       272 天前
    验证原型?验证什么原型。。。
    plasticman64
        11
    plasticman64  
       272 天前
    喜欢玩 LLM ,买 mac
    gam2046
        12
    gam2046  
       272 天前
    可以,但是慢,受限于内存到 GPU 之间的内存带宽,慢到几乎没有可用性。GPU 根本跑不满的程度。
    joynvda
        13
    joynvda  
       272 天前
    理论上应该可以给核显 32G 内存;更高就不清楚了;
    最近才发现笔记本 64G 内存,有 32G 标记为显存;
    而通过 intel python 环境(有 win 版的),应该可以吧。还没验证。自己的是 12 代 U i7 ,DDR4 。动力不大。

    至于什么验证模型,推理模型不如直接用国内平台提供的。无需折腾运行环境。
    ryd994
        14
    ryd994  
       272 天前 via Android
    共享显存(也就是你说的情况):显存性能太差
    洋垃圾计算卡:算力不高,功耗太高
    魔改显卡:价格贵,稳定性堪忧
    kaseki2023
        15
    kaseki2023  
       270 天前
    显卡有个指标叫运算强度,指 1B 数据加载到计算单元时间内,计算单元可以执行的计算次数,如果用主存或者硬盘来传输,你会发现远远摸不到这个指标
    abc634
        16
    abc634  
    OP
       269 天前
    @joynvda
    理论上应该可以给核显 3 验证模型,推理模型不如直接用国内平台提供的

    谢谢,使用第三方平台确实有考虑,但是在联调中希望先确认模型可用,
    比如手上有 5 个模型,根本不知道哪个质量好,希望先本地验证可用,再用平台的去跑。
    主要是觉得这样方便。
    abc634
        17
    abc634  
    OP
       269 天前
    @Boyang
    感谢,我也关注 幻 X 看看(如果笔记本便携又可以跑本地模型,感觉非常理想)

    ROG 在今年 CES 上发布的着重就讲了这点,128G 统一内存可以分配给核显跑模型

    @Remember
    strix halo 这个好像也是个选择,不知道是不是和 幻 X 同个路线。

    @MacsedProtoss @plasticman64
    谢谢了,只是 Mac Studio 暂时不考虑。
    abc634
        18
    abc634  
    OP
       269 天前
    其他各位的经验,也谢谢分享。
    mili100
        19
    mili100  
       269 天前
    也许可以尝试下 Ollama/llama.cpp ,没有显卡但是有高性能 CPU 纯 CPU 推理只要有足够的许多模型都能够运行的,特别是对于激活参数较小的 MoE 模型(比如 Deepseek )。
    在我的环境下( R9 7945HX + 96G RAM ) Deepseek-v2.5-1210 IQ2_XS 能有几到十几的 TPS ,奈何没有更大的内存,我觉得只要有 256G RAM Q4_0/Q4_K_M 也许也是没有问题的。
    在 X 上也有人纯 CPU 成功运行起来了 Deepseek-v3 而且似乎还不错: https://x.com/nisten/status/1877276141905387565
    Remember
        20
    Remember  
       269 天前
    @abc634 幻 x 搭载的就是 stx halo ,号称 128G 内存可以分 96 给显卡。
    abc634
        21
    abc634  
    OP
       261 天前
    @mili100 感谢经验分享。
    看起来是不错的主意,但是 需要比较强的代码能力?
    我这边主要偶尔要测试下 Hugging Face 的模型,我暂时还不清除当这些模型要求使用 cuda 的时候,怎么去改造成使用 Ollama ,感谢提供了一个新的思路。
    YsHaNg
        22
    YsHaNg  
       260 天前 via iPhone
    @abc634 你是指用 ollama offload cpu 推理? 其实可以都做 拉 docker 选 cuda tag num_gpu 指定使用 gpu 数量 这样可以随时切换
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     884 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 97ms UTC 21:18 PVG 05:18 LAX 14:18 JFK 17:18
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86