Apple 统一内存适合运行 LLM?理想很丰满,现实很骨感 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hjc4869
V2EX    Local LLM

Apple 统一内存适合运行 LLM?理想很丰满,现实很骨感

  •  1
     
  •   hjc4869 2024-11-14 12:46:29 +08:00 2649 次点击
    这是一个创建于 396 天前的主题,其中的信息可能已经有所发展或是发生改变。
    8 条回复    2025-04-25 23:11:26 +08:00
    F281M6Dh8DXpD1g2
        1
    F281M6Dh8DXpD1g2  
       2024-11-14 12:49:20 +08:00   1
    haters gonna hate
    piero66
        2
    piero66  
       2024-11-14 15:01:54 +08:00 via Android   1
    低预算显存总量优先,算力其次
    neteroster
        3
    neteroster  
       2024-11-14 15:31:29 +08:00 via Android
    认同这篇文章的主要观点,它谈及了一些关于本地 LLM 推理很多人没注意但很重要的内容。

    先不谈高 batch (毕竟日常不常用),大多数人都没意识到 M 芯片 prefill 很慢,而这个在上下文长的情况下是挺致命的。而且其实 decode 速度也会受上下文长度影响,很多测试仅仅是在很短的 prompt 下去测生成,得到一个看起来挺好看的数字,然而实际使用中很多情况下根本不是这种场景。

    个人观点是,当前,本地 LLM 推理对于大多数普通用户或开发者没有显著的使用必要,除非是特殊需求(例如强隐私需求等)。个人用户花大价钱购买设备单纯只是去推理本地 LLM 在现在看起来是不太明智的,当然如果是其他需求顺便推模型或者单纯太有钱买来玩玩那倒也没什么。即使非要谈本地推理,Mac 的应用场景也是较窄的,文章中写的已经听明白了。

    文章还谈到了投机解码,这个确实很有意义,特别是对于生成内容主要是代码的情况,加速应该是相当明显( cursor 的自动补全就用了),期待未来这方面的发展。

    作为补充,看起来文章测 text generation 的时候只是用了 llama.cpp ,他的多卡实现应该还是 pipeline parallel ,有一些后端支持 tensor parallel ,多卡情况下单 batch 性能应该还能进一步提高(但对 PCIe 速度有更高要求),希望有相关测试。
    neteroster
        4
    neteroster  
       2024-11-14 15:38:47 +08:00 via Android
    @neteroster #3 没注意都是用单卡测的,那就不涉及多卡推理的方式了。不过非要本地推理现在性价比高的方案应该还是游戏卡多来几张
    SkywalkerJi
        5
    SkywalkerJi  
       2024-11-14 16:11:52 +08:00 via Android
    p40 1000 块就能买 24G 显存了。
    这价格买 Apple 黄金内存还不到 8g ,性价比在哪。
    预算超过 1w5 的话,大部分人也都会 3090 或者 4090 吧。
    @piero66
    Donaldo
        6
    Donaldo  
       2024-11-14 16:16:22 +08:00
    @SkywalkerJi #5 4090 显存也就 24g ,顶多跑个 30b 的。192g 的 mac studio 也就双 4090 的主机的钱。
    Donaldo
        7
    Donaldo  
       2024-11-14 16:17:15 +08:00
    @SkywalkerJi #5 当然,mac 更多的能在享受大内存的是顺便深入的玩玩 llm 比如微调模型什么的,真要考虑训练什么的,还是用专业的把。
    noogler67
        8
    noogler67  
       233 天前
    apple 芯片和其他芯片比起来内存带宽瓶颈严重。
    m4max 500GB/s ,4090 1000GB/s, 5090 1800GB/s, A100 2000GB/s, H100 3000GB/s
    影响推理/训练速度
    数据没仔细核查,大体是这样。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3152 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 11:31 PVG 19:31 LAX 03:31 JFK 06:31
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86