有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
2067
1D
1.3D
V2EX    Local LLM

有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

  •  
  •   2067 246 天前 3308 次点击
    这是一个创建于 246 天前的主题,其中的信息可能已经有所发展或是发生改变。
    毕竟从 1.5b 到 70b 的其实都是微调的其他模型,只有 671b 才是新的架构
    19 条回复    2025-02-08 05:38:02 +08:00
    Meteora626
        1
    Meteora626  
       246 天前
    官网的就 671 ,直接调 api 就知道差距了
    AlohaV2
        2
    AlohaV2  
       246 天前
    Mac Studio 192G 万万没想到自己也成为性价比之选
    qxmqh
        3
    qxmqh  
       246 天前
    本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。
    huluhulu
        4
    huluhulu  
       246 天前
    差距非常大,R1 很强,用过 R1 已经不想用其它 API 了
    Solix
        5
    Solix  
       246 天前
    富哥也部署不起,全球能部署的就那么几家
    Liftman
        6
    Liftman  
       246 天前
    这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。
    securityCoding
        7
    securityCoding  
       246 天前
    官网不就是满血版。。。
    cat
        8
    cat  
       246 天前
    好奇 671b 满血版需要什么硬件才能跑得动?只满足一个人使用
    qxmqh
        9
    qxmqh  
       246 天前
    @cat 1T 内存和双 H100 80G 显卡 五万块钱差不多就够了。
    qxmqh
        10
    qxmqh  
       246 天前
    @qxmqh 50 万。
    stefanaka
        11
    stefanaka  
       246 天前
    @qxmqh #9 两张卡肯定不够
    azhangbing
        12
    azhangbing  
       246 天前
    @cat h200 20GB 4b 六张 h100 应该够 可能要两百多万 404g 好像 这样的话就需要 21 张 H200 em 太贵了
    cat
        13
    cat  
       246 天前
    @azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…
    azhangbing
        14
    azhangbing  
       246 天前   1
    @cat #13 671b 全量应该是 404G H200 20GB 版本 ,需要 21 张吧 一张你算他 20 万 也要 420 万,实际不止 美国禁令限制到中国的显卡 运过来要花费更多
    nagisaushio
        15
    nagisaushio  
       246 天前 via Android
    用 8*3090 跑了 1.58 bit 的 671b 版,跑到 10toks/s ,感觉生成质量基本没有下降
    mingtdlb
        16
    mingtdlb  
       245 天前
    nagisaushio
        17
    nagisaushio  
       245 天前   1
    zhongdenny
        18
    zhongdenny  
       245 天前
    @nagisaushio 你是用 ollama 还是 llama.cpp 来运行的?
    我用了 2.22bit 的版本,llama.cpp ,8 卡 4090 ,跑到 3 token/s 。
    nagisaushio
        19
    nagisaushio  
       244 天前 via Android
    @zhongdenny 我是 1.58bit ,llama.cpp ,8 卡 3090 ,10tok/s
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     889 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 20:45 PVG 04:45 LAX 13:45 JFK 16:45
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86