有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 315 天前的主题，其中的信息可能已经有所发展或是发生改变。

毕竟从 1.5b 到 70b 的其实都是微调的其他模型，只有 671b 才是新的架构

671b

架构

性能

19 条回复 2025-02-08 05:38:02 +08:00

Meteora626

315 天前

官网的就 671 ，直接调 api 就知道差距了

AlohaV2

315 天前

Mac Studio 192G 万万没想到自己也成为性价比之选

qxmqh

315 天前

本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。

huluhulu

315 天前

差距非常大，R1 很强，用过 R1 已经不想用其它 API 了

Solix

315 天前

富哥也部署不起，全球能部署的就那么几家

Liftman

315 天前

这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。

securityCoding

315 天前

官网不就是满血版。。。

cat

315 天前

好奇 671b 满血版需要什么硬件才能跑得动？只满足一个人使用

qxmqh

315 天前

@cat 1T 内存和双 H100 80G 显卡五万块钱差不多就够了。

qxmqh

315 天前

@qxmqh 50 万。

stefanaka

315 天前

@qxmqh #9 两张卡肯定不够

azhangbing

315 天前

@cat h200 20GB 4b 六张 h100 应该够可能要两百多万 404g 好像这样的话就需要 21 张 H200 em 太贵了

cat

315 天前

@azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…

azhangbing

314 天前

@cat #13 671b 全量应该是 404G H200 20GB 版本，需要 21 张吧一张你算他 20 万也要 420 万，实际不止美国禁令限制到中国的显卡运过来要花费更多

nagisaushio

314 天前 via Android

用 8*3090 跑了 1.58 bit 的 671b 版，跑到 10toks/s ，感觉生成质量基本没有下降

mingtdlb

314 天前

@nagisaushio 是 ollama 的那个么？ https://ollama.com/library/deepseek-r1:671b

nagisaushio

314 天前

@mingtdlb #16 https://unsloth.ai/blog/deepseekr1-dynamic

zhongdenny

313 天前

@nagisaushio 你是用 ollama 还是 llama.cpp 来运行的？
我用了 2.22bit 的版本，llama.cpp ，8 卡 4090 ，跑到 3 token/s 。

nagisaushio

313 天前 via Android

@zhongdenny 我是 1.58bit ，llama.cpp ，8 卡 3090 ，10tok/s