这个推理速度也太快了吧！ chatjimmy.ai 比查 db 都快啊！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

chatjimmy.ai 可以体验 “Taalas 推出首款产品 HC1 ，搭载 Llama 3.1 8B 模型，性能达每用户 17,000 tokens/秒，较现有技术快近 10 倍，制造成本降低 20 倍，功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式，存在轻微精度损失，但第二代产品将采用标准 4-bit 浮点格式，进一步优化性能。”

35 条回复 2026-02-21 21:16:28 +08:00

renfei

10 小时 30 分钟前

试了下，快是快，智商不太够，很多逻辑题答案给出的错误的

rmrf

10 小时 19 分钟前

@renfei 是的，精度不行，但这推理速度，让很多事情很有想象力了。尝试了一下大段翻译，超级快，而且基本正确。

cyp0633

10 小时 2 分钟前

试了一下翻译任务，很难说是精度问题还是模型本身能力不行，只能说都不可用

wew3

10 小时 1 分钟前

让我想起了岳云鹏的相声

maolon

9 小时 56 分钟前

我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了，没想到这个更夸张

Leeeeex

PRO

9 小时 41 分钟前 via Android

「别管对不对，就说快不快吧」？

catazshadow

9 小时 37 分钟前 via Android

大暴死的节奏，AI 的死穴是正确性，不是傻快

rmrf

9 小时 34 分钟前

@catazshadow 这才开始，后面慢慢优化起来，很有想象力啊。

duty

9 小时 28 分钟前

正确性是靠模型的，这个只是证明了一个方案的可行性，就是把模型直接写入到芯片中，忽略了内存和带宽的限制

coderluan

8 小时 44 分钟前

确实快的有点夸张，有些场合确实有用，感谢楼主，新年祝大家也都这么快

catazshadow

7 小时 45 分钟前 via Android

@rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片

https://www.cerebras.ai/blog/openai-codexspark

这么大的东西能跑每秒 1000token ，比这个小的要么比它傻要么比它慢

CodFrm

7 小时 45 分钟前

「别管对不对，就说快不快吧」

77158158

7 小时 7 分钟前

瞎回复的。只管快，不管对。

CuteGirl

5 小时 50 分钟前

除了快其他都不行回答要么无法回答要么就是不知所云 - -！

B4a1n

5 小时 48 分钟前

@catazshadow #11 确实，我用 Cline 插件配合 cerebras 的 GLM 跑一个老项目的新系统兼容构建编译，写好提示后它能以极快的速度疯狂的编写测试用例跟反复自己解决 BUG ，直到满足我的需求为止，硬生生跑了半个小时用极快的测试样例跟不停的自动修改 BUG 给我编译成可运行的版本了，完全是用速度跟大 token 换出来的

i386

5 小时 47 分钟前 via iPhone

@CodFrm 哈哈哈

xing7673

5 小时 45 分钟前

节点换到 [推广] 请

Tink

PRO

4 小时 52 分钟前

不行，精度太差了

Gilfoyle26

4 小时 39 分钟前

1351253123*31388993624+12312424/35123512314234=354362455345523454

先别管对不对，你就说快不快吧！

Ccf

4 小时 32 分钟前

魔咒了！

Ccf

4 小时 31 分钟前

魔咒了！

LUO12826

4 小时 25 分钟前

V 站这些人真是程序员么，碰到什么新产品都要先看衰一番，就不能先看看人家产品的目标和理念是什么吗。

guzzhao

4 小时 25 分钟前

YanSeven

3 小时 52 分钟前

这个放出来比较的意义不是很大啊，这个 demo 也确实只能说明快，比其他 8B 模型快。但是 8B 都应用场景以及这个模型给出的答案质量好像无法进一步说明什么，可以坐等一手类似 GTP2>GPT3 的跨越。

xiaotianhu

3 小时 33 分钟前

@catazshadow #7 能干很多事儿了，要求不高的翻译，初筛审核，简单内容总结，而且这只是 demo 说明路径有戏，想象力大的很

catazshadow

3 小时 29 分钟前 via Android

@xiaotianhu 8B 的模型，真的算了。自己用 ollama 玩一玩就知道了

seven777

3 小时 12 分钟前 via iPhone

“ 较现有技术快近 10 倍，制造成本降低 20 倍，功耗减少 10 倍” ！！！

seven777

3 小时 10 分钟前 via iPhone

@LUO12826 V2er 都不太习惯盲从。

icyalala

3 小时 2 分钟前

小模型能力不强，但对于文本分类、意图判断、简单翻译之类的场景完全够用，低延迟大并发很有用
怎么上面这么多人，先不去想想有什么适用场景，一上来就批判一番...

june4

2 小时 59 分钟前

以后机器人上只能采用这类技术，用传统 llm 那性能比百岁老头动作还慢

Dream4U

2 小时 53 分钟前

哈哈，嘛玩意

Muniesa

2 小时 40 分钟前 via Android

不准是 llama 3.1 8B 的问题，用这个小模型应该就是验证下思路，后面把几百 B 的模型弄好了，准确性就不是问题了

Dream4U

2 小时 40 分钟前

@LUO12826 至少能用吧，你啥用都没有，就吹上了，意义是啥？

realpg

PRO

2 小时 3 分钟前

很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型
就是矿机的思路不一定哪天就震撼发布了

WuSiYu

17 分钟前

难绷楼上几乎没一个在讨论技术的。。。
搜了一下文章： https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user

确实是相当 fancy 的一个工作，直接将权重固化成了物理电路，不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞，完全没有 memory wall ，吊打一切 HBM 甚至是 SRAM/存算的工作，也吊打一切投机推理和 dLLM 。

但代价也很明显：为了塞下一个 3bit 8b 的权重，die size 达到了 815mm （ TSMC N6 ），要知道 4090 才 600+mm （ N5 ），塞下更大模型成本很高。另外并发能力和最大上下文长度未知，可能就只有单并发能力和几千 token 量级，毕竟看起来全靠 sram：

https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png

评价是科技与狠活，作为学术工作的话非常 fancy ，作为商业用途的话需要找到合适场景，毕竟这么小的模型比较唐是正常的，但这推理速度能干很多之前 LLM 因为实时性没法干的事