
chatjimmy.ai 可以体验 “Taalas 推出首款产品 HC1 ,搭载 Llama 3.1 8B 模型,性能达每用户 17,000 tokens/秒,较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式,存在轻微精度损失,但第二代产品将采用标准 4-bit 浮点格式,进一步优化性能。”
1 renfei 10 小时 30 分钟前 试了下,快是快,智商不太够,很多逻辑题答案给出的错误的 |
3 cyp0633 10 小时 2 分钟前 试了一下翻译任务,很难说是精度问题还是模型本身能力不行,只能说都不可用 |
4 wew3 10 小时 1 分钟前 让我想起了岳云鹏的相声 |
5 maolon 9 小时 56 分钟前 我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了, 没想到这个更夸张 |
6 Leeeeex PRO 「别管对不对,就说快不快吧」? |
7 catazshadow 9 小时 37 分钟前 via Android 大暴死的节奏,AI 的死穴是正确性,不是傻快 |
8 rmrf OP @catazshadow 这才开始,后面慢慢优化起来,很有想象力啊。 |
9 duty 9 小时 28 分钟前 正确性是靠模型的,这个只是证明了一个方案的可行性,就是把模型直接写入到芯片中,忽略了内存和带宽的限制 |
10 coderluan 8 小时 44 分钟前 确实快的有点夸张,有些场合确实有用,感谢楼主,新年祝大家也都这么快 |
11 catazshadow 7 小时 45 分钟前 via Android @rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片 https://www.cerebras.ai/blog/openai-codexspark 这么大的东西能跑每秒 1000token ,比这个小的要么比它傻要么比它慢 |
12 CodFrm 7 小时 45 分钟前 |
13 77158158 7 小时 7 分钟前 瞎回复的。只管快,不管对。 |
14 CuteGirl 5 小时 50 分钟前 除了快 其他都不行 回答要么无法回答 要么就是不知所云 - -! |
15 B4a1n 5 小时 48 分钟前 @catazshadow #11 确实,我用 Cline 插件配合 cerebras 的 GLM 跑一个老项目的新系统兼容构建编译,写好提示后它能以极快的速度疯狂的编写测试用例跟反复自己解决 BUG ,直到满足我的需求为止,硬生生跑了半个小时用极快的测试样例跟不停的自动修改 BUG 给我编译成可运行的版本了,完全是用速度跟大 token 换出来的 |
17 xing7673 5 小时 45 分钟前 节点换到 [推广] 请 |
18 Tink PRO |
19 Gilfoyle26 4 小时 39 分钟前 |
20 Ccf 4 小时 32 分钟前 |
21 Ccf 4 小时 31 分钟前 |
22 LUO12826 4 小时 25 分钟前 V 站这些人真是程序员么,碰到什么新产品都要先看衰一番,就不能先看看人家产品的目标和理念是什么吗。 |
23 guzzhao 4 小时 25 分钟前 |
24 YanSeven 3 小时 52 分钟前 这个放出来比较的意义不是很大啊,这个 demo 也确实只能说明快,比其他 8B 模型快。但是 8B 都应用场景以及这个模型给出的答案质量好像无法进一步说明什么,可以坐等一手类似 GTP2>GPT3 的跨越。 |
25 xiaotianhu 3 小时 33 分钟前 @catazshadow #7 能干很多事儿了,要求不高的翻译,初筛审核,简单内容总结,而且这只是 demo 说明路径有戏,想象力大的很 |
26 catazshadow 3 小时 29 分钟前 via Android @xiaotianhu 8B 的模型,真的算了。自己用 ollama 玩一玩就知道了 |
27 seven777 3 小时 12 分钟前 via iPhone “ 较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍” !!! |
29 icyalala 3 小时 2 分钟前 小模型能力不强,但对于文本分类、意图判断、简单翻译之类的场景完全够用,低延迟大并发很有用 怎么上面这么多人,先不去想想有什么适用场景,一上来就批判一番... |
30 june4 2 小时 59 分钟前 以后机器人上只能采用这类技术,用传统 llm 那性能比百岁老头动作还慢 |
31 Dream4U 2 小时 53 分钟前 哈哈,嘛玩意 |
32 Muniesa 2 小时 40 分钟前 via Android 不准是 llama 3.1 8B 的问题,用这个小模型应该就是验证下思路,后面把几百 B 的模型弄好了,准确性就不是问题了 |
34 realpg PRO 很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型 就是矿机的思路 不一定哪天就震撼发布了 |
35 WuSiYu 17 分钟前 难绷楼上几乎没一个在讨论技术的。。。 搜了一下文章: https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user 确实是相当 fancy 的一个工作,直接将权重固化成了物理电路,不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞,完全没有 memory wall ,吊打一切 HBM 甚至是 SRAM/存算的工作,也吊打一切投机推理和 dLLM 。 但代价也很明显:为了塞下一个 3bit 8b 的权重,die size 达到了 815mm ( TSMC N6 ),要知道 4090 才 600+mm ( N5 ),塞下更大模型成本很高。另外并发能力和最大上下文长度未知,可能就只有单并发能力和几千 token 量级,毕竟看起来全靠 sram: https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png 评价是科技与狠活,作为学术工作的话非常 fancy ,作为商业用途的话需要找到合适场景,毕竟这么小的模型比较唐是正常的,但这推理速度能干很多之前 LLM 因为实时性没法干的事 |