这个推理速度也太快了吧! chatjimmy.ai 比查 db 都快啊! - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
rmrf
V2EX    程序员

这个推理速度也太快了吧! chatjimmy.ai 比查 db 都快啊!

  •  
  •   rmrf 10 小时 44 分钟前 2589 次点击

    chatjimmy.ai 可以体验 “Taalas 推出首款产品 HC1 ,搭载 Llama 3.1 8B 模型,性能达每用户 17,000 tokens/秒,较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍。该模型虽采用自定义 3-bit 数据格式,存在轻微精度损失,但第二代产品将采用标准 4-bit 浮点格式,进一步优化性能。”

    35 条回复    2026-02-21 21:16:28 +08:00
    renfei
        1
    renfei  
       10 小时 30 分钟前
    试了下,快是快,智商不太够,很多逻辑题答案给出的错误的
    rmrf
        2
    rmrf  
    OP
       10 小时 19 分钟前
    @renfei 是的,精度不行,但这推理速度,让很多事情很有想象力了。尝试了一下大段翻译,超级快,而且基本正确。
    cyp0633
        3
    cyp0633  
       10 小时 2 分钟前
    试了一下翻译任务,很难说是精度问题还是模型本身能力不行,只能说都不可用
    wew3
        4
    wew3  
       10 小时 1 分钟前
    让我想起了岳云鹏的相声
    maolon
        5
    maolon  
       9 小时 56 分钟前
    我觉得之前的 openai 的 5.3 codex spark 已经很有想象力了, 没想到这个更夸张
    Leeeeex
        6
    Leeeeex  
    PRO
       9 小时 41 分钟前 via Android   7
    「别管对不对,就说快不快吧」?
    catazshadow
        7
    catazshadow  
       9 小时 37 分钟前 via Android
    大暴死的节奏,AI 的死穴是正确性,不是傻快
    rmrf
        8
    rmrf  
    OP
       9 小时 34 分钟前
    @catazshadow 这才开始,后面慢慢优化起来,很有想象力啊。
    duty
        9
    duty  
       9 小时 28 分钟前
    正确性是靠模型的,这个只是证明了一个方案的可行性,就是把模型直接写入到芯片中,忽略了内存和带宽的限制
    coderluan
        10
    coderluan  
       8 小时 44 分钟前
    确实快的有点夸张,有些场合确实有用,感谢楼主,新年祝大家也都这么快
    catazshadow
        11
    catazshadow  
       7 小时 45 分钟前 via Android
    @rmrf 这条路的尽头是 cerebras 那样的晶圆级芯片

    https://www.cerebras.ai/blog/openai-codexspark

    这么大的东西能跑每秒 1000token ,比这个小的要么比它傻要么比它慢
    CodFrm
    12
    CodFrm  
       7 小时 45 分钟前
    「别管对不对,就说快不快吧」


    77158158
        13
    77158158  
       7 小时 7 分钟前
    瞎回复的。只管快,不管对。
    CuteGirl
        14
    CuteGirl  
       5 小时 50 分钟前
    除了快 其他都不行 回答要么无法回答 要么就是不知所云 - -!
    B4a1n
        15
    B4a1n  
       5 小时 48 分钟前
    @catazshadow #11 确实,我用 Cline 插件配合 cerebras 的 GLM 跑一个老项目的新系统兼容构建编译,写好提示后它能以极快的速度疯狂的编写测试用例跟反复自己解决 BUG ,直到满足我的需求为止,硬生生跑了半个小时用极快的测试样例跟不停的自动修改 BUG 给我编译成可运行的版本了,完全是用速度跟大 token 换出来的
    i386
        16
    i386  
       5 小时 47 分钟前 via iPhone
    @CodFrm 哈哈哈
    xing7673
        17
    xing7673  
       5 小时 45 分钟前
    节点换到 [推广] 请
    Tink
        18
    Tink  
    PRO
       4 小时 52 分钟前
    不行,精度太差了

    Gilfoyle26
        19
    Gilfoyle26  
       4 小时 39 分钟前
    1351253123*31388993624+12312424/35123512314234=354362455345523454

    先别管对不对,你就说快不快吧!
    Ccf
        20
    Ccf  
       4 小时 32 分钟前

    魔咒了!
    Ccf
        21
    Ccf  
       4 小时 31 分钟前


    魔咒了!
    LUO12826
        22
    LUO12826  
       4 小时 25 分钟前
    V 站这些人真是程序员么,碰到什么新产品都要先看衰一番,就不能先看看人家产品的目标和理念是什么吗。
    guzzhao
        23
    guzzhao  
       4 小时 25 分钟前
    YanSeven
        24
    YanSeven  
       3 小时 52 分钟前
    这个放出来比较的意义不是很大啊,这个 demo 也确实只能说明快,比其他 8B 模型快。但是 8B 都应用场景以及这个模型给出的答案质量好像无法进一步说明什么,可以坐等一手类似 GTP2>GPT3 的跨越。
    xiaotianhu
        25
    xiaotianhu  
       3 小时 33 分钟前
    @catazshadow #7 能干很多事儿了,要求不高的翻译,初筛审核,简单内容总结,而且这只是 demo 说明路径有戏,想象力大的很
    catazshadow
        26
    catazshadow  
       3 小时 29 分钟前 via Android
    @xiaotianhu 8B 的模型,真的算了。自己用 ollama 玩一玩就知道了
    seven777
        27
    seven777  
       3 小时 12 分钟前 via iPhone
    “ 较现有技术快近 10 倍,制造成本降低 20 倍,功耗减少 10 倍” !!!
    seven777
        28
    seven777  
       3 小时 10 分钟前 via iPhone
    @LUO12826 V2er 都不太习惯盲从。
    icyalala
        29
    icyalala  
       3 小时 2 分钟前
    小模型能力不强,但对于文本分类、意图判断、简单翻译之类的场景完全够用,低延迟大并发很有用
    怎么上面这么多人,先不去想想有什么适用场景,一上来就批判一番...
    june4
        30
    june4  
       2 小时 59 分钟前
    以后机器人上只能采用这类技术,用传统 llm 那性能比百岁老头动作还慢
    Dream4U
        31
    Dream4U  
       2 小时 53 分钟前
    哈哈,嘛玩意
    Muniesa
        32
    Muniesa  
       2 小时 40 分钟前 via Android
    不准是 llama 3.1 8B 的问题,用这个小模型应该就是验证下思路,后面把几百 B 的模型弄好了,准确性就不是问题了
    Dream4U
        33
    Dream4U  
       2 小时 40 分钟前
    @LUO12826 至少能用吧,你啥用都没有,就吹上了,意义是啥?
    realpg
        34
    realpg  
    PRO
       2 小时 3 分钟前
    很久以前群里就说有华人团队在干这事儿, 不过不是用小模型验证, 是直接尝试搞中等以上的模型
    就是矿机的思路 不一定哪天就震撼发布了
    WuSiYu
        35
    WuSiYu  
       17 分钟前   1
    难绷楼上几乎没一个在讨论技术的。。。
    搜了一下文章: https://kaitchup.substack.com/p/taalas-hc1-absurdly-fast-per-user

    确实是相当 fancy 的一个工作,直接将权重固化成了物理电路,不是“推理任务 ASIC”而是“特定模型的 ASIC”。效果自然是单请求 decode 速度力大砖飞,完全没有 memory wall ,吊打一切 HBM 甚至是 SRAM/存算的工作,也吊打一切投机推理和 dLLM 。

    但代价也很明显:为了塞下一个 3bit 8b 的权重,die size 达到了 815mm ( TSMC N6 ),要知道 4090 才 600+mm ( N5 ),塞下更大模型成本很高。另外并发能力和最大上下文长度未知,可能就只有单并发能力和几千 token 量级,毕竟看起来全靠 sram:

    https://substackcdn.com/image/fetch/$s_!I1yU!,w_1456,c_limit,f_webp,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45cfa22a-ce4b-4704-9aed-ba7a4214c656_612x408.png

    评价是科技与狠活,作为学术工作的话非常 fancy ,作为商业用途的话需要找到合适场景,毕竟这么小的模型比较唐是正常的,但这推理速度能干很多之前 LLM 因为实时性没法干的事
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2131 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 13:34 PVG 21:34 LAX 05:34 JFK 08:34
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86