![]() | 1 MIUIOS 30 天前 传统大模型普遍采用 Transformer 架构,其计算复杂度随序列长度呈平方级增长,导致训练和推理成本居高不下。SpikingBrain-1.0 突破性地引入脉冲神经元技术,构建了线性( 7B 参数)和近线性( 76B 参数)复杂度模型。测试数据显示,在 GPU 环境下处理 100 万长度序列时,其首个 Token 生成速度较主流模型提升 26.5 倍;处理 400 万长度序列时,保守估计速度提升超过 100 倍。移动端测试同样亮眼,在手机 CPU 上处理 6.4 万至 25.6 万长度序列时,解码速度较同规模 Llama3.2 模型提升 4.04 至 15.39 倍。 |
![]() | 2 MIUIOS 30 天前 问了 8.6 和 8.10 哪个大? 回答如下: 8.10 大于 8.6 。 原因: 版本号中的数字从左到右依次递增,且每位数字按十进制比较大小。例如: 。主版本号(第 1 位)相同的情况下比较次版本号(第 2 位)。若主版本号不同,则直接对比主版本号 结论:8.10>8.6 。 |
3 KinBob 30 天前 问题:我叫我的姐姐的女儿的舅舅的儿子叫啥 |
4 brsyrockss 30 天前 @KinBob 回答:我 dnmd 回家问你姐去 |
![]() | 5 cherryas 30 天前 @totoro52 你这个回答的是版本号是正确的。 我加了个数学中: 在比较两个小数时,应先比较整数部分,再依次比较小数部分的每一位。 整数部分均为 8 ,相等。 8.6 的小数部分为 0.6 8.10 的小数部分为 0.10 0.10 (十分位上的 1 ,百分位上的 0 )。 结论: 8.6 大于 8.10 。 |
6 hanbing135 30 天前 @totoro52 已经修正了 |
7 deplives 30 天前 |
![]() | 8 c4923 30 天前 @KinBob 你叫你的姐姐的女儿的舅舅的儿子叫"曾侄子或曾侄女"。 详细推理过程: 起点:你自己 → "我" 姐姐的女儿 → 表妹的孩子,即你的外甥或外甥女。 舅舅的儿子 → 表兄弟姐妹的孩子中的一个(舅舅一般有多个儿子)。 舅舅的儿子的儿子 → 孙辈,即你的曾侄子或曾侄女。 因此,最终的答案是第三代亲属,即曾侄子或曾侄女。 |
![]() | 9 w3 30 天前 眼一花看成了 SpringBrain |
10 lance07 30 天前 随便问了个系统设计问题, 纯胡言乱语啊, 不管啥都给你扯什么模型啥的, 还有一堆莫名其妙的概念 |
11 hongc 30 天前 它说:““你爸爸的妈妈”指父亲的外婆。” ...... |
![]() | 12 joshuacavell 30 天前 笑死,我问"我和我的七舅姥爷是什么关系" 推理过程:"“舅”通常指父亲的兄弟,也就是姑父。“姥”则是母亲的姐妹,也就是姨妈。" |
![]() | 13 Goooooos 30 天前 还有很多优化空间 |
![]() | 15 v2tex 30 天前 想起来一张图:不管对不对,你就说我算的快不快吧( |
![]() | 17 yb2313 29 天前 问了一下感觉智力过低, 中科院做出 ai 成果有可能, 但做成跨时代成果不可能 |
![]() | 18 siriussilen 29 天前 “传统大模型普遍采用 Transformer 架构,其计算复杂度随序列长度呈平方级增长,导致训练和推理成本居高不下” 不然嘞,linear attention 没什么问题,就是性能拉跨, 你想想为什么大家都在用 transformer 呢? |
![]() | 19 coefu 29 天前 ![]() 目前只是 1.0. 完全不同的技术路线,能走通,并有一定的效果,就是很好的了。 脉冲神经网络( SNN )目前硬件没有跟上,当硬件跟上配合的时候,能在极低的功耗下工作,比当前的 ANN 有搞头的多。 这就像是 gpt1 ,你不能用 gpt5 的水平去要求 gpt1 。 很遗憾,在程序员这个节点,没有看到前瞻性的老铁。可能大家的知识点都被框在了 web 体系。整个计算机科学与技术,不止 web/移动端 这些。 |
![]() | 20 coefu 29 天前 @siriussilen 2017 年 transformer 出来之后,谁会预料到 gpt3.5 在 2023 年就起来了呢?当然了,snn 做 LLM ,因为可以摸着石头过河,所以比之 gpt1~gpt3 的原创突破性有所不足,但至少也填补了一条非 transformer 路线的空白,并且因为 snn 的低功耗和时序处理优势,可能会走出一条更好的路线。 transformer 的各种变种都已经是强弩之末了( LLM 的功能和性能的边际效应递减,导致代际提升放缓,gpt4~5 的提升并没有 1~3 激烈),你不想想为什么要找新路线? |
![]() | 21 coefu 29 天前 前瞻性预测,如果第一作者李国齐,因为这个瞬悉获得国家进步科技奖,国家科技进步二等奖足矣,那么大概率后续会评院士。因为他目前已经是杰青了。截止 2025.9 ,snn 目前国内 team 本就不多,一部分做硬件,算法这块出成果的鲜有。所以也算是填补了空白,往往这种填补空白的工作收益很大。 插个 flag ,后续有新闻了,且看老夫的前瞻性眼光如何。 |
![]() | 22 siriussilen 29 天前 via iPhone @coefu gpt3.5 出来和 sparse attention 没啥关系啊,我在和你就事论事,你在说新技术新路线新变革就算是 gpt6 出来了,也和 Sparse attention 一点关系都没有,二次方复杂度就带来二次方的效果,仅此而已。无数的实验都表明 Sparse attention 性能就是有损,拿 Sparse attention 当新变革我只能说你是一个半吊子 |
![]() | 23 siriussilen 29 天前 via iPhone @coefu 这玩意就是骗经费用的,实用价值是 0 ,没错,就是 0 |
![]() | 24 coefu 29 天前 ![]() @siriussilen #22 我半吊子,你就是全吊子?就事论事搞人身攻击?我也是就事论事啊,脉冲神经网络和人工神经网络,底层构造就不同,你有真正了解过吗?开口闭口就这玩意儿。NLP 是不是就只能搞 transformer ?是不是只有 attention 机制绝对正确?这么狂,你几斤几两啊?放点你的学术成果也让我长长见识? 当然了,脉冲神经网络未来的发展,也不是你说实用价值是 0 就是 0 ,只能说你这个人,水平一般,口气很大。有你这种毫无远见的人,才能凸显别人的成就。 不用再回我,已经 block 你了。 |
![]() | 25 siriussilen 29 天前 via iPhone @coefu 笑死 愿你永远活在愚昧中 |
![]() | 26 siriussilen 29 天前 via iPhone @coefu 没有经过时间检验的就是 bullshit 指标刷上去再谈变革,ok? |
27 testy 28 天前 via Android 为什么用 cf 隧道?还是临时的 |
28 Meteora626 28 天前 非 tf 的大模型又不是没有,就看谁能卷出效果了。 |