
1 ShadowPower 2025 年 3 月 7 日 via Android 写代码感觉和 o3 mini 差不多,比不过 r1 ,但也算能用 好处是量化之后一块 3090 就能跑,速度还挺快 |
2 niubilewodev 2025 年 3 月 7 日 感觉思考话太多了。 |
3 privil 2025 年 3 月 7 日 “小红有两个姐姐和四个妹妹,她的四个妹妹中年龄第三小的小青总共有几个姐姐?” 这个问题能直接让 QWQ-32B 懵逼 |
5 lowly 2025 年 3 月 7 日 @privil 你这个问题,刚试了下 文心一言,给的是三个 通义千问,给的是三个 DeepSeek V3 给的结果是 3 DeepSeek R1 直接陷在思考中,不断自我怀疑是 3 还是 5 GPT 没开思考是 5 个,开了思考 4 个 |
8 lowly 2025 年 3 月 7 日 @privil 各 AI 答案不统一,主要是这个问题在于小红四个妹妹中年龄第三小的小青总共有几个姐姐,这是很容易造成死循环,为什么呢,文字描述中的第三小,这语文角度来说,是很容易被定义歧义的句子 |
9 luoyide2010 2025 年 3 月 7 日 幻觉比较严重,知识库也不大的样子,让他分析一部 16 年热门的音乐剧结局,内容基本对不上 |
10 youthfire 2025 年 3 月 7 日 基于 3 楼的问题 Claude 3.7 ,不开思考,正确 - 秒出 Grok3, 无论是否思考,都错误 Deepseek r1, 不开思考,正确 Qwen2.5 14b ,错误 Qwq 32b, 连续 2 次崩溃 |
11 bzw875 2025 年 3 月 7 日 谷歌的 Gemini 的 token 输出快如闪电 |