目前 Claude 模型和国产模型的差异，是 iPhone 和国产安卓旗舰的差异还是 iPhone 和诺基亚的差异？

This topic created in 107 days ago, the information mentioned may be changed or developed.

因为封锁 + 懒得折腾，现个人的 AI 开发套件是 TRAE 国际版 + GLM 4.7 coding plan 。

目前个人体验是 GLM 4.7 已经基本满足全部开发需求了，TRAE SOLE 模式用完 GPT 5.2 或者 gemini 的额度就切到 GLM 4.7 ，感受不到落差。目前不尽如人意的地方是任务大一点（包含几个可能存在交叉依赖的小任务），这三个模型基本都挂挂，我现在都是尽可能将任务拆成小的原子任务，一次只做一件事，然后 plan -> 执行 -> 验收 -> 让 AI 调整这一套流程走一轮，无论哪个模型都完成的不错。

现在非常好奇的是如果换 Claude opus 4.5 效果会怎么样，是不是大任务它也可以一次性完成，达到满意的效果？网上看了一些评测，要么就是“Claude 无敌，用了你就回不去了，GPT/GEMINI 反复搞了几个小时，换 Claude 几分钟搞定”这种无意义的评论，要么就是“用 Claude/GPT/GEMINI/GLM 生成一个美观高级的网站”这种无意义的评测，很好奇这些模型在实际开发中到底存在多大的差距。

如果是 iPhone 和国产安卓旗舰的差异，那我感觉 GLM / MiniMax 之类的国产模型也完全足够日常使用，毕竟这些国产模型对我来说近乎无限量了（ GLM 5 小时限额窗口内很少用超 50%），现在每天绞尽脑汁怎么多烧点 token 。而如果是 iPhone 和诺基亚的差异，那应该突破一切封锁去使用 Claude 模型，毕竟时间也是金钱。

后续我想计划在实际开发场景下对比测试 GLM/MiniMax/Doubao 和 Claude 模型。想听听大家的看法，或者分享分享在实际开发场景下的对比。

glm

Claude

国产模型

14 replies 2026-01-28 09:18:47 +08:00

zizon

Jan 25

看了正文确定你的标题是认真的.

Linioi

Jan 25

我感觉还是看你问题的难度。
就像一张卷子，GLM 考 99 分可能是它只能考 99 分，Claude 考 100 分是因为卷子只有 100 分。
Claude Opus 4.5 使用体验真的很不错，从语气到实际表现我都挺满意的，也不像以前模型总喜欢吹嘘自己代码是生产级。所以可以用 Claude Opus 4.5 我基本不考虑别的模型。

shakaraka

PRO

Jan 25

有点疑惑，你想知道差距你自己试试不就知道了，别人和你说的都是主观评价

jukanntenn

Jan 25

@shakaraka 嗯，目前处于计划中，动手前听听大家的经验也不错。v2ex 真实开发者居多，他们的感受比小红书、知乎那些营销号可信度高很多。

billzhuang

Jan 25 via iPhone

这事为什么要计划？

skyflower

Jan 25

你在 Antigravity 里，使用 Claude 是免费的，你现在就可以去试试了

Bijiabo

Jan 25

你买手机的时候，会考虑自带反诈中心的的型号么？

technode

Jan 25

@Bijiabo 可能你会考虑内置 ICE 的型号

xing7673

Jan 25

我个人觉得 claude o45 只是可玩性高速度快，准确度不如 gpt ，算不上是最 top 的模型，所以没法用 iphone 对比，既然你觉得 gpt 和 glm 没有落差，那 claude 也不会让你感到有落差。
除非 trae 没有用 gpt 的 high 思考深度
opus 还是吹的人太多了

sillydaddy

Jan 25

https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

可以看一下 Elo 得分数据，好像是根据 6 百万用户的无数投票得出的评分对比：
Elo 基本是所有赛事都常用的评分机制：围棋、游戏、赛车等等。

Elo 胜率公式：胜率 = 1 / (1 + 10^(分差/400))

Elo 相差 10 分胜率 51.4% vs 胜率 48.6%，几乎无差别，运气因素更大
Elo 相差 50 分 57.1% 42.9% 略有优势，需要多次对局才能体现
Elo 相差 100 分 64.0% 36.0% 明显优势，约 2:1 的胜率
Elo 相差 200 分 76.0% 24.0% 显著优势，约 3:1 的胜率
Elo 相差 400 分 90.9% 9.1% 碾压性优势，约 10:1 的胜率
Elo 相差 1000 分 99.0% 1.0% 几乎不可能输，约 100:1 的胜率

目前的 Opus 4.5 thinking 领先 GLM 4.7 大概 50 分：
https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

什么意思呢？用户问 2 个 AI 一个同样的编程问题，平均用户采纳各自答案的概率分别是：57.1% vs 42.9%

当然，这必须要考虑编程的特殊性，考虑它跟直接围棋 PK 的差别。

差别就在于，用户在比较 2 个 AI 的解决方案的优劣时，待 Coding 的问题是什么困难级别的。如果都是简单级别的，那高手之间基本看不出差别，那就是随机的选择一个答案，50% vs 50%的胜率。但是如果都是困难的 Coding ，又是另一番景象了。

上面的评分数据，估计应该是解决难度均匀分布的题目（这点对评分非常重要）。如果换成都是 PK 解决难题的能力，那差距就明显不一样了。

如果自己平时遇到的 Coding 问题，与用户投票时的问题难度分布类似，就说明差 50 分，意味着接近 3:2 的采纳比例。差距还是比较明显的。

admirez

Jan 25

宝马宝骏

lixintcwdsg

Jan 25

分两个问题。
1. GLM4.7 简单问题还不错，复杂问题不如 codex 5.2 extra high 和 opus/sonnet
2. iphone 和国产期间 iphone 不怎么行

Wkdbq

Jan 25

我觉得 gpt 5.2 codex high 或者以上才是目前最强

gogozs

Jan 28

我用 AI review 同事的代码，有个很明显的问题，然后他说是 AI 生成的。btw 他不翻墙