目前 Claude 模型和国产模型的差异,是 iPhone 和国产安卓旗舰的差异还是 iPhone 和诺基亚的差异? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jukanntenn
V2EX    问与答

目前 Claude 模型和国产模型的差异,是 iPhone 和国产安卓舰的差异还是 iPhone 和诺基亚的差异?

  •  
  •   jukanntenn 1 月 25 日 1303 次点击

    因为封锁 + 懒得折腾,现在个人的 AI 开发套件是 TRAE 国际版 + GLM 4.7 coding plan 。

    目前个人体验是 GLM 4.7 已经基本满足全部开发需求了,TRAE SOLE 模式用完 GPT 5.2 或者 gemini 的额度就切到 GLM 4.7 ,感受不到落差。目前不尽如人意的地方是任务大一点(包含几个可能存在交叉依赖的小任务),这三个模型基本都挂挂,我现在都是尽可能将任务拆成小的原子任务,一次只做一件事,然后 plan -> 执行 -> 验收 -> 让 AI 调整这一套流程走一轮,无论哪个模型都完成的不错。

    现在非常好奇的是如果换 Claude opus 4.5 效果会怎么样,是不是大任务它也可以一次性完成,达到满意的效果?网上看了一些评测,要么就是“Claude 无敌,用了你就回不去了,GPT/GEMINI 反复搞了几个小时,换 Claude 几分钟搞定”这种无意义的评论,要么就是“用 Claude/GPT/GEMINI/GLM 生成一个美观高级的网站”这种无意义的评测,很好奇这些模型在实际开发中到底存在多大的差距。

    如果是 iPhone 和国产安卓旗舰的差异,那我感觉 GLM / MiniMax 之类的国产模型也完全足够日常使用,毕竟这些国产模型对我来说近乎无限量了( GLM 5 小时限额窗口内很少用超 50%),现在每天绞尽脑汁怎么多烧点 token 。而如果是 iPhone 和诺基亚的差异,那应该突破一切封锁去使用 Claude 模型,毕竟时间也是金钱。

    后续我想计划在实际开发场景下对比测试 GLM/MiniMax/Doubao 和 Claude 模型。想听听大家的看法,或者分享分享在实际开发场景下的对比。

    14 条回复    2026-01-28 09:18:47 +08:00
    zizon
        1
    zizon  
       1 月 25 日
    看了正文确定你的标题是认真的.
    Linioi
        2
    Linioi  
       1 月 25 日   3
    我感觉还是看你问题的难度。
    就像一张卷子,GLM 考 99 分可能是它只能考 99 分,Claude 考 100 分是因为卷子只有 100 分。
    Claude Opus 4.5 使用体验真的很不错,从语气到实际表现我都挺满意的,也不像以前模型总喜欢吹嘘自己代码是生产级。所以可以用 Claude Opus 4.5 我基本不考虑别的模型。
    shakaraka
        3
    shakaraka  
    PRO
       1 月 25 日
    有点疑惑,你想知道差距你自己试试不就知道了,别人和你说的都是主观评价
    jukanntenn
        4
    jukanntenn  
    OP
       1 月 25 日
    @shakaraka 嗯,目前处于计划中,动手前听听大家的经验也不错。v2ex 真实开发者居多,他们的感受比小红书、知乎那些营销号可信度高很多。
    billzhuang
        5
    billzhuang  
       1 月 25 日 via iPhone
    这事为什么要计划?
    skyflower
        6
    skyflower  
       1 月 25 日
    你在 Antigravity 里,使用 Claude 是免费的,你现在就可以去试试了
    Bijiabo
        7
    Bijiabo  
       1 月 25 日
    你买手机的时候,会考虑自带反诈中心的的型号么?
    technode
        8
    technode  
       1 月 25 日
    @Bijiabo 可能你会考虑内置 ICE 的型号
    xing7673
        9
    xing7673  
       1 月 25 日   1
    我个人觉得 claude o45 只是可玩性高速度快,准确度不如 gpt ,算不上是最 top 的模型,所以没法用 iphone 对比,既然你觉得 gpt 和 glm 没有落差,那 claude 也不会让你感到有落差。
    除非 trae 没有用 gpt 的 high 思考深度
    opus 还是吹的人太多了
    sillydaddy
        10
    sillydaddy  
       1 月 25 日   1
    https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

    可以看一下 Elo 得分数据,好像是根据 6 百万用户的无数投票得出的评分对比:
    Elo 基本是所有赛事都常用的评分机制:围棋、游戏、赛车等等。

    Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))

    Elo 相差 10 分 胜率 51.4% vs 胜率 48.6%,几乎无差别,运气因素更大
    Elo 相差 50 分 57.1% 42.9% 略有优势,需要多次对局才能体现
    Elo 相差 100 分 64.0% 36.0% 明显优势,约 2:1 的胜率
    Elo 相差 200 分 76.0% 24.0% 显著优势,约 3:1 的胜率
    Elo 相差 400 分 90.9% 9.1% 碾压性优势,约 10:1 的胜率
    Elo 相差 1000 分 99.0% 1.0% 几乎不可能输,约 100:1 的胜率


    目前的 Opus 4.5 thinking 领先 GLM 4.7 大概 50 分:
    https://openlm.ai/chatbot-arena/#:~:text=1445-,1460,-68

    什么意思呢?用户问 2 个 AI 一个同样的编程问题,平均用户采纳各自答案的概率分别是:57.1% vs 42.9%

    当然,这必须要考虑编程的特殊性,考虑它跟直接围棋 PK 的差别。

    差别就在于,用户在比较 2 个 AI 的解决方案的优劣时,待 Coding 的问题是什么困难级别的。如果都是简单级别的,那高手之间基本看不出差别,那就是随机的选择一个答案,50% vs 50%的胜率。但是如果都是困难的 Coding ,又是另一番景象了。

    上面的评分数据,估计应该是解决难度均匀分布的题目(这点对评分非常重要)。如果换成都是 PK 解决难题的能力,那差距就明显不一样了。

    如果自己平时遇到的 Coding 问题,与用户投票时的问题难度分布类似,就说明差 50 分,意味着接近 3:2 的采纳比例。差距还是比较明显的。
    admirez
        11
    admirez  
       1 月 25 日
    宝马 宝骏
    lixintcwdsg
        12
    lixintcwdsg  
       1 月 25 日   1
    分两个问题。
    1. GLM4.7 简单问题还不错,复杂问题不如 codex 5.2 extra high 和 opus/sonnet
    2. iphone 和国产期间 iphone 不怎么行
    Wkdbq
        13
    Wkdbq  
       1 月 25 日
    我觉得 gpt 5.2 codex high 或者以上才是目前最强
    gogozs
        14
    gogozs  
       1 月 28 日
    我用 AI review 同事的代码,有个很明显的问题,然后他说是 AI 生成的。btw 他不翻墙
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1975 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 22ms UTC 03:53 PVG 11:53 LAX 19:53 JFK 22:53
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86