Gemini、GPT、Opus 模型测评

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 60 days ago, the information mentioned may be changed or developed.

分别用 Gemini 3.1 Pro （ v1 ）、GPT-5.4 （ v2 ）、Claude Opus 4.6 （ v3 ）实现了同一件事，每个 AI 得分如下。

层级	文件	V1	V2	V3
L1 法典	`backend-tech-spec.md`	32	71	95
L1 法典	`frontend-tech-spec.md`	34	72	94
L1 法典	`engineering-spec.md`	58	78	92
L2 Rule	`backend-global-rule.mdc`	55	78	93
L2 Rule	`frontend-global-rule.mdc`	57	79	94
L3 Skill	`backend-new-module/SKILL.md`	53	74	96
L3 Skill	`frontend-new-view/SKILL.md`	51	72	97
L3 Skill	`backend-code-review/SKILL.md`	62	69	95
L3 Skill	`frontend-code-review/SKILL.md`	61	67	94
加权平均		51.4	73.3	94.4

6.2 各维度综合得分

维度	V1	V2	V3
覆盖完整性	46	70	95
内容精准性	43	68	95
可执行性	48	72	96
工程成熟度	68	83	91
综合	51	73	94

6.3 版本定性结论

版本	综合评分	等级	定性	可否投入使用
V1	51.4	D	原型验证版（ Demo 级）	不可，仅供概念验证
V2	73.3	B	可用版（ MVP 级）	可用于小范围试点，需持续迭代
V3	94.4	A+	生产就绪版（ Production 级）	推荐投入生产使用

测评

得分

版本

39 replies 2026-03-20 15:32:40 +08:00

lcy630409

Mar 17

好的立马去用 Gemini

shyrock2026

Mar 17

op 的数据附合我的感受。

opus4.6 确实可以直接把系统写好给你。。。

Razio

Mar 17

@lcy630409 #1 油盐不进是吧

swaylq

Mar 17

分数跟我体感差不多，Opus 写出来的代码确实最稳，基本不用大改。不过日常干活我还是 Sonnet 用得多，Opus 太贵而且慢，简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方，得盯着点。

ChipWat

Mar 17

Sonnet 很差，真的是浪费时间，要么就 Ops ，要么就 GLM 凑活

andy7076

Mar 17

这么看 Gemini 很香呀

Daniel17

Mar 17

最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具，基本不怎么需要修改

YanSeven

Mar 17

每一级都断档领先 20 分？楼主是否考虑把风口上的几家国产模型纳入测评。

et5494

Mar 17

分数符合直接使用直觉

Slengl

Mar 17

使用下来的体验真的如对比

azhangbing

Mar 17

Opus 最强基本不用管很信任

keethebest

Mar 17

用下来也是这个感觉

openmm

Mar 17

Opus4.6 确实香，写出来的代码基本不用改

lcy630409

Mar 17

@Razio Gemini pro 免费白嫖代码写的都没问题，我做的各种采集脚本帮我写的明明白白都不用改
适合就是最好的吧

milkleeeeee

Mar 17

分数很符合我的真实使用体验，确实是 Opus 4.6 用起来最舒服，基本一次过

sickoo

Mar 17

@lcy630409 #1 gemini 没有说的那么不堪，轻度任务交给他没问题的

sickoo

Mar 17

Opus 最稳定了

huaweii

Mar 17 via Android

还是那句老话，claude 家的幻觉低，但需要合适的要求描述。

另外 opus4.6 应该对标的 gpt5.4 high

cc/cursor/codex...用下来从来没有发现 opus4.6 和 gpt5.4 哪怕非 high 有差 20 分的体感

subpo

Mar 17

都在用，不符合体感

gemini 是最差没问题，opus4.6 和 gpt5.4 应该是在各个领域互有胜负，整体 gpt 5.4 强一点，但 claude 会靠无与伦比的相关软件用户体验追上来

目前最符合我主观体验的是 cursor 的测试

https://cursor.com/marketing-static/_next/image?url=https%3A%2F%2Fptht05hbb1ssoooe.public.blob.vercel-storage.com%2Fassets%2Fblog%2Fcursorbench-scatter-r13.png&w=3840&q=70

jqknono

Mar 17

opus 的逻辑能力不如 gpt5high 系列

Clannad0708

Mar 17

@YanSeven #8 国内的也不用测了吧，基本上用过体感约等于 gpt 水平或者略好点

amybond

Mar 17

gemini 感觉要比 5.4 4.6 差点，5.4 和 4.6 差不多，5.4 更慢一点，但是更重要的是价格

YanSeven

Mar 17

@Clannad0708 真能>=gpt?

YiFeiY

Mar 17 via iPhone

试试让他们互相内卷：
Codex 版
Claude will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.
Claude 版
Codex will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review.

iorilu

Mar 17

哪有那么夸张

gpt5.4 和 opus 4.6, 绝对是同级别得, 可能在具体任务各有优缺点

brantyu

Mar 17

https://1xm.ai 新注册用户送 10$=500W token,体验下纯血版 Cluade 、GPT 、Gemini 就知道，跟国产大模型的差距不止一点点，真假一测便知

NeverMore11

Mar 17

gemini 跟 opus 都在用。体感是 opus 是顶级牛马，代码写到快，质量也高，但容易进入死循环。gemini 有一点架构思维，经常给我其他角度的解决方案，就是有点慢。

autumncry

Mar 17

数据集来源是什么呢？三个 Layer 的数据集是想测试模型的什么能力呢？

Clannad0708

Mar 17

@YanSeven #23 最顶级的可以比如 glm ，而且现在不觉得 gpt 很拉吗？除了 5.4 codex 写代码还行点，通用性的知识，我之前问了一个 openclaw 怎么展示 skill 的，他给我的命令是 opencalw skill list 实际是 skills 。。。

Sezxy

Mar 17

帖子是不是没发全，怎么只看到测试标准，没有结果

ryncv

Mar 17

测试数据集和测试方法能开放出来吗？想学习一下

ww2100

Mar 17

大家都是怎么买它的额度的，通过他的正规渠道很麻烦，而且费用又大。有没有其他更好的方法？我只用 sonnet

dingawm

Mar 17

@Clannad0708 #28 对比都得指定模型型号对比，你不能说 GLM 系列和 GPT 系列一整个对比，没有可比性。就我的体验来说，GLM 我感觉是国产模型里 coding Top 级别的，但是距离 GPT 5.4/Opus 4.6 还有不少差距，但是胜在便宜方便。我觉得这些模型单纯在 coding 方面来说，国际 Top 级别的想有很大提升估计很比较难，国产后面追赶应该还是有比较大的可能的。

canyue7897

Mar 17 via iPhone

这是 api 对比
还是网页端对比？
api 三家不可能差距这么大！

Clannad0708

Mar 17

@dingawm #33 不一样，大模型里面很重要的东西除了算力之外就是数据，现在 cc codex 如日中天，每次程序员的调用都会成为下一次 cc 训练的数据。所以这是一个赢家通吃的游戏。国内的模型即使再好，能用于训练的数据始终和国外不是一个数量级的。所以差距只会越拉越大。

unpay

Mar 17

gemini 香。。。。

XTTX

Mar 17

纯前端或者是 svg 方面，Gemini 完胜。读取图片方面，Gemini 完胜。纯前端的话，完全可以两个搭配着来玩。
图片第一张是原图尝试复刻，第二张是原图给到 CC 的生成效果，第三张是 gemini 读，产出视觉 json, cc 写。
![]( https://i.ibb.co/LzkxNVmn/01-without-skill.png)

bigtan

Mar 18

@NeverMore11 非常同意你说的架构思维，我让 codex 5.4 写的代码了给 geimini review 他就从架构上提出了潜在的问题，确实还是有他的过人之处的。

calpes

Mar 20

opus 哪儿有这么夸张，大概率是你写的 prompt 有问题
gpt5.4 的独立工作能力和逻辑处理能力都比 opus 强一些，但是做项目规划确实挺菜的