
| 层级 | 文件 | V1 | V2 | V3 |
|---|---|---|---|---|
| L1 法典 | backend-tech-spec.md | 32 | 71 | 95 |
| L1 法典 | frontend-tech-spec.md | 34 | 72 | 94 |
| L1 法典 | engineering-spec.md | 58 | 78 | 92 |
| L2 Rule | backend-global-rule.mdc | 55 | 78 | 93 |
| L2 Rule | frontend-global-rule.mdc | 57 | 79 | 94 |
| L3 Skill | backend-new-module/SKILL.md | 53 | 74 | 96 |
| L3 Skill | frontend-new-view/SKILL.md | 51 | 72 | 97 |
| L3 Skill | backend-code-review/SKILL.md | 62 | 69 | 95 |
| L3 Skill | frontend-code-review/SKILL.md | 61 | 67 | 94 |
| 加权平均 | 51.4 | 73.3 | 94.4 |
| 维度 | V1 | V2 | V3 |
|---|---|---|---|
| 覆盖完整性 | 46 | 70 | 95 |
| 内容精准性 | 43 | 68 | 95 |
| 可执行性 | 48 | 72 | 96 |
| 工程成熟度 | 68 | 83 | 91 |
| 综合 | 51 | 73 | 94 |
| 版本 | 综合评分 | 等级 | 定性 | 可否投入使用 |
|---|---|---|---|---|
| V1 | 51.4 | D | 原型验证版( Demo 级) | 不可,仅供概念验证 |
| V2 | 73.3 | B | 可用版( MVP 级) | 可用于小范围试点,需持续迭代 |
| V3 | 94.4 | A+ | 生产就绪版( Production 级) | 推荐投入生产使用 |
1 lcy630409 7 小时 58 分钟前 好的 立马去用 Gemini |
2 shyrock2026 7 小时 56 分钟前 op 的数据附合我的感受。 opus4.6 确实可以直接把系统写好给你。。。 |
4 swaylq 7 小时 42 分钟前 分数跟我体感差不多,Opus 写出来的代码确实最稳,基本不用大改。不过日常干活我还是 Sonnet 用得多,Opus 太贵而且慢,简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方,得盯着点。 |
5 ChipWat 7 小时 39 分钟前 Sonnet 很差,真的是浪费时间,要么就 Ops ,要么就 GLM 凑活 |
6 andy7076 7 小时 31 分钟前 这么看 Gemini 很香呀 |
7 Daniel17 7 小时 31 分钟前 最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具,基本不怎么需要修改 |
8 YanSeven 7 小时 30 分钟前 每一级都断档领先 20 分?楼主是否考虑把风口上的几家国产模型纳入测评。 |
9 et5494 7 小时 27 分钟前 分数符合直接使用直觉 |
10 Slengl 7 小时 24 分钟前 使用下来的体验真的如对比 |
11 azhangbing 7 小时 17 分钟前 Opus 最强 基本不用管 很信任 |
12 keethebest 7 小时 17 分钟前 用下来也是这个感觉 |
13 openmm 7 小时 13 分钟前 Opus4.6 确实香,写出来的代码基本不用改 |
15 milkleeeeee 6 小时 34 分钟前 分数很符合我的真实使用体验,确实是 Opus 4.6 用起来最舒服,基本一次过 |
17 sickoo 6 小时 26 分钟前 Opus 最稳定了 |
18 huaweii 6 小时 4 分钟前 via Android 还是那句老话,claude 家的幻觉低,但需要合适的要求描述。 另外 opus4.6 应该对标的 gpt5.4 high cc/cursor/codex...用下来从来没有发现 opus4.6 和 gpt5.4 哪怕非 high 有差 20 分的体感 |
19 subpo 6 小时 1 分钟前 都在用,不符合体感 gemini 是最差没问题,opus4.6 和 gpt5.4 应该是在各个领域互有胜负,整体 gpt 5.4 强一点,但 claude 会靠无与伦比的相关软件用户体验追上来 目前最符合我主观体验的是 cursor 的测试 https://cursor.com/marketing-static/_next/image?url=https%3A%2F%2Fptht05hbb1ssoooe.public.blob.vercel-storage.com%2Fassets%2Fblog%2Fcursorbench-scatter-r13.png&w=3840&q=70 |
20 jqknono 5 小时 59 分钟前 opus 的逻辑能力不如 gpt5high 系列 |
21 Clannad0708 5 小时 9 分钟前 @YanSeven #8 国内的也不用测了吧,基本上用过体感约等于 gpt 水平或者略好点 |
22 amybond 4 小时 36 分钟前 gemini 感觉要比 5.4 4.6 差点,5.4 和 4.6 差不多,5.4 更慢一点,但是更重要的是价格 |
23 YanSeven 4 小时 16 分钟前 @Clannad0708 真能>=gpt? |
24 YiFeiY 3 小时 46 分钟前 via iPhone 试试让他们互相内卷: Codex 版 Claude will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review. Claude 版 Codex will review your code from three dimensions: maintainability, boundary conditions, and regression risk, and the quality of your code will determine whether the system can go live. Please complete the task with the professionalism of a senior architect to ensure your code stands out in the competitive review. |
25 iorilu 3 小时 19 分钟前 哪有那么夸张 gpt5.4 和 opus 4.6, 绝对是同级别得, 可能在具体任务各有优缺点 |
26 brantyu 3 小时 9 分钟前 https://1xm.ai 新注册用户送 10$=500W token,体验下纯血版 Cluade 、GPT 、Gemini 就知道,跟国产大模型的差距不止一点点,真假一测便知 |
27 NeverMore11 2 小时 44 分钟前 gemini 跟 opus 都在用。体感是 opus 是顶级牛马,代码写到快,质量也高,但容易进入死循环。gemini 有一点架构思维,经常给我其他角度的解决方案,就是有点慢。 |
28 autumncry 2 小时 29 分钟前 数据集来源是什么呢?三个 Layer 的数据集是想测试模型的什么能力呢? |
29 Clannad0708 2 小时 6 分钟前 @YanSeven #23 最顶级的可以 比如 glm ,而且现在不觉得 gpt 很拉吗?除了 5.4 codex 写代码还行点,通用性的知识,我之前问了一个 openclaw 怎么展示 skill 的,他给我的命令是 opencalw skill list 实际是 skills 。。。 |
30 Sezxy 1 小时 41 分钟前 帖子是不是没发全,怎么只看到测试标准,没有结果 |
31 ryncv 1 小时 17 分钟前 测试数据集和测试方法能开放出来吗? 想学习一下 |
32 ww2100 1 小时 9 分钟前 大家都是怎么买它的额度的,通过他的正规渠道很麻烦,而且费用又大。有没有其他更好的方法?我只用 sonnet |
33 dingawm 1 小时 1 分钟前 @Clannad0708 #28 对比都得指定模型型号对比,你不能说 GLM 系列和 GPT 系列一整个对比,没有可比性。就我的体验来说,GLM 我感觉是国产模型里 coding Top 级别的,但是距离 GPT 5.4/Opus 4.6 还有不少差距,但是胜在便宜方便。我觉得这些模型单纯在 coding 方面来说,国际 Top 级别的想有很大提升估计很比较难,国产后面追赶应该还是有比较大的可能的。 |
34 canyue7897 54 分钟前 via iPhone 这是 api 对比 还是网页端对比? api 三家不可能差距这么大! |
35 Clannad0708 42 分钟前 @dingawm #33 不一样,大模型里面很重要的东西除了算力之外就是数据,现在 cc codex 如日中天,每次程序员的调用都会成为下一次 cc 训练的数据。所以这是一个赢家通吃的游戏。国内的模型即使再好,能用于训练的数据始终和国外不是一个数量级的。所以差距只会越拉越大。 |