那个大模型编码能力最好？

100 replies 2025-05-01 19:05:18 +08:00

1

risan

Apr 29, 2025

那显然 chatgpt

2

TanKuku

Apr 29, 2025

感觉是 claude-3.7-sonnet 和 gemini 2.5 pro, 有时候也用 ds v3 做对比

3

rockddd

Apr 29, 2025

目前在用 gemini 2.5 pro

4

raycool

Apr 29, 2025

各有优劣吧。

5

MIUIOS

Apr 29, 2025

2

大差不大差，关键是要怎么提示它，如何提问也是一门技术

6

kkk1234567

Apr 29, 2025

1

grok 3 感觉也很不错呢。

7

mingzefei

Apr 29, 2025

claude3.7 速度太慢，gemini 速度和上下文更好。两个模型写的代码没看出太大区别。

8

Promtheus

Apr 29, 2025

6

@risan 你是不是除了 chatgpt 没用过其他模型。。

9

MagicalCarl

Apr 29, 2025

1

https://livebench.ai/

10

sentinelK

Apr 29, 2025

4

如果是前端界面，且有设计图，那么 gemini 2.5 pro 比 claude-3.7-sonnet-thinking 强一些。他对于图形界面逻辑的理解比其他大模型优秀。

如果是在既有程序上的修改，或者 debug 。claude-3.7-sonnet-thinking 更理性一点，gemini 2.5 pro 有些过于激进。而且管的太多。

btw：copilot 的 gemini 2.5 pro 明显有问题，至于说是故意的负优化还是提示词没写好，就不得而知了。

11

houOne

Apr 29, 2025

grok3 用来设计方案，表结构都很不错。

12

lrigi

Apr 29, 2025 via iPhone

综合来讲 gemini2.5 pro 最好吧，但我一般就用 claude3.7

13

xugj

Apr 29, 2025

可以看看这个： https://mp.weixin.qq.com/s/dcQOM0C4cTfTxTAFN5McZg

14

vincentWdp

Apr 29, 2025

o3

15

Americano

Apr 29, 2025

gemini2.5 pro 体验确实不错，完成度很高

16

hhharuka

Apr 29, 2025

1

Gemini 2.5pro
Claude 3.7

17

ddddd0

Apr 29, 2025 via iPhone

t0:
o4mini
gem2.5 pro
o3

18

locoz

Apr 29, 2025

7

通常情况下简单场景最优的：claude 3.5
通常情况下有一定难度的场景最优的：claude 3.7 + 思考模式
上下文少，只需要短输出的：gpt o4-mini
上下文长度中等，可能需要较长输出，且有一定难度的：claude 3.7 + 思考模式
上下文长度长，可能需要较长输出，但不怎么难的：gemini 2.5 pro + 思考模式
上下文长度长，需要较长输出，还有难度的：要么拆分处理，要么 gpt o3 ，其他的犯病概率较高

19

nunterr

Apr 29, 2025

写代码：claude-3.7--，gemini 2.5 pro
聊事件：grok3
国内搜东西：腾讯元宝的 DeepSeek 联网版

20

fxxkgw

Apr 29, 2025 via Android

claude3.5 3.7

21

fuckfaker

Apr 29, 2025

5

@risan gpt 在 claude 面前，像个新兵蛋子

22

herozzm

Apr 29, 2025

claude-3.7-sonnet
但是 gpt-4.1 好像更胜一筹，观察中

23

penisulaS

Apr 29, 2025

同一个问题多问问，没有哪一家总是最优

24

testliyu

Apr 29, 2025

今天新出的 qwen3 可以试试

25

206n6Q6sFYRg1SwM

Apr 29, 2025

参考 reddit 上的投票: https://www.reddit.com/r/OpenAI/comments/1k67bya/what_is_currently_the_best_ai_model

26

yusf

Apr 29, 2025

claude-3.7-sonnet 和 gemini 2.5 pro ！我们公司魔改 cline ，只留下这两个大模型

27

GuluMashimaro

Apr 29, 2025

用的 gemini 2.5 pro
10 分钟弄了一个待办事项的 chrome 插件

aHR0cHM6Ly9jaHJvbWV3ZWJzdG9yZS5nb29nbGUuY29tL2RldGFpbC8lRTUlQkUlODUlRTUlOEElOUUlRTQlQkElOEIlRTklQTElQjklRTglQjclOUYlRTglQjglQUElRTUlOTklQTgvaWpobG1paHBwZGxqY2JnZGtoaGlnaW1jaWZhbmNlbmc=

28

InkStone

Apr 29, 2025

1

@Linyz 还可以参考一下 openrouter 上的 ranking ，https://openrouter.ai/rankings/programming?view=week

个人感觉 openrouter 上这个用钱投票更有说服力一点……排名靠前的这几个模型贵得令人发指，让我用我是一点都用不下手，能排到这么前面应该说明了实践中表现确实很好。

29

daodao

Apr 29, 2025

claude 3.7 sonnet ，gemini 2.5 pro

30

206n6Q6sFYRg1SwM

Apr 29, 2025

@InkStone 的确, 感觉比野榜靠谱哈哈

31

daodao

Apr 29, 2025

@testliyu 已测，在开源里面可能还行。但在 claude 3.7 sonnet ，gemini 2.5 pro 跟前确实还只是弟弟

32

huiyadanli

Apr 29, 2025

Claude 3.5 Sonnet

3.7 实际使用下来提升并不明显

33

jonsmith

Apr 29, 2025

cursor 上 claude-3.7-sonnet 模型的使用体验更好，能写出符合预期的代码，可能工程能力更好点。
gemini 2.5 pro 明显智力更高，用来回答一些技术问题或者写一些独立的代码块。

34

viking602

Apr 29, 2025

claude 3.7s 目前代码工程最好的

35

jiangbingo

Apr 29, 2025

请问楼上诸位，你们在编辑器如何使用 gemini 2.5 pro ？

36

BaldPhoenix

Apr 29, 2025

我个人提名一下 grok3

37

dcatfly

Apr 29, 2025

@MagicalCarl 这个榜单类似于跑分，可能可以参考为解决单个问题的能力，但在真实的工程上下文层面体感还是有区别

38

dcatfly

Apr 29, 2025

@InkStone 用钱投票还是靠谱些，不过我感觉 roocode 比 cline 好用不少但这里还是 cline 消耗的 token 多

39

dcatfly

Apr 29, 2025

@dcatfly #37 https://lmarena.ai/ 榜单还可以参考这个

40

jonty

Apr 29, 2025

@jiangbingo #35 cursur 可以使用。也可以使用 mcp 的服务

41

leehaoze98

Apr 29, 2025

日常主要用 cursor 编写代码，一般情况用 Claude 3.7 足矣，复杂情况下 3.7 写出的代码不 Work ，换到 4.1 会有概率解决。

再不 work 的情况，需要把背景、问题说明白，贴给 chatgpt ，多轮交互中，chatgpt 能给出一个 work 的方案

42

cheman

Apr 29, 2025

claude 3.7 sonnet ，gemini 2.5 pro , deepseek v3. 在够用且不呆的情况下，ds v3 性价比好点，我用来开发小程序够用。如果想找便宜的 key ，可到 https://api.xlap.top 结合 vscode roocode 使用。

43

Kason333

Apr 29, 2025

claude

44

sweat89

Apr 29, 2025

就每一个人用 Grok3 ？
我觉得蛮好用的

45

shellcodecow

Apr 29, 2025

claude-3.7-sonnet 用来写脚本和代码很不错

46

jonyJJ

Apr 29, 2025

Grok3 挺好用的，51 过后可以用 grok 3.5 了美滋滋

47

xing7673

Apr 29, 2025

@herozzm 4.1 不行，虽然代码输出更简洁，但是容易出问题，windsurf 里我都是用 claude 3.7 或者 gemini 来纠正它的问题

48

PositionZero

Apr 29, 2025

@InkStone OpenRouter 的 ranking 只是说用的人多，不一定能力强啊。Gemini 2.0 Flash 排在 Claude 3.7 Sonnet (thinking) 前面是因为 Gemini 2.0 Flash 更便宜。
aider 的这个榜不错，既有编程准确度，也有成本 https://aider.chat/docs/leaderboards/ 。

49

eroneko

Apr 29, 2025

cursor+o4-mini 很够用了，而且目前是免费的，需要大上下文的先全部塞给 Gemini 2.5 Pro 让它规划要修改的地方，然后丢给 o4-mini 执行。

50

kasusa

Apr 29, 2025

@InkStone 用钱投票 666

51

InkStone

Apr 29, 2025

@PositionZero 这个是 benchmark 的测试结果，不是投票结果吧。说实话，相比 benchmark ，我还是更倾向于相信大家实践后做出的选择。

价格肯定有很大影响，但 openrouter 上最靠前的 3.7 和 2.5 都很贵，感觉还是能说明一些问题的。

52

azarasi

Apr 29, 2025

gemini 2.5 pro, 1M 长上下文，很多程序都可以全部项目代码塞进去

53

qiaobeier

Apr 29, 2025

@Linyz #25 Gemini 2.5 那么高了吗？我切换下试试

54

Gilfoyle26

Apr 29, 2025

我觉的要看语言,新的语言,新的库往往不行。
AI 好像对 python ，js ，支持的比较好

55

remember5

Apr 29, 2025

claude-3.7-sonnet

56

OldActorsSmile

Apr 29, 2025

claude-3.7-sonnet-thinking

57

mumbler

Apr 29, 2025

无脑 gemini 2.5 pro 即可，其他模型都差 gemini 一大截

58

silencelixing

Apr 29, 2025

1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
答案几乎是确定的，这两个断层的领先。
鉴于 Gemini 2.5 Pro 价格低，甚至可以免费薅，首选 Gemini 2.5 Pro
富哥可以用 Claude 3.7 Sonnet

59

boyzhang

Apr 29, 2025

@wxw752 grok 怎么样

60

Plutooo

Apr 29, 2025

太久没看这方面内容了，没想到 gemini 都后来居上了

61

zhy0216

Apr 29, 2025

claude-3.7-sonnet 第一
这个测评 https://roocode.com/evals

62

liulicaixiao

Apr 29, 2025

@sweat89 大家都是在编辑器里用，grok 3 的 api 出的太晚了，而且不在默认模型里

63

RoccoShi

Apr 29, 2025

claude 3.7 个人感觉还是比 gemini 2.5 pro 厉害一点，但是后者上下文更长，可以一起用

64

599lee

Apr 29, 2025

个人觉得 grok 3 和 claude 3.7 比较强，偶尔用下 gemini 2.5 。前几天我拿了两个数据丢给 gemini 2.5 ，它不用我给的数，它自己编，非常优秀

65

lnmxy

Apr 29, 2025

qwen3

66

amazingfate

Apr 29, 2025

gpt4.1 吧用着比 claude3.7 舒服。
然后还可以用 gemini 2.5pro 二次写，可以写很长也很准。但是 gemini 指令遵循不如前两者。

67

love2328

Apr 30, 2025

@lnmxy 并不怎么样的

68

xinru

Apr 30, 2025 via iPhone

关注一下代码 AI 工具推荐

69

anivie

Apr 30, 2025

Gemini 2.5pro ，我的体感是断崖领先其它所有，包括 claude ，claude 又要领先剩下的一轮

70

zisen

Apr 30, 2025 via iPhone

claude3.7 有时候会提取提示词中的关键词然后直接输出缓存中的答案，也不管用户表达的是不是真的这个意思，反正一股脑儿输出就完事了

71

Vancion

Apr 30, 2025

应该把具体哪种语言也带上吧

72

kergee

Apr 30, 2025

grok3 150 美金感觉赚了

73

twinsant

Apr 30, 2025

@silencelixing 顶

74

abellis

Apr 30, 2025

一个稍微复杂点的 sql 查询，同样的描述，只有 Gemini 2.5pro 一次给出了正确答案，claude ，gpt 管头不顾腚，总是差一点

75

Wkj1998

Apr 30, 2025 via Android

Claude3.7 、Gemini2.5Pro ，前者比较老实，老老实实按照你的需求编写代码，后者经常有自己独特的想法，一个编码需求，Claude3.7 输出 12 行代码，Gemini2.5Pro 会把各种因素考虑进去，最后给你输出 32 行代码

76

v2er4241

Apr 30, 2025

我一般用 Cursor 的 Claude3.7

77

wnpllrzodiac

Apr 30, 2025 via Android

c++大项目，修 bug 哪个模型好？

78

wnpllrzodiac

Apr 30, 2025 via Android

qt 有界面图，想把界面用 ui 文件复刻出来，哪个模型好

79

dreamage

Apr 30, 2025

截至目前 claude 41 票 gemini 39 票遥遥领先

80

xz410236056

Apr 30, 2025

1

@TanKuku 目前感觉 2.5pro 强于克劳德，但是有时候降智

81

Hajar123

Apr 30, 2025

@xing7673 #47 windsurf 对比 cursor 如何

82

XuanYuan

Apr 30, 2025

我以前用 Claude ，现在用 Grok

83

NATransfer

Apr 30, 2025

gpt 4.1o 不错

84

csfreshman

Apr 30, 2025

编码能力个人用过的最好的应该是 Claude 3.7 Sonnet

85

Daybyedream

Apr 30, 2025

gemini 2.5 pro 好像也还行

86

seven777

Apr 30, 2025

@locoz #18 "上下文长度长，需要较长输出，还有难度的：要么拆分处理，要么 gpt o3 ，其他的犯病概率较高" 这个有测试经验?
我一般都是 Claude 3.7 thingking 不变(GitHub copilot 里面懒得换.), 也偶尔犯大病.

87

hunk

Apr 30, 2025

我粗糙的以为，新出的会更好一点点，学习的资料不断增加，所有显示出有差异，但基本书写，应该差别不大。
现在选型是难，不断有新东西，难以决断。

88

Strive123456

Apr 30, 2025

@totoro52 yes

89

jamos

Apr 30, 2025

claude-3.7-sonnet 和 gemini 2.5 pro 既然都推荐这 2 个，怎么使用呢，买 api 还是免费撸

90

quietDown

Apr 30, 2025

claude3.7sonnet thinking 和 gemini2.5pro 是日常开发用的最多的两个，gemini2.5pro 在上下文表现上更强，claude3.7 我个人感觉在一些项目设计上会更好一点，我会拿来设计技术方案，但是最近时长感觉降智。目前两个会结合着用。

91

testisgood

Apr 30, 2025

我以前对比过 claude-3.7-sonnet 和豆包，明显 claude 强很多，于是我一直用 claude 。结果这次对 claude-3.7-sonnet 产出的代码质量不满意，于是试用了一下 deepseek 和 qwen3 ，结果发现，起码在我碰到的这个问题上 deepseek 和 qwen3 编出的代码都明显比 claude-3.7-sonnet 更好。

92

silenceboychen

OP

Apr 30, 2025

https://www.reddit.com/r/RooCode/comments/1k9fj2p/roo_aider_cline_etc_windsurf_cursor_copilot/

93

locoz

Apr 30, 2025

1

@seven777 #86 是实际试过得出的结论，这种场景理论上 gemini 2.5 pro 上下文长，理应输出结果更好，但实际会因为它喜欢忽略一些“不重要”的东西，并且指令遵循性比其他的稍弱，就导致结果反而会犯病；而 claude 3.7 在上下文过长的情况下也会忽略一些东西，导致出问题。但 gpt o3 可能是内部有工程优化之类的处理，基本还是能不犯病输出。

gemini 主要的问题还是指令遵循性，很多时候喜欢自作主张瞎操作，不瞎操作的话其实只要是长上下文都可以用 gemini 。