在编码领域,哪些大模型的能力比较强?目前一直都在用 claude-3.7-sonnet
1 risan 163 天前 那显然 chatgpt |
![]() | 2 TanKuku 163 天前 感觉是 claude-3.7-sonnet 和 gemini 2.5 pro, 有时候也用 ds v3 做对比 |
![]() | 3 wxw752 163 天前 目前在用 gemini 2.5 pro |
4 raycool 163 天前 各有优劣吧。 |
![]() | 5 MIUIOS 163 天前 ![]() 大差不大差,关键是要怎么提示它,如何提问也是一门技术 |
![]() | 6 kkk1234567 163 天前 ![]() grok 3 感觉也很不错呢。 |
7 mingzefei 163 天前 claude3.7 速度太慢,gemini 速度和上下文更好。两个模型写的代码没看出太大区别。 |
9 MagicalCarl 163 天前 ![]() |
![]() | 10 sentinelK 163 天前 ![]() 如果是前端界面,且有设计图,那么 gemini 2.5 pro 比 claude-3.7-sonnet-thinking 强一些。他对于图形界面逻辑的理解比其他大模型优秀。 如果是在既有程序上的修改,或者 debug 。claude-3.7-sonnet-thinking 更理性一点,gemini 2.5 pro 有些过于激进。而且管的太多。 btw:copilot 的 gemini 2.5 pro 明显有问题,至于说是故意的负优化还是提示词没写好,就不得而知了。 |
11 houOne 163 天前 grok3 用来设计方案,表结构都很不错。 |
12 lrigi 163 天前 via iPhone 综合来讲 gemini2.5 pro 最好吧,但我一般就用 claude3.7 |
![]() | 13 xugj 163 天前 |
14 vincentWdp 163 天前 o3 |
![]() | 15 Americano 163 天前 gemini2.5 pro 体验确实不错,完成度很高 |
16 hhharuka 163 天前 ![]() Gemini 2.5pro Claude 3.7 |
![]() | 17 ddddd0 163 天前 via iPhone t0: o4mini gem2.5 pro o3 |
![]() | 18 locoz 163 天前 ![]() 通常情况下简单场景最优的:claude 3.5 通常情况下有一定难度的场景最优的:claude 3.7 + 思考模式 上下文少,只需要短输出的:gpt o4-mini 上下文长度中等,可能需要较长输出,且有一定难度的:claude 3.7 + 思考模式 上下文长度长,可能需要较长输出,但不怎么难的:gemini 2.5 pro + 思考模式 上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高 |
19 nunterr 163 天前 写代码:claude-3.7--,gemini 2.5 pro 聊事件:grok3 国内搜东西:腾讯元宝的 DeepSeek 联网版 |
![]() | 20 fxxkgw 163 天前 via Android claude3.5 3.7 |
![]() | 22 herozzm 163 天前 claude-3.7-sonnet 但是 gpt-4.1 好像更胜一筹,观察中 |
23 kzfile 163 天前 同一个问题多问问,没有哪一家总是最优 |
![]() | 24 testliyu 163 天前 今天新出的 qwen3 可以试试 |
![]() | 25 206n6Q6sFYRg1SwM 163 天前 |
26 yusf 163 天前 claude-3.7-sonnet 和 gemini 2.5 pro !我们公司魔改 cline ,只留下这两个大模型 |
![]() | 27 GuluMashimaro 163 天前 |
![]() | 28 InkStone 163 天前 ![]() @Linyz 还可以参考一下 openrouter 上的 ranking ,https://openrouter.ai/rankings/programming?view=week 个人感觉 openrouter 上这个用钱投票更有说服力一点……排名靠前的这几个模型贵得令人发指,让我用我是一点都用不下手,能排到这么前面应该说明了实践中表现确实很好。 |
![]() | 29 daodao 163 天前 claude 3.7 sonnet ,gemini 2.5 pro |
![]() | 30 206n6Q6sFYRg1SwM 163 天前 @InkStone 的确, 感觉比野榜靠谱哈哈 |
![]() | 32 huiyadanli 163 天前 Claude 3.5 Sonnet 3.7 实际使用下来提升并不明显 |
33 jonsmith 163 天前 cursor 上 claude-3.7-sonnet 模型的使用体验更好,能写出符合预期的代码,可能工程能力更好点。 gemini 2.5 pro 明显智力更高,用来回答一些技术问题或者写一些独立的代码块。 |
![]() | 34 viking602 163 天前 claude 3.7s 目前代码工程最好的 |
![]() | 35 jiangbingo 163 天前 请问楼上诸位,你们在编辑器如何使用 gemini 2.5 pro ? |
![]() | 36 BaldPhoenix 163 天前 我个人提名一下 grok3 |
![]() | 37 dcatfly 163 天前 @MagicalCarl 这个榜单类似于跑分,可能可以参考为解决单个问题的能力,但在真实的工程上下文层面体感还是有区别 |
![]() | 39 dcatfly 163 天前 @dcatfly #37 https://lmarena.ai/ 榜单还可以参考这个 |
![]() | 40 jonty 163 天前 @jiangbingo #35 cursur 可以使用。也可以使用 mcp 的服务 |
41 leehaoze98 163 天前 日常主要用 cursor 编写代码,一般情况用 Claude 3.7 足矣,复杂情况下 3.7 写出的代码不 Work ,换到 4.1 会有概率解决。 再不 work 的情况,需要把背景、问题说明白,贴给 chatgpt ,多轮交互中,chatgpt 能给出一个 work 的方案 |
![]() | 42 cheman 163 天前 claude 3.7 sonnet ,gemini 2.5 pro , deepseek v3. 在够用且不呆的情况下,ds v3 性价比好点,我用来开发小程序够用。如果想找便宜的 key ,可到 https://api.xlap.top 结合 vscode roocode 使用。 |
43 Kason333 163 天前 claude |
44 sweat89 163 天前 就每一个人用 Grok3 ? 我觉得蛮好用的 |
![]() | 45 shellcodecow 163 天前 claude-3.7-sonnet 用来写脚本和代码很不错 |
46 jonyJJ 163 天前 Grok3 挺好用的,51 过后可以用 grok 3.5 了 美滋滋 |
![]() | 48 PositionZero 163 天前 @InkStone OpenRouter 的 ranking 只是说用的人多,不一定能力强啊。Gemini 2.0 Flash 排在 Claude 3.7 Sonnet (thinking) 前面是因为 Gemini 2.0 Flash 更便宜。 aider 的这个榜不错,既有编程准确度,也有成本 https://aider.chat/docs/leaderboards/ 。 |
49 eroneko 163 天前 cursor+o4-mini 很够用了,而且目前是免费的,需要大上下文的先全部塞给 Gemini 2.5 Pro 让它规划要修改的地方,然后丢给 o4-mini 执行。 |
![]() | 51 InkStone 163 天前 @PositionZero 这个是 benchmark 的测试结果,不是投票结果吧。说实话,相比 benchmark ,我还是更倾向于相信大家实践后做出的选择。 价格肯定有很大影响,但 openrouter 上最靠前的 3.7 和 2.5 都很贵,感觉还是能说明一些问题的。 |
52 azarasi 163 天前 gemini 2.5 pro, 1M 长上下文,很多程序都可以全部项目代码塞进去 |
![]() | 54 Gilfoyle26 163 天前 我觉的要看语言,新的语言,新的库往往不行。 AI 好像对 python ,js ,支持的比较好 |
![]() | 55 remember5 163 天前 claude-3.7-sonnet |
![]() | 56 OldActorsSmile 163 天前 claude-3.7-sonnet-thinking |
57 mumbler 163 天前 无脑 gemini 2.5 pro 即可,其他模型都差 gemini 一大截 |
![]() | 58 silencelixing 163 天前 |
60 Plutooo 163 天前 太久没看这方面内容了,没想到 gemini 都后来居上了 |
![]() | 61 zhy0216 163 天前 claude-3.7-sonnet 第一 这个测评 https://roocode.com/evals |
![]() | 62 liulicaixiao 163 天前 @sweat89 大家都是在编辑器里用,grok 3 的 api 出的太晚了,而且不在默认模型里 |
![]() | 63 RoccoShi 162 天前 claude 3.7 个人感觉还是比 gemini 2.5 pro 厉害一点,但是后者上下文更长,可以一起用 |
64 599lee 162 天前 个人觉得 grok 3 和 claude 3.7 比较强,偶尔用下 gemini 2.5 。前几天我拿了两个数据丢给 gemini 2.5 ,它不用我给的数,它自己编,非常优秀 |
65 lnmxy 162 天前 qwen3 |
![]() | 66 amazingfate 162 天前 gpt4.1 吧 用着比 claude3.7 舒服。 然后还可以用 gemini 2.5pro 二次写,可以写很长也很准。但是 gemini 指令遵循不如前两者。 |
68 xinru 162 天前 via iPhone 关注一下代码 AI 工具推荐 |
![]() | 69 anivie 162 天前 Gemini 2.5pro ,我的体感是断崖领先其它所有,包括 claude ,claude 又要领先剩下的一轮 |
![]() | 70 zisen 162 天前 via iPhone claude3.7 有时候会提取提示词中的关键词然后直接输出缓存中的答案,也不管用户表达的是不是真的这个意思,反正一股脑儿输出就完事了 |
71 Vancion 162 天前 应该把具体哪种语言也带上吧 |
![]() | 72 kergee 162 天前 grok3 150 美金感觉赚了 |
![]() | 73 twinsant 162 天前 |
![]() | 74 abellis 162 天前 一个稍微复杂点的 sql 查询,同样的描述,只有 Gemini 2.5pro 一次给出了正确答案,claude ,gpt 管头不顾腚,总是差一点 |
75 Wkj1998 162 天前 via Android Claude3.7 、Gemini2.5Pro ,前者比较老实,老老实实按照你的需求编写代码,后者经常有自己独特的想法,一个编码需求,Claude3.7 输出 12 行代码,Gemini2.5Pro 会把各种因素考虑进去,最后给你输出 32 行代码 |
![]() | 76 klo424 162 天前 我一般用 Cursor 的 Claude3.7 |
77 wnpllrzodiac 162 天前 via Android c++大项目,修 bug 哪个模型好? |
78 wnpllrzodiac 162 天前 via Android qt 有界面图,想把界面用 ui 文件复刻出来,哪个模型好 |
![]() | 79 dreamage 162 天前 截至目前 claude 41 票 gemini 39 票 遥遥领先 |
80 xz410236056 162 天前 ![]() @TanKuku 目前感觉 2.5pro 强于克劳德,但是有时候降智 |
![]() | 82 XuanYuan 162 天前 我以前用 Claude ,现在用 Grok |
![]() | 83 NATransfer 162 天前 gpt 4.1o 不错 |
84 csfreshman 162 天前 编码能力个人用过的最好的应该是 Claude 3.7 Sonnet |
85 Daybyedream 162 天前 gemini 2.5 pro 好像也还行 |
![]() | 86 seven777 162 天前 @locoz #18 "上下文长度长,需要较长输出,还有难度的:要么拆分处理,要么 gpt o3 ,其他的犯病概率较高" 这个有测试经验? 我一般都是 Claude 3.7 thingking 不变(GitHub copilot 里面懒得换.), 也偶尔犯大病. |
87 hunk 162 天前 我粗糙的以为,新出的会更好一点点,学习的资料不断增加,所有显示出有差异,但基本书写,应该差别不大。 现在选型是难,不断有新东西,难以决断。 |
88 Strive123456 162 天前 @totoro52 yes |
89 jamos 162 天前 claude-3.7-sonnet 和 gemini 2.5 pro 既然都推荐这 2 个, 怎么使用呢,买 api 还是免费撸 |
![]() | 90 quietDown 162 天前 claude3.7sonnet thinking 和 gemini2.5pro 是日常开发用的最多的两个,gemini2.5pro 在上下文表现上更强,claude3.7 我个人感觉在一些项目设计上会更好一点,我会拿来设计技术方案,但是最近时长感觉降智。目前两个会结合着用。 |
91 testisgood 162 天前 我以前对比过 claude-3.7-sonnet 和豆包,明显 claude 强很多,于是我一直用 claude 。结果这次对 claude-3.7-sonnet 产出的代码质量不满意,于是试用了一下 deepseek 和 qwen3 ,结果发现,起码在我碰到的这个问题上 deepseek 和 qwen3 编出的代码都明显比 claude-3.7-sonnet 更好。 |
![]() | 92 silenceboychen OP |
![]() | 93 locoz 162 天前 ![]() @seven777 #86 是实际试过得出的结论,这种场景理论上 gemini 2.5 pro 上下文长,理应输出结果更好,但实际会因为它喜欢忽略一些“不重要”的东西,并且指令遵循性比其他的稍弱,就导致结果反而会犯病;而 claude 3.7 在上下文过长的情况下也会忽略一些东西,导致出问题。但 gpt o3 可能是内部有工程优化之类的处理,基本还是能不犯病输出。 gemini 主要的问题还是指令遵循性,很多时候喜欢自作主张瞎操作,不瞎操作的话其实只要是长上下文都可以用 gemini 。 |
![]() | 94 eBPF 162 天前 - https://aider.chat/docs/leaderboards/ - https://openrouter.ai/rankings/programming?view=month |
![]() | 95 paynezhuang 162 天前 写代码用 claude3.7 ,问问题用 grok |
![]() | 96 Memoriae 162 天前 首先排除掉所有蒸馏模型,幻觉偏差太严重,综合来看 gemini 2.5 pro 不错。 |
98 skymanv2 162 天前 请问你们的大模型是怎么调用的?是用 cursor 里面的吗? |
![]() | 99 sickoo 161 天前 主要 claude3.7 但是不能拖太长,幻觉特别严重,最主要还是一不小心往里面塞屎 |
![]() | 100 malagebidi 161 天前 claude 3.7 强于 gemini 2.5 pro |