请教关于大模型 token 消耗的疑问，感觉随便一个任务就能消耗百万 token

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 133 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在用一些国产大模型 API ，感觉效果比 trae 官方的效果好很多，又快又好。所以是不是 trae 一些官方接入的模型，上下文被严重压缩了，以至于用起来降智特别严重。

另一个问题是，它的思考过程，是不是有可能会把整个项目文档作为输入去思考，所以一个问题直接消耗百万 token ？

token 消耗

国产大模型 API

上下文压缩

13 条回复 2025-08-17 01:04:04 +08:00

PositionZero

133 天前

1. 官方提供的 API 都是满血版本，AI IDE 提供的一般是残血版（降低上下文、降低思考强度等）。在 AI IDE 中用满血版一般需要额外付费（比如 cursor 的 Max Mode ）。
2. 一般不可能输入整个项目文档作为上下文。token 消耗快是因为每个问题都有很长的 system prompt 。

bbbblue

133 天前

你可以用下 cline 然后点开他的上下文可以看到里面塞了多少东西
你就光问一个问题他就会把整个目录树全塞进去（不过 cline 他们的教条是不做 RAG 所以文件读取也是整个的）

那种订阅制的 AI 插件/IDE 不会塞这么多东西的

vclin

133 天前 via iPhone

2k 不到的单次上下文使用，给我缓存了两百多 k…哎

kneo

133 天前

你说的莫不是 qwen3 ？

vincentqi

133 天前

@kneo Yes

kneo

133 天前

@vincentqi 虽然我没用过，但是 qwen3 在 agent 方面是出了名的费，让人怀疑是有 bug 。

ferock

PRO

133 天前 via iPhone

整个文档目录索引做的比较好的是 cursor

Grin1024

133 天前

因为这些 agent 的 system prompt 写的都很长，所以就会出现问一下 hello 都要好几万 token 。比较好的使用方法就是完成一个小功能后就新开一个对话，不然上下文爆炸。

cinlen

133 天前

昨晚试用了一下 qwen cli + qwen3-coder, 写了一个简单 task 让它自己跑就没有管它了，早上想起来看了一下，赠送的 100 万 token 额度已经用完了而且工作也没做完。

yjd

132 天前

就我最近翻译一个文档，然后还需要写一个 py 代码来后期处理。qwen3 很一般。提示词明确不能删除空白行，他就傻乎乎删。而其他国内国外都不会删。

bthulu

132 天前

让它用文言文来思考是不是可以瞬间减少很多消耗

sworld233

131 天前

我个人用过来 roocode(cline 、kilo code)这类工具自己接入效果是不错的（相比 Cursor 和 Windsurf ），但是花钱太恐怖了，之前 kilo 送的免费$100 额度一周就用完了（ code 模式用 claude sonnet4,其他 gemini 2.5pro ），每天消耗在 10M 个 token 上下

bbbblue

131 天前

@sworld233 试试 glm4.5 虽然现在还有白嫖的 gemini 2.5 pro 但是为了防止后面他没了。。我现在部分开始用 roocode+glm4.5/通义灵码....

或者要省一点其实 plan/architect mode 用 2.5 pro/sonnet 但是 act/code 模式用 gemini 2.5 flash 这种会稍微好一点
我白嫖前就用的 gemini 2.0 flash 已经能完成不少工作了

还是得慢慢尝试了