请教关于大模型 token 消耗的疑问,感觉随便一个任务就能消耗百万 token - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
vincentqi
0.01D
V2EX    程序员

请教关于大模型 token 消耗的疑问,感觉随便一个任务就能消耗百万 token

  •  
  •   vincentqi 55 天前 3171 次点击
    这是一个创建于 55 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近在用一些国产大模型 API ,感觉效果比 trae 官方的效果好很多,又快又好。所以是不是 trae 一些官方接入的模型,上下文被严重压缩了,以至于用起来降智特别严重。

    另一个问题是,它的思考过程,是不是有可能会把整个项目文档作为输入去思考,所以一个问题直接消耗百万 token ?
    13 条回复    2025-08-17 01:04:04 +08:00
    PositionZero
        1
    PositionZero  
       55 天前   1
    1. 官方提供的 API 都是满血版本,AI IDE 提供的一般是残血版(降低上下文、降低思考强度等)。在 AI IDE 中用满血版一般需要额外付费(比如 cursor 的 Max Mode )。
    2. 一般不可能输入整个项目文档作为上下文。token 消耗快是因为每个问题都有很长的 system prompt 。
    bbbblue
        2
    bbbblue  
       55 天前   1
    你可以用下 cline 然后点开他的上下文 可以看到里面塞了多少东西
    你就光问一个问题 他就会把整个目录树全塞进去(不过 cline 他们的教条是不做 RAG 所以文件读取也是整个的)

    那种订阅制的 AI 插件/IDE 不会塞这么多东西的
    vclin
        3
    vclin  
       55 天前 via iPhone
    2k 不到的单次上下文使用,给我缓存了两百多 k…哎
    kneo
        4
    kneo  
       55 天前
    你说的莫不是 qwen3 ?
    vincentqi
        5
    vincentqi  
    OP
       55 天前
    @kneo Yes
    kneo
        6
    kneo  
       55 天前
    @vincentqi 虽然我没用过,但是 qwen3 在 agent 方面是出了名的费,让人怀疑是有 bug 。
    ferock
        7
    ferock  
    PRO
       55 天前 via iPhone
    整个文档目录索引做的比较好的是 cursor
    Grin1024
        8
    Grin1024  
       55 天前   1
    因为这些 agent 的 system prompt 写的都很长,所以就会出现问一下 hello 都要好几万 token 。比较好的使用方法就是完成一个小功能后就新开一个对话,不然上下文爆炸。
    cinlen
        9
    cinlen  
       55 天前
    昨晚试用了一下 qwen cli + qwen3-coder, 写了一个简单 task 让它自己跑就没有管它了,早上想起来看了一下,赠送的 100 万 token 额度已经用完了而且工作也没做完。
    yjd
        10
    yjd  
       55 天前
    就我最近翻译一个文档,然后还需要写一个 py 代码来后期处理。qwen3 很一般。提示词明确不能删除空白行,他就傻乎乎删。而其他国内国外都不会删。
    bthulu
        11
    bthulu  
       54 天前
    它用文言文来思考是不是可以瞬间减少很多消耗
    sworld233
        12
    sworld233  
       54 天前
    我个人用过来 roocode(cline 、kilo code)这类工具自己接入效果是不错的(相比 Cursor 和 Windsurf ),但是花钱太恐怖了,之前 kilo 送的免费$100 额度一周就用完了( code 模式用 claude sonnet4,其他 gemini 2.5pro ),每天消耗在 10M 个 token 上下
    bbbblue
        13
    bbbblue  
       54 天前
    @sworld233 试试 glm4.5 虽然现在还有白嫖的 gemini 2.5 pro 但是为了防止后面他没了。。我现在部分开始用 roocode+glm4.5/通义灵码....

    或者要省一点其实 plan/architect mode 用 2.5 pro/sonnet 但是 act/code 模式用 gemini 2.5 flash 这种会稍微好一点
    我白嫖前就用的 gemini 2.0 flash 已经能完成不少工作了

    还是得慢慢尝试了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1209 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 17:13 PVG 01:13 LAX 10:13 JFK 13:13
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86