 | | qiancheng V2EX member #127171, joined on 2015-07-14 19:02:25 +08:00 |
 | Per qiancheng's settings, the topics list is hidden |
Deals info, including closed deals, is not hidden
qiancheng's recent replies
从训练模型的原理上来看 tokenizer 对中文和英文编码的 token id 是不一样的,虽然经过 ROPE 位置编码,中英文混合语料训练过,表面上看回答的头头是道,但是中英文的表现会有较大差异。
1 、大家可能记得 llama3/4 在中文上的表现一塌糊涂,但是在英文上的表现尚可
2 、国内的大模型基座训练会增大中文语料比率,以及增加一下中文互联网常见的语料和书籍,所以大家实际在用大模型比如豆包,千问,deepseek 时候会感觉中文的思考能力和回答的模式接近正常人,这是因为在 post-training 以及 RL 阶段对齐了中国人在日常的常见场景,这也是为什么有的会给你推荐中药和中医的原理,以及算命,阴阳等。
不要忘记大模型发展到如此智能的当下,依然建立在概率论和语料的基础上的。
我赞同 #16 rick13 的观点,如果你能引导 AI 用英语思维,critic thinking 这是最好,但不完全代表你用纯英文问国内的 GPT 就能获得比中文 prompt 得到更好的更高质量的回答,因为国内的 GPT 在英文语料上的训练比率较低,且没有后续多阶段精调。
如果你希望 AI 能更好辅助你,首先你自己要能够 critic thinking ,并验证信息源,尽量不带偏见使用开放式问答,多角度反复尝试多个 GPT 。
Everything -> HoudahSpot
win + V -> Maccy