国内大模型与 chatgpt

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 251 天前的主题，其中的信息可能已经有所发展或是发生改变。

小白关于国内大模型有几个疑问

国内这么多的模型：通义系列，豆包、deepseek 等与 chatgpt 有什么样的区别。（目前看来 chatgp 已经有收费版本，国内大部分免费）
如果要用 AI 做一些事情，用国外的还是国内比较好。
想知道为什么模型不同的底层原理是什么，除了训练的数据量之外。（希望能够用通俗易懂的话来解释）

国内大模型

ChatGPT

9 条回复 2025-06-30 10:03:03 +08:00

donaldturinglee

2025 年 6 月 30 日 via Android

小白可以不考虑第三点，前两点取决你的目的是要做什么

neteroster

2025 年 6 月 30 日 via Android

1. 你的指代太宽泛以至于无法给出切题的答案。请注意 ChatGPT 是产品不是模型。模型的能力是一个复杂的事情，各自有各自擅长的地方，例如 ChatGPT o3 擅长多轮搜索，Claude 擅长编码 agent ，Gemini 擅长长文本召回和多模态等等。

2. 目前总体来说御三家（ OpenAI, Anthropic, Google ）还是比国内的模型领先一大截的。不过还是那个问题，在会用且了解模型能力的情况下差距才能体现。

3. 虽然御三家基本上都对自己的模型架构守口如瓶，但是几乎可以肯定的是他们都基于一种非常基础且重要的组件 Transformer （由 Google 在 2017 年的论文 Attention is All You Need 提出）。在此基础上模型的其他组成会有一些差别，例如是 dense 模型或是 MoE 模型（目前推测御三家基本都在用 MoE, 其中 Gemini 在技术报告中直接说了，Deepseek V3 / R1 也是 MoE ），其他地方也会有些许差别。还有就是训练，除了训练数据量还有数据筛选清洗合成管线等等，以及各种训练参数，后训练（包括重强化学习用于训练推理模型）方案等等，这些也多属于独家秘方，就算是 Deepseek 这种开放团队在这方面公开的信息也是少之又少，更不用说商业模型了。