OpenAI 的 o1 模型: o1-preview 和 o1-mini 来了,草莓是内部的称呼, o1 才是正式名称。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
zxx0102
V2EX    OpenAI

OpenAI 的 o1 模型: o1-preview 和 o1-mini 来了,草莓是内部的称呼, o1 才是正式名称。

  •  
  •   zxx0102 2024-09-13 11:14:55 +08:00 2719 次点击
    这是一个创建于 392 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨晚半夜,OpenAI 正式发布了 o1 预览版!这是一系列新的 AI 模型,旨在在做出响应之前花更多时间进行思考。

    昨天测试模型人员在 Information 发布的草莓( strawberry )模型,正式版名称不叫草莓,草莓只是内部的一个代号。他们的正式名字,叫:o1!

    为什么取名叫 o1 ,OpenAI 是这么说的:

    For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

    翻译:对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1 ,并将这一系列命名为 OpenAI o1

    OpenAI o1 发布,也标志着,AI 行业,将快速推进 AGI 。

    推理逻辑能力

    ( 1 )在数学竞赛上:GPT-4o 的准确率为 13.4%,o1 预览版的准确率为 56.7%,o1 正式版,准确率为 83.3%。

    ( 2 )在代码竞赛上:GPT-4o 的准确率为 11.0%,o1 预览版的准确率为 62%,o1 正式版,准确率为 89%。

    ( 3 )在博士级科学问题上:GPT-4o 的准确率为 56.1%,人类专家水平的准确率为 69.7%,o1 的准确率达到了惊人的 78% 具体的各项能力:

    如何使用 o1

    目前,o1 模型已经逐步向所有 ChatGPT Plus 和 Team 用户开放,未来会考虑对免费用户开放。

    分为两个模型,o1 预览版o1 mini,o1-mini 就是更快更小更便宜,推理啥的都不错,极度适合数学和代码,就是世界知识会差很多,适用于需要推理但不需要广泛世界知识的场景。

    o1 预览版使用限制 30 条/每周,o1-mini 的 50 条/每周。

    从次数的限制来看,o1 的成本比 GPT-4o 贵了整整 N 倍,GPT-4o 是 80 条/3 小时。

    对于个人用户,使用的话,直接在右上角切换模型就行,但是 o1 只给 ChatGPT Plus 会员推送。如果你不知道怎么升级订阅 ChatGPT Plus 会员的话,可以参考教程: https://upchatgpt.cn/how-upgrade-chatgpt-plus/

    对于开发者的话,只给 5 级 API 用户推出 o1-mini ,价格比 OpenAI o1-preview 便宜 80%。ChatGPT Plus 、Team 、Enterprise 和 Edu 用户可以使用 o1-mini 作为 o1-preview 的替代品,具有更高的速率限制和更低的延迟。

    模型的速度

    对于 Prompt ,OpenAI 给出的最佳写法是:

    • 保持提示简单直接:模型擅长理解和响应简短、清晰的指令,而不需要大量的指导。
    • 避免思路链提示:由于这些模型在内部进行推理,因此不需要提示它们“逐步思考”或“解释你的推理”。
    • 使用分隔符来提高清晰度: 使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。
    • 限制检索增强生成 (RAG) 中的附加上下文: 提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化其响应。

    比较了 GPT-4o 、o1-mini 和 o1-preview 在单词推理问题上的回答。虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都正确回答,并且 o1-mini 达到答案的速度大约是 3-5 倍。

    1 条回复
    Vegetable
        1
    Vegetable  
       2024-09-13 11:31:54 +08:00
    实测能分清楚 13.11 和 13.8 谁大了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3152 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 10:55 PVG 18:55 LAX 03:55 JFK 06:55
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86