突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

09-13 457阅读 0评论

梦晨房屋发自凹非寺
量子位 | 大众号 QbitAI

来了来了！刚刚，OpenAI新模型无预警上新：

o1系列，可以进行通用杂乱推理，每次答复要花费更长时刻考虑。

在处理博士水平的物理问题时，GPT-4o仍是“不及格”59.5分，o1一跃来到“优异档”，直接干到92.8分！

没错，传说中的「草莓」，总算来与我们碰头了！

CEO奥特曼称它是一种新范式的开端：可以进行通用杂乱推理的人工智能。

具体来说，o1系列是OpenAI首个经过强化学习练习的模型，在输出答复之前，会在发生一个很长的思想链，以此增强模型的才能。

换句话说，内部思想链越长，o1考虑得越久，模型在推理使命上的体现就越好。

o1有多强呢？CEO奥特曼直给了答案：

在刚刚完毕的2024 IOI信息学奥赛题目中，o1的微调版别在每题测验50次条件下取得了213分，归于人类选手中前49%的成果。

假如答应它每道题测验10000次，就能取得362.14分，高于金牌选手门槛，可取得金牌。

别的它还在竞争性编程问题(Codeforces) 中排名前89%，在美国数学奥林匹克(AIME) 预选赛题目中跻身美国前500名学生之列。

与GPT-4o比较，o1在数理化生、英语法令经济等各种科目都有不同成果改善。

汇总官方发布的各种音讯来看，这次忽然发布的o1系列又分为三个类型：

o1，新的大模型天花板，过于强壮现在不方便对外揭露。

o1-preiview，o1的前期版别，可以当即提供给ChatGPT付费用户和API用户。

o1-mini，速度更快、性价比更高，适用于需求推理和无需广泛世界知识的使命。

不少OpenAI职工都分别用“体系1”和“体系2”考虑来科普o1系列与之前模型的差异。

连长时刻度假中的总裁Brockman都“诈尸”回归了。

思想链提示办法的原作者Jason Wei表明，这一次不是朴实经过提示来完结思想链，而是运用强化学习练习模型以更好地履行链式考虑。

在深度学习的前史中，人们一向企图扩展练习阶段的核算，但思想链是自适应核算的一种方式，现在也可以在推理时扩展。

新模型做了许多相似人类的作业，比方将扎手的过程分解为更简略的过程、辨认和纠正过错以及测验不同的办法。
游戏已被彻底从头界说。

o1：AI才能新天花板

经过练习，o1模型学会完善自己的思想过程，测验不同的战略，并认识到自己的过错。

不过作为前期模型，它尚不具有ChatGPT的许多有用功用，例如联网查找以及上传文件和图画。

但关于杂乱的推理使命来说，这是一个严重前进，OpenAI称代表了人工智能的最高水平。

鉴于此，他们决议将计数器重置，并将该系列模型命名为OpenAI o1。

跟着更多的强化学习（练习时核算）和更多的考虑时刻（测验时核算），o1 的功能持续进步，新的Scaling Law诞生了。

不过这种办法的Scaling遭到的约束与一般预练习有很大不同，OpenAI正在持续研讨它们。

o1考虑起来是什么姿态？可以从官网示例中的编写Bash脚本的编程使命一窥终究。

首要作为比照，GPT-4o会直接就开端写代码，惋惜得到过错成果。

而o1-preiview会先用自己的了解复述一遍要求，然后开端拆解要求，清晰最终方针。

接下来它会给自己界说使命、剖析约束条件、列出需求用到的办法。

进一步把使命拆解成清晰的数个小过程。

最终才着手编写代码，并确保一次性得到正确成果。

OpenAI表明，o1系列可以帮医疗保健研讨人员来注释细胞测序数据，协助物理学家可以生成量子光学所需的杂乱数学公式，一切范畴的开发人员可以运用o1来构建和履行多过程作业流程。

并且不是说说罢了，OpenAI现已约请相关的人类专家学者试用了一波。

马克思普朗克研讨所的量子物理学者Mario Krenn，展现了GPT-4o不能答复但o1-preview正确完结核算的杂乱量子物理问题。

除了考试和学术基准之外，团队还评价了人们对o1-preview与GPT-4o在敞开问题上的偏好。

在数据剖析、编码和数学等推理密集型类别中，o1-preview显着优于gpt-4o。

但是o1-preview在某些自然语言使命上并不是首选，这表明它并不适宜一切场景。

OpenAI科学家Noam Brown共享了更具体的个人测验成果。

在上个月的ACL会议上有一个一切其时大模型都无法处理的逻辑难题。o1-preview可以做对，o1满血版简直每次测验都能做对。

现在o1花费在考虑上的时刻是几秒到十几秒，但OpenAI未来的改善方向不是缩短，反而是尽力添加这个时刻，

方针是让未来的版别考虑几个小时、几天乃至几周。
推理成本会更高，但你会为一种新的抗癌药物付多少钱？为了电池的打破、黎曼猜测的证明又付多少？
人工智能可以不仅仅是谈天机器人

谁可以拜访o1？

依据OpenAI官方说法，ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在发布时，o1-preview约束为每周30条音讯，o1-mini每周50条。

API拜访权限将首要给Tier 5级用户，也便是现已在OpenAI API上花费超越1000美元的人。

OpenAI正在尽力进步这些速率，并使ChatGPT可以针对给定的提示主动挑选适宜的模型。

快翻开ChatGPT看看你是不是第一波吃草莓的人吧。

https://openai.com/o1/

https://x.com/polynoamial/status/1834280155730043108

相关阅读

发表评论取消回复

评论列表（暂无评论，457人围观）

还没有评论，来说两句吧...

目录[+]