突发!OpenAI发布最强模型o1:博士物理92.8分,IOI金牌水平

09-13 457阅读 0评论

梦晨 房屋 发自 凹非寺
量子位 | 大众号 QbitAI

来了来了!刚刚,OpenAI新模型无预警上新:

o1系列,可以进行通用杂乱推理,每次答复要花费更长时刻考虑。

在处理博士水平的物理问题时,GPT-4o仍是“不及格”59.5分,o1一跃来到“优异档”,直接干到92.8分

没错,传说中的「草莓」,总算来与我们碰头了!

CEO奥特曼称它是一种新范式的开端:可以进行通用杂乱推理的人工智能。

具体来说,o1系列是OpenAI首个经过强化学习练习的模型,在输出答复之前,会在发生一个很长的思想链,以此增强模型的才能。

换句话说,内部思想链越长,o1考虑得越久,模型在推理使命上的体现就越好。

o1有多强呢?CEO奥特曼直给了答案:

在刚刚完毕的2024 IOI信息学奥赛题目中,o1的微调版别在每题测验50次条件下取得了213分,归于人类选手中前49%的成果。

假如答应它每道题测验10000次,就能取得362.14分,高于金牌选手门槛,可取得金牌

别的它还在竞争性编程问题(Codeforces) 中排名前89%,在美国数学奥林匹克(AIME) 预选赛题目中跻身美国前500名学生之列。

与GPT-4o比较,o1在数理化生、英语法令经济等各种科目都有不同成果改善。

汇总官方发布的各种音讯来看,这次忽然发布的o1系列又分为三个类型:

o1,新的大模型天花板,过于强壮现在不方便对外揭露。

o1-preiview,o1的前期版别,可以当即提供给ChatGPT付费用户和API用户

o1-mini,速度更快、性价比更高,适用于需求推理和无需广泛世界知识的使命。

不少OpenAI职工都分别用“体系1”和“体系2”考虑来科普o1系列与之前模型的差异。

连长时刻度假中的总裁Brockman都“诈尸”回归了。

思想链提示办法的原作者Jason Wei表明,这一次不是朴实经过提示来完结思想链,而是运用强化学习练习模型以更好地履行链式考虑。

在深度学习的前史中,人们一向企图扩展练习阶段的核算,但思想链是自适应核算的一种方式,现在也可以在推理时扩展。

新模型做了许多相似人类的作业,比方将扎手的过程分解为更简略的过程、辨认和纠正过错以及测验不同的办法。
游戏已被彻底从头界说。

o1:AI才能新天花板

经过练习,o1模型学会完善自己的思想过程,测验不同的战略,并认识到自己的过错。

不过作为前期模型,它尚不具有ChatGPT的许多有用功用,例如联网查找以及上传文件和图画。

但关于杂乱的推理使命来说,这是一个严重前进,OpenAI称代表了人工智能的最高水平。

鉴于此,他们决议将计数器重置,并将该系列模型命名为OpenAI o1

跟着更多的强化学习(练习时核算)和更多的考虑时刻(测验时核算),o1 的功能持续进步,新的Scaling Law诞生了

不过这种办法的Scaling遭到的约束与一般预练习有很大不同,OpenAI正在持续研讨它们。

o1考虑起来是什么姿态?可以从官网示例中的编写Bash脚本的编程使命一窥终究。

首要作为比照,GPT-4o会直接就开端写代码,惋惜得到过错成果

而o1-preiview会先用自己的了解复述一遍要求,然后开端拆解要求清晰最终方针

接下来它会给自己界说使命剖析约束条件列出需求用到的办法

进一步把使命拆解成清晰的数个小过程。

最终才着手编写代码,并确保一次性得到正确成果。

OpenAI表明,o1系列可以帮医疗保健研讨人员来注释细胞测序数据,协助物理学家可以生成量子光学所需的杂乱数学公式,一切范畴的开发人员可以运用o1来构建和履行多过程作业流程。

并且不是说说罢了,OpenAI现已约请相关的人类专家学者试用了一波。

马克思普朗克研讨所的量子物理学者Mario Krenn,展现了GPT-4o不能答复但o1-preview正确完结核算的杂乱量子物理问题。

除了考试和学术基准之外,团队还评价了人们对o1-preview与GPT-4o在敞开问题上的偏好。

在数据剖析、编码和数学等推理密集型类别中,o1-preview显着优于gpt-4o。

但是o1-preview在某些自然语言使命上并不是首选,这表明它并不适宜一切场景。

OpenAI科学家Noam Brown共享了更具体的个人测验成果。

在上个月的ACL会议上有一个一切其时大模型都无法处理的逻辑难题。o1-preview可以做对,o1满血版简直每次测验都能做对。

现在o1花费在考虑上的时刻是几秒到十几秒,但OpenAI未来的改善方向不是缩短,反而是尽力添加这个时刻,

方针是让未来的版别考虑几个小时、几天乃至几周。
推理成本会更高,但你会为一种新的抗癌药物付多少钱?为了电池的打破、黎曼猜测的证明又付多少?
人工智能可以不仅仅是谈天机器人

谁可以拜访o1?

依据OpenAI官方说法,ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在发布时,o1-preview约束为每周30条音讯,o1-mini每周50条。

API拜访权限将首要给Tier 5级用户,也便是现已在OpenAI API上花费超越1000美元的人。

OpenAI正在尽力进步这些速率,并使ChatGPT可以针对给定的提示主动挑选适宜的模型。

快翻开ChatGPT看看你是不是第一波吃草莓的人吧。

https://openai.com/o1/

https://x.com/polynoamial/status/1834280155730043108

发表评论

快捷回复: 表情:
评论列表 (暂无评论,457人围观)

还没有评论,来说两句吧...

目录[+]