刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

09-13 177阅读 0评论

刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

关于杂乱的推理使命来说,o1 代表了当前人工智能(AI)才能的新水平。

就在刚刚,OpenAI 的“草莓”模型正式发布,名为“o1”,这是一系列新的人工智能模型,旨在花更多时刻考虑后再做出答复。

与曾经的科学、编码和数学模型比较,o1 模型能够推理杂乱的使命,处理更难的问题。

就像人类相同,o1 系列模型会用更多时刻考虑问题,然后再做出答复。经过练习,这些模型学会了完善考虑进程、测验不同的战略,并认识到自己的过错。

据 OpenAI 介绍,在测验中,o1 的下一个更新模型在物理、化学和生物等具有挑战性的基准使命上的体现达到了博士生的水平

他们还发现,这一模型在数学和编码方面体现出色。在世界数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确处理了 13% 的问题,而 o1 模型的得分率则高达 83%。

刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

此外,o1 模型的编码才能也在比赛中得到了评价,在 Codeforces 比赛中达到了第 89 个百分点。

刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

作为前期模型,o1 还不具有 ChatGPT 的许多实用功用,如阅读网页信息、上传文件和图片等。关于许多常见状况,GPT-4o 在短期内会有更强的功用。

但 OpenAI 表明,o1 模型更拿手处理科学、编码、数学和相似范畴的杂乱问题。例如,医疗保健研究人员能够运用 o1 为细胞测序数据增加注释,物理学家能够运用 o1 生成量子光学所需的杂乱数学公式,一切范畴的开发人员都能够运用 o1 构建和履行多过程工作流。

以下三个视频 demo 展现了o1 模型在处理杂乱推理问题方面的强壮才能。

视频|o1 处理了一个杂乱的逻辑难题。

视频|o1 依据提示为视频游戏编码。

视频|o1 翻译了一个损坏的语句。

此外,在安全性方面,OpenAI 提出了一种新的安全练习办法,运用 o1 模型的推理才能,使它们恪守安全和对齐原则。经过在上下文中对安全规矩进行推理,o1 模型能够更有用地运用这些规矩。

衡量安全性的办法之一,是测验当用户企图绕过安全规矩(即“越狱”)时,模型能在多大程度上持续遵从其安全规矩。在最难的越狱测验中,GPT-4o 得分为 22 分(0-100 分),而 o1-preview 得分为 84 分。

刚刚,OpenAI发布o1推理模型,碾压GPT-4o,物化生水平比肩人类博士

此外,为了向开发人员供给更高效的处理方案,OpenAI 还一起发布了 o1-mini,这是一种速度更快、本钱更低的推理模型,在编码方面尤为有用。作为一个较小的模型,o1-mini 比 o1-preview 廉价 80%,因而关于需求推理但不需求广泛世界知识的运用程序来说,它是一个经济高效的模型。

现在,o1 的预览版别和 o1-mini 已经在 ChatGPT(Plus 和 Team)和 API 上线。未来,o1-mini 将供给给一切 ChatGPT 免费用户运用。

作者:学术君

如需转载或投稿,请直接在大众号内留言

发表评论

快捷回复: 表情:
评论列表 (暂无评论,177人围观)

还没有评论,来说两句吧...

目录[+]