刚刚，OpenAI发布o1推理模型，碾压GPT-4o，物化生水平比肩人类博士

09-13 177阅读 0评论

关于杂乱的推理使命来说，o1 代表了当前人工智能（AI）才能的新水平。

就在刚刚，OpenAI 的“草莓”模型正式发布，名为“o1”，这是一系列新的人工智能模型，旨在花更多时刻考虑后再做出答复。

与曾经的科学、编码和数学模型比较，o1 模型能够推理杂乱的使命，处理更难的问题。

就像人类相同，o1 系列模型会用更多时刻考虑问题，然后再做出答复。经过练习，这些模型学会了完善考虑进程、测验不同的战略，并认识到自己的过错。

据 OpenAI 介绍，在测验中，o1 的下一个更新模型在物理、化学和生物等具有挑战性的基准使命上的体现达到了博士生的水平。

他们还发现，这一模型在数学和编码方面体现出色。在世界数学奥林匹克（IMO）的资格考试中，GPT-4o 只正确处理了 13% 的问题，而 o1 模型的得分率则高达 83%。

此外，o1 模型的编码才能也在比赛中得到了评价，在 Codeforces 比赛中达到了第 89 个百分点。

作为前期模型，o1 还不具有 ChatGPT 的许多实用功用，如阅读网页信息、上传文件和图片等。关于许多常见状况，GPT-4o 在短期内会有更强的功用。

但 OpenAI 表明，o1 模型更拿手处理科学、编码、数学和相似范畴的杂乱问题。例如，医疗保健研究人员能够运用 o1 为细胞测序数据增加注释，物理学家能够运用 o1 生成量子光学所需的杂乱数学公式，一切范畴的开发人员都能够运用 o1 构建和履行多过程工作流。

以下三个视频 demo 展现了o1 模型在处理杂乱推理问题方面的强壮才能。

视频｜o1 处理了一个杂乱的逻辑难题。

视频｜o1 依据提示为视频游戏编码。

视频｜o1 翻译了一个损坏的语句。

此外，在安全性方面，OpenAI 提出了一种新的安全练习办法，运用 o1 模型的推理才能，使它们恪守安全和对齐原则。经过在上下文中对安全规矩进行推理，o1 模型能够更有用地运用这些规矩。

衡量安全性的办法之一，是测验当用户企图绕过安全规矩（即“越狱”）时，模型能在多大程度上持续遵从其安全规矩。在最难的越狱测验中，GPT-4o 得分为 22 分（0-100 分），而 o1-preview 得分为 84 分。

此外，为了向开发人员供给更高效的处理方案，OpenAI 还一起发布了 o1-mini，这是一种速度更快、本钱更低的推理模型，在编码方面尤为有用。作为一个较小的模型，o1-mini 比 o1-preview 廉价 80%，因而关于需求推理但不需求广泛世界知识的运用程序来说，它是一个经济高效的模型。

现在，o1 的预览版别和 o1-mini 已经在 ChatGPT（Plus 和 Team）和 API 上线。未来，o1-mini 将供给给一切 ChatGPT 免费用户运用。

作者：学术君

如需转载或投稿，请直接在大众号内留言

相关阅读

发表评论取消回复

评论列表（暂无评论，177人围观）

还没有评论，来说两句吧...

目录[+]