OpenAI新模型到达博士水平？我找清北博士品鉴了一下。

09-14 296阅读 0评论

说实话，有点受不了这些公司，老是深夜丢个大的了。。。

特别点名 OpenAI ，这回又毫无预告地发布了那个咱们惦记了好久的新模型。

之前说什么草莓不草莓的，一张草莓的相片遛了咱们好几天

作用，这回新模型底子跟草莓毛联系没有，而是起了一个全新的姓名Oepn AI o1 模型。

并且这玩意现已声称 openAI 的天顶星科技，奥特曼直接发帖明说了，这便是他们到现在为止最强、最共同的模型。

跟往次不同的是，这玩意究竟多牛 OpenAI 实践也没多吹，可是轻飘飘甩出了几张图，就有点让人头皮微麻。

像下面的图里，三个测验项目的作用就能说明晰，分别是世界数学奥林匹克比赛、编程比赛还有博士等级的科学问题。

这儿边最左面为 GPT-4o ，中心是现在现已敞开了的预览版 o1 ，最右边高高的赤色柱子为满血 o1 。你瞅瞅，根本每一项， o1 比起自己的长辈来说，都是挨近 8 倍的进步。。。

要是把这些测验作用拆开来，这新 o1 也几乎是在各种学科、各种范畴，都全量、全面、全方位地逾越 4o 。

而真实让差评君觉得可怕的是， OpenAI 说自己专门请了博士专家一同答题。

作用在博士等级的测验作用上，咱们看到 o1 答题分数均逾越了博士专家。o1 得分 78 ，人类得分 69.7 。。。

连博士都输了，那我和它比算什么？

灵敏的网友们，直接就炸了呀。又开端喊着，新的神现已呈现。

随意一翻，都是带着【最】字的超高点评，什么 “ 几乎太棒了！ ” 、 “ 最挨近人类推理的东西 ” 。

乃至有不少差友跑到咱们后台，慨叹 o1 你小子的确有点东西啊。

听起来是不是很牛逼？OpenAI 他们自己很显然也是这么觉着的。

详细 OpenAI 在它上面花了多少钱还没发布，但从用户使用上，就能显着看到这玩意多耗钱了。

o1 预览版每百万输入 15 美元，每百万输出 60 美元

这次对用户敞开的乃至不是满血版别，便是一个前期的预览版和一个小型阉割版。

哪怕仅仅抢先尝鲜，不只不免费，哪怕你掏钱开了会员，也卡你问答次数。预览版每周只要 30 条， mini 每周只要 50 条。。。

尽管有点贵，但咱们必定不行能让 OpenAI 吹什么便是什么。

他们不是说逾越博士了吗？差评君就冲了几个账号，去找了几个博士来亲测了一下。

为了确保专业性和客观性，咱们专门邀请了理综三科的博士参加测评，有生物学、固体物理学、材料化学等等。

其间，南京大学在读的固体物理学崔博士给出的点评，算是几个人里最高的。他觉得 o1 现已达到了 60 - 80 分（满分 100 ）的水平。

乃至，部分答复也能够给到 90 分。

崔博士给的第一个问题：远距离羁绊光子分发，有什么战胜白噪声的方法？

大约 9 秒钟左右， o1 就给出了 10 点可行的方法。

当然了，没一个点是我看得理解的。不过，崔博士的点评还能够：答案罗列全面，契合现有的最新研讨进展，归于科普等级的答案。

其间，提到的自适应光学的方向乃至是本年最新的 science 作用。

和老版 4o 一比，立刻高低立判了。

就甭说新方向提没提到，光是给出的方法数量上，就差了不少。

所今后边，咱们就专门对自适应光学这个船新方向进行了诘问：利用了量子羁绊的什么原理来进步信噪比？能否拓宽到量子自适应光学？

几轮答案之后，崔博士给出了 80 - 90 分的高分，还大方地和我供认，部分考虑是他的薄缺点，对他的方向有提示作用。

不过，后续咱们再深化诘问之后，它问题就露出出来了。当诘问到更难的试验细节部分， o1 的答复作用就会下降。

但全体来说，在物理方面， o1 的体现算是不错的。和老版比下来，进步根本在 20 分左右。

不过，在 OpenAI 的测验里，物理原本便是分数最高的。所以咱们又拉来一位北大在读材料化学的 K 博士，想对它评分最低的化学，来几个狠问题。

K 博士环绕Fe-N4 问了一系列的问题， o1 给了很长的一串答复，为了精简篇幅咱们这儿只展现了部分问题和作用。

全体测验之后， K 博士给出的点评也差不多：或许有研讨生水平，可是深化的认知和给计划的才能，比较虚，首要仍是针对已知内容作答。

比方问到怎么调理 Fe-N4 ， o1 能够说出根据电子态调理，但你要是问它那该咋调理，它就有点卡壳了。

尽管比较 gpt4o 没那么胡言乱语，但详细的问题上他俩都给不了太多主张，老版是损失细节胡说，新版才能有限就会词穷。

除了这俩，理综三科那必定也少不了生物。

咱们还咨询了来自清华，在读生物学的信博士，他的问题是： “ 怎么从质谱数据会集区别赖氨酸残基的乳酰化和羧乙基润饰？ ”

尽管我听不懂，可是 o1 也给了一段十分长的答复，跟论文总述似的，后边还贴了参考文献。

但出人意料的是，当咱们把这个答复交给信博士，人家看完就发现不对路了，并且是一眼丁真的问题。

倒不是这 AI 答复的全错，而是 AI 在参考文献里乱编，这论文压根不存在！

尽管编了，但也没彻底编，全体来说人家清华博士仍是觉得比之前的 AI 能强不少，最少理解才能是肉眼可见了，编也编的很像。。。

不过，不同方向的博士点评有所区别，这或许也跟 o1 自己拿手的范畴有关。

拿官方给出的理综分数来看，尽管 gpt4o 在生物学上的评分要比化学和物理高，但这回的 o1 就彻底不相同。

o1 在物理上的分数达到了 92.8 ，现已远超其他两门学科，这或许便是崔博士对它比较看好的原因。

全体而言，真要提到逾越专业博士水平，博士们以为还得慢慢。

崔博士直言，在实际科研工作中，大都状况学者们都还得自己着手， AI 只能供给大致方向，因而花钱要这样的详尽 AI 含义不大。

他更引荐本科生挑选这个 AI ，要是硕博阶段，那这个 AI 的答复其实并不契合导师规范，组会上必定要挨批。

清华的信博士也相同持这种观点，且不说 AI 的错觉假造文献问题，就专业程度而言， AI 的答复也只能欺骗大同行，也便是同一大学科里边方向不同的人群；而在小同行，专业研讨这个方向的人眼里， AI 的缺点仍是十分显着的。

北大 K 博士则谈的更深化，他以为这个 AI 只能说在认知上有了硕士生的水平，但也仅仅作为一个补缀匠，谈不上说出什么创造性的作用。就创造性这一点来说， AI 是远远比不上硕博的水平的，这也是 AI 需求处理的重要问题。

在博士们的点评里，咱们好像能抓到一个关键：o1 模型之所以相对更强，是因为他有了更高维的认知和考虑形式。

这，也是 o1 本次更新的关键。咱们在 OpenAI 官网找到了 Learning to Reason with LLMs 这篇文章，他们在文中表明，首要是他们用上了长思想链 ( CoT ， Chain of thought ) ，而不是传统的提示链（ Prompt chain ）。

第一眼看上去有点懵，说人话便是，这个大模型改变了以往那种你问我答的考虑方法。

在曾经的形式下，大模型的问答就跟下认识出答案相同，比方你问我天是啥色彩，这问题我想都不想，秒答蓝色。这实践上需求我原本就知道这个知识点，然后给你直接反响就完了。

但这个长思想链就相当于，我不只要知道蓝色是个啥，还能自己推一遍为啥是蓝色，什么大气散射，光谱波长都要考虑进去。

这就需求 AI 得有实打实的构建逻辑，推理证明的才能，换句话说，他不只要长脑子，还要动脑子。

尽管思想链这个概念是 2022 年谷歌提出来的，但 OpenAI 这次是第一个完成的。

实操进程中，现在你与 o1 模型对话，除了收成答案，还能够看挑选打开看他回答问题时的思想逻辑，他的考虑是具象化的而不是黑盒。

比方咱们拿崔博士发问的 “ 远距离羁绊光子分发，有什么战胜白噪声的方法？ ” 这一问题为例， o1 模型的考虑进程如下：

不过，就像专业范畴的问题它也会翻车相同，有些日常场景的简略题好像也有或许难住它。

拿之前那个经典 9.11 和 9.8 比大小比如来说，小红书网友 @ 小水刚醒就发现这玩意 “ 一上难度就溃散……无限循环发疯般推思想链（ CoT ） ”

咱们修改部自己评测时也发现了这个问题，不过当问询它为什么的时分，它也会立刻反响过来自己推理呈现了过错，然后再从头推导一番。

好好好，不愧是博士，长于发现过错是吧。

整轮测验下来，差评君不得不供认，它的确是大大进步了。士别三日，也的确应当刮目相看。

在作用上，也的确比较前代的确更好，并且长思想的使用，对未来 AI 开展都是功德。

但在几位博士轮流鞭打完今后，它的问题也露出得挺显着的，在创造力等某些方面，还代替不了人类博士专家。

不过 OpenAI 的研讨人员 Noam Brown 泄漏，未来版别的 o1 将会考虑几个小时、几天乃至几周，尽管这样烧钱会更多，但像在研制抗癌药这些使命上，这种花费也是值得的。

别的，差评君觉得 GPT o1 完成的思想链形式，也很有或许会像之前的 Transformer 架构、 DiT 架构那样，又会引领全世界的大模型的方向。

所以说，通往 AGI 之路说近不近，但说远也不远，等待接下来各家的选手轮流上台了。

撰文：纳西 & 四大

修改：江江 & 面线

美编：焕妍

图片、材料来历 ：OpenAI ，X ， IBM ，小红书等，图源网络

相关阅读

发表评论取消回复

评论列表（暂无评论，296人围观）

还没有评论，来说两句吧...

目录[+]