OpenAI o1新上线，给大模型“打榜热”上一课

09-13 480阅读 0评论

摘要：大模型跑分没有意义，详细使用场景是否满意用户需求以及发生价值增益，才是衡量大模型才能的规范。

衬托很长，但发布很忽然。今天（13日）清晨，OpenAI发布o1系列两款模型，这是传闻中内部代号为“草莓”的项目，也是OpenAI首款具有推理才能的大模型。

o1大模型的取名方法一改原有的数字版别形式（如GPT-3.5、GPT-4o），OpenAI为此解说“它代表了人工智能才能的新水平，咱们将计数器重置为1”。

那么，o1的“新水平”到底有多新？测验成果显现，与GPT-4o比较，o1又贵又慢，单位词元本钱提高了2—3倍，输出内容不再是“秒回”，而是需求“考虑”十几秒。不过测验成果显现，o1处理数学和编码等杂乱问题明显优于GPT-4o。

依据官方解说，o1采纳异乎寻常的“思想链”（Chain of Thought）形式进行练习，以此提高大模型的逻辑推理才能。o1“考虑”越久，思想链越长，面对杂乱问题的体现就越好。

国内大模型创业者告知记者，o1的上线，意味着新的Scaling Law（拓宽规划规律）诞生，也将影响原有的大模型点评系统和结构。

与以往NLP（自然语言处理）比较，大模型点评系统更为杂乱，因为输出内容的不行确定性，点评系统不局限于清晰的使命目标，而是归纳对场景才能进行点评。这也给大模型的“规范”带来了操作空间。

事实上，国内外大模型的测验集和榜单多达上百种，每个榜单的排名简直各不相同。比方中文大模型测评基准SuperCLUE最新陈述中，腾讯混元大模型总得分家国内大模型第一名；大模型社区HuggingFace排行榜显现，阿里云通义千问登顶开源模型第一；斯坦福大学根底模型研究中心排行榜中，零一万物大模型力压百度、字节进入全球十强……

记者从业内人士得悉，国内外大模型的测评项目良莠不齐，但许多都是“开卷考”，新模型能够针对现有题库“刷题”来练习，刷出高分来验证才能。大模型厂商不只会猜题，还会用“模拟考”来练习答题技巧，“打榜成果”好坏无法客观反映出大模型的实在才能。因而，榜单中许多新模型的“异军突起”，实践效果仍要打个问号。

“许多国产新模型发布时，喜爱跟OpenAI最新模型比较，用测验集来跑分，有些单项得分超越GPT-4o，但这并不能代表，这些新模型与GPT-4o的才能相差不大。”记者从百度内部得悉，李彦宏在职工讲话中批判了当时的大模型“打榜热”，他以为大模型的距离是多维度的，才能维度仅仅其间一方面，了解、生成、逻辑推理、回忆联想等才能，能够经过特定项目练习实现目标，可是本钱维度、时刻维度等却简直不予发表，而这些维度与大模型的实践才能密切相关。

“部分自媒体的炒作，加上新模型发布的宣扬，让我们有一种形象，以为模型之间的才能不同现已比较小了，其实真不是这样。”李彦宏以为，大模型跑分没有意义，详细使用场景是否满意用户需求以及发生价值增益，才是衡量大模型才能的规范。

上星期，开源模型Reflection 70B横扫各大模型榜单，每项基准测验体现均超越GPT-4o，由两位开发者仅耗时3周完结，现在却被曝出面对无法复现、套壳等指控。凭仗跑分一炮而红，然后招引出资，这一状况在“百模大战”中早已层出不穷。

回过头来看o1，简直没有参与干流榜单测评，乃至连在许多重要点评类目中不如GPT-4o，比方无法处理文件和图画、对知识了解体现欠佳等，但o1的实力却是众所周知的。OpenAI让o1“参与”世界数学奥林匹克资格考试，GPT-4o正确率为13%，但o1正确率高达83%。

俗话说，是骡子是马，拉出去遛遛。大模型的才能难以被量化，不代表用户没有感知度。大模型的终极查验，应该在商场，而不是在榜单。