OpenAI o1新上线,给大模型“打榜热”上一课

09-13 480阅读 0评论

摘要:大模型跑分没有意义,详细使用场景是否满意用户需求以及发生价值增益,才是衡量大模型才能的规范。

OpenAI o1新上线,给大模型“打榜热”上一课

衬托很长,但发布很忽然。今天(13日)清晨,OpenAI发布o1系列两款模型,这是传闻中内部代号为“草莓”的项目,也是OpenAI首款具有推理才能的大模型。

o1大模型的取名方法一改原有的数字版别形式(如GPT-3.5、GPT-4o),OpenAI为此解说“它代表了人工智能才能的新水平,咱们将计数器重置为1”。

那么,o1的“新水平”到底有多新?测验成果显现,与GPT-4o比较,o1又贵又慢,单位词元本钱提高了2—3倍,输出内容不再是“秒回”,而是需求“考虑”十几秒。不过测验成果显现,o1处理数学和编码等杂乱问题明显优于GPT-4o。

依据官方解说,o1采纳异乎寻常的“思想链”(Chain of Thought)形式进行练习,以此提高大模型的逻辑推理才能。o1“考虑”越久,思想链越长,面对杂乱问题的体现就越好。

国内大模型创业者告知记者,o1的上线,意味着新的Scaling Law(拓宽规划规律)诞生,也将影响原有的大模型点评系统和结构。

与以往NLP(自然语言处理)比较,大模型点评系统更为杂乱,因为输出内容的不行确定性,点评系统不局限于清晰的使命目标,而是归纳对场景才能进行点评。这也给大模型的“规范”带来了操作空间。

事实上,国内外大模型的测验集和榜单多达上百种,每个榜单的排名简直各不相同。比方中文大模型测评基准SuperCLUE最新陈述中,腾讯混元大模型总得分家国内大模型第一名;大模型社区HuggingFace排行榜显现,阿里云通义千问登顶开源模型第一;斯坦福大学根底模型研究中心排行榜中,零一万物大模型力压百度、字节进入全球十强……

记者从业内人士得悉,国内外大模型的测评项目良莠不齐,但许多都是“开卷考”,新模型能够针对现有题库“刷题”来练习,刷出高分来验证才能。大模型厂商不只会猜题,还会用“模拟考”来练习答题技巧,“打榜成果”好坏无法客观反映出大模型的实在才能。因而,榜单中许多新模型的“异军突起”,实践效果仍要打个问号。

“许多国产新模型发布时,喜爱跟OpenAI最新模型比较,用测验集来跑分,有些单项得分超越GPT-4o,但这并不能代表,这些新模型与GPT-4o的才能相差不大。”记者从百度内部得悉,李彦宏在职工讲话中批判了当时的大模型“打榜热”,他以为大模型的距离是多维度的,才能维度仅仅其间一方面,了解、生成、逻辑推理、回忆联想等才能,能够经过特定项目练习实现目标,可是本钱维度、时刻维度等却简直不予发表,而这些维度与大模型的实践才能密切相关。

“部分自媒体的炒作,加上新模型发布的宣扬,让我们有一种形象,以为模型之间的才能不同现已比较小了,其实真不是这样。”李彦宏以为,大模型跑分没有意义,详细使用场景是否满意用户需求以及发生价值增益,才是衡量大模型才能的规范。

上星期,开源模型Reflection 70B横扫各大模型榜单,每项基准测验体现均超越GPT-4o,由两位开发者仅耗时3周完结,现在却被曝出面对无法复现、套壳等指控。凭仗跑分一炮而红,然后招引出资,这一状况在“百模大战”中早已层出不穷。

回过头来看o1,简直没有参与干流榜单测评,乃至连在许多重要点评类目中不如GPT-4o,比方无法处理文件和图画、对知识了解体现欠佳等,但o1的实力却是众所周知的。OpenAI让o1“参与”世界数学奥林匹克资格考试,GPT-4o正确率为13%,但o1正确率高达83%。

俗话说,是骡子是马,拉出去遛遛。大模型的才能难以被量化,不代表用户没有感知度。大模型的终极查验,应该在商场,而不是在榜单。

发表评论

快捷回复: 表情:
评论列表 (暂无评论,480人围观)

还没有评论,来说两句吧...

目录[+]