开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

09-06 380阅读 0评论

西风 发自 凹非寺
量子位 | 大众号 QbitAI

开源大模型王座忽然易主,竟然来自一家小创业团队,瞬间引爆业界。

新模型名为Reflection 70B,运用一种全新练习技能,让AI学会在推理进程中纠正自己的过错和错觉。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

比方最近盛行的数r测验中,一开端它犯了和大多数模型相同的过错,但主动在<反思>标签中纠正了自己。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

在官方评测中,70B模型全面逾越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆,得分99.2%

这个成果也让OpenAI科学家、德扑AI之父Noam Brown热情开麦:

GSM8K得分99%!是不是能够正式筛选这个基准了?

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

模型刚刚上线网友就把试玩挤爆了,对此Meta还主动援助了更多算力。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

在网友测验中,Reflection 70B能答复对GSM8K数据会集本身答案过错的问题:

我向模型供给了GSM8K中存在的5个“ground_truth”本身就不正确的问题。
模型没有重复数据会集的过错答案,而是悉数答复对了,这很令人形象深入,标明那99.2%的准确率并非来自于回忆测验集

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

数各种r都不在话下,连生造词“drirrrngrrrrrnnn”中有几个r也能被正确数对。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

网友纷繁对小团队做出的开源逾越顶流闭源感到惊奇,现在最强开源模型能够在本地运行了。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

要害70B还仅仅个开端,官方表明下周还会发布更大的Reflection 405B

估计405B性能将大幅优于Sonnet和GPT-4o。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

Reflection 70B权重已揭露,API拜访将于今日晚些时分由Hyperbolic Labs供给。

模型能自我反思纠正过错

现在关于Reflection 70B的更多细节如下。

Reflection 70B才能进步的要害,是采用了一种名为Reflection-Tuning的练习方法,它能够让模型反思自己生成的文本,在终究确认回应前检测并纠正本身推理中的过错。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

练习中的数据来自运用GlaiveAI渠道生成的组成数据。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

Reflection 70B根据Llama 3.1 70B Instruct,能够运用与其它Llama模型相同的代码、pipeline等从Reflection Llama-3.1 70B进行采样。

它乃至运用了规范的Llama 3.1谈天格局。

不过,Reflection 70B引入了一些特别tokens,结构化输出进程。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

如下面这个比方所展现的,规划进程分为一个独立的进程,这样做能够进步CoT作用,并坚持输出精粹:

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

模型将从在和标签内输出推理开端,一旦对其推理感到满足,就会在和标签内输出终究答案。

所以它能够将其内部考虑和推理与终究答案别离。

在部分,模型可能会输出一个或多个<reflection>标签,这标明模型发现了其推理中的过错,并将在供给终究答案之前测验纠正该过错。

体系提示如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside
tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
(你是一个世界级人工智能体系,能够进行杂乱的推理和反思。在标签内对查询进行推理,然后在
标签内供给你的终究回应。假如你发现自己在任何时分推理犯错,请在标签内纠正自己。)

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

此外值得一提的是,基准测验中,一切基准都已经过LMSys的LLM Decontaminator查看污染,隔离了部分,并独自对这一部分进行测验。

运用Reflection 70B的时分,官方还共享了小tips:

开始主张参数temperature为.7 , top_p为.95为进步准确性,最好附加“Think carefully.”在Prompt结尾

官方还表明,下周会发布一份陈述,具体介绍模型练习进程和发现。

Agent创业团队打造

Reflection 70B的背面是一支小团队,由HyperWriteAI的CEO Mutt Shumer带领。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

领英显现,Mutt Shumer是一位接连创业者,结业于美国锡拉丘兹大学,现任OthersideAI的联合创始人兼CEO。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

OthersideAI是一家AI使用公司,致力于经过大规模AI体系开发全球最先进的主动补全东西,也是HyperWrite的暗地公司。

HyperWrite是一个浏览器操作agent,能够像人相同操作谷歌浏览器来完结一系列使命,比方订披萨:

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

和gpt-llm-trainer相同,你只需要用文字描述方针,它就会一边列进程,一边履行。

刚推出时声称“比AutoGPT强”。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

HyperWrite还能够在谷歌扩展程序中装置。

别的,Mutt Shumer高中时期就创立了Visos,致力于开发用于医疗用处的下一代虚拟现实软件。

还创立了FURI,这是一家旨在经过发明高性能产品并以公正的价格出售它们来推翻体育用品职业的公司。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

虽然有Meta支撑,但现在翻开试玩,仍是:暂时无法拜访。

开源大模型新王干翻GPT4o,新技术可自我纠错,数学99刷爆测验集

感兴趣的童鞋能够先码住了~

https://reflection-playground-production.up.railway.app/

参阅链接:
[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

发表评论

快捷回复: 表情:
评论列表 (暂无评论,380人围观)

还没有评论,来说两句吧...

目录[+]