性交照片
奇米影视第四色 首页

来吧综合吧 开源大模子新王 Reflection 70B 突出 GPT-4o:新技巧可修订我方幻觉,数学 99.2 分刷爆测试集

发布日期:2024-09-25 06:54    点击次数:197

  

来吧综合吧 开源大模子新王 Reflection 70B 突出 GPT-4o:新技巧可修订我方幻觉,数学 99.2 分刷爆测试集

开源大模子王座蓦的易主,尽然来自一家小创业团队来吧综合吧,瞬息引爆业界。

新模子名为 Reflection 70B,使用一种全新历练技巧,让 AI 学会在推理流程中修订我方的失实和幻觉。

比如最近流行的数 r 测试中,一运转它犯了和大无数模子同样的失实,但主动在 <反念念> 标签中修订了我方。

Ady影院

在官方评测中,70B 模子全面突出最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,相配是数学基准 GSM8K 上径直刷爆,得分 99.2%。

这个戒指也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 情怀开麦:

GSM8K 得分 99%!是不是不错适当淘汰这个基准了?

模子刚刚上线网友就把试玩挤爆了,对此 Meta 还主动赈济了更多算力。

在网友测试中,Reflection 70B 能回答对 GSM8K 数据集会自己谜底失实的问题:

我向模子提供了 GSM8K 中存在的 5 个“ground_truth”自己就不正确的问题。

模子莫得重叠数据集会的失实谜底,而是沿路回答对了,这很令东谈主印象真切,标明那 99.2% 的准确率并非来自于缅想测试集!

数多样 r 王人不在话下,连生造词“drirrrngrrrrrnnn”中有几个 r 也能被正确数对。

网友纷繁对小团队作念出的开源突出顶流闭源感到惊诧,当今最强开源模子不错在土产货运行了。

关键 70B 还仅仅个运转,官方示意下周还会发布更大的 Reflection 405B。

瞻望 405B 性能将大幅优于 Sonnet 和 GPT-4o。

Reflection 70B 权重已公开,API 探听将至今天晚些时候由 Hyperbolic Labs 提供。

模子能自我反念念修订失实

目下对于 Reflection 70B 的更多细节如下来吧综合吧。

Reflection 70B 智商普及的关键,是采选了一种名为 Reflection-Tuning 的历练方法,它大略让模子反念念我方生成的文本,在最终细则恢复前检测并修订自身推理中的失实。

历练中的数据来自使用 GlaiveAI 平台生成的合成数据。

Reflection 70B 基于 Llama 3.1 70B Instruct,不错使用与其它 Llama 模子相易的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。

它致使使用了程序的 Llama 3.1 聊天步地。

不外,Reflection 70B 引入了一些特等 tokens,结构化输出流程。

如底下这个例子所展示的,计议流程分为一个疏淡的设施,这么作念不错提高 CoT 成果,并保抓输出精熟:

模子将从在 <thinking> 和 </thinking> 标签内输出推理运转,一朝对其推理感到惬意,就会在 <output> 和 </output > 标签内输出最终谜底。

是以它大略将其里面念念考和推理与最终谜底鉴别。

在 <thinking> 部分,模子可能会输出一个或多个,这标明模子发现了其推理中的失实,并将在提供最终谜底之前尝试修订该失实。

系统教导如下:

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.

(你是一个寰宇级东谈主工智能系统,大略进行复杂的推理和反念念。在标签内对查询进行推理,然后在标签内提供你的最终恢复。要是你发现我方在职何时候推理出错,请在标签内修订我方。)

此外值得一提的是,基准测试中,通盘基准王人已通过 LMSys 的 LLM Decontaminator 查验混浊,圮绝了 <output> 部分,并单独对这一部分进行测试。

使用 Reflection 70B 的时候,官方还共享了小 tips:

初步忽视参数 temperature 为.7 ,top_p 为.95

为提高准确性,最佳附加“Think carefully.”在 Prompt 末尾

官方还示意,下周会发布一份证实注解,详备先容模子历练流程和发现。

Agent 创业团队打造

Reflection 70B 的背后是一支小团队,由 HyperWriteAI 的 CEO Mutt Shumer 率领。

领英暴露,Mutt Shumer 是一位连气儿创业者,毕业于好意思国锡拉丘兹大学,现任 OthersideAI 的调处首创东谈主兼 CEO。

OthersideAI 是一家 AI 愚弄公司,郁闷于通过大范围 AI 系统开拓寰球早先进的自动补全用具,亦然 HyperWrite 的幕后公司。

HyperWrite 是一个浏览器操作 agent,不错像东谈主同样操作谷歌浏览器来完成一系列任务,比如订披萨:

和 gpt-llm-trainer 同样,你只需要用翰墨形色主义,它就会一边列设施,一边实行。

刚推出时堪称“比 AutoGPT 强”。

HyperWrite 还不错在谷歌推广设施中装配。

另外,Mutt Shumer 高中时代就创立了 Visos,郁闷于开拓用于医疗用途的下一代编造执行软件。

还创立了 FURI,这是一家旨在通过创造高性能家具并以公谈的价钱销售它们来颠覆体育用品行业的公司。

天然有 Meta 扶助,但目下掀开试玩,如故:暂时无法探听。

感好奇的童鞋不错先码住了~

https://reflection-playground-production.up.railway.app/ 

参考调处:

[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B

[2]https://x.com/mattshumer_/status/1831767014341538166

[3]https://x.com/polynoamial/status/1831798985528635806

[4]https://x.com/degeneratoor/status/1831809610451448196

[5]https://x.com/kimmonismus/status/1831772661296345333

本文来自微信公众号:量子位(ID:QbitAI),作家:西风,原标题:《开源大模子新王干翻 GPT-4o,新技巧可修订我方幻觉,数学 99.2 分刷爆测试集》

告白声明:文内含有的对外跳转调处(包括不限于超调处、二维码、口令等体式)来吧综合吧,用于传递更多信息,勤俭甄选时辰,戒指仅供参考,IT之家通盘著述均包含本声明。



Powered by 性交照片 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有