来吧综合吧开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

奇米影视第四色首页

来吧综合吧开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

发布日期：2024-09-25 06:54 点击次数：200

开源大模子王座蓦的易主，尽然来自一家小创业团队来吧综合吧，瞬息引爆业界。

新模子名为 Reflection 70B，使用一种全新历练技巧，让 AI 学会在推理流程中修订我方的失实和幻觉。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

比如最近流行的数 r 测试中，一运转它犯了和大无数模子同样的失实，但主动在 <反念念> 标签中修订了我方。

Ady影院

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

在官方评测中，70B 模子全面突出最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，相配是数学基准 GSM8K 上径直刷爆，得分 99.2%。

这个戒指也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 情怀开麦：

GSM8K 得分 99%！是不是不错适当淘汰这个基准了？

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

模子刚刚上线网友就把试玩挤爆了，对此 Meta 还主动赈济了更多算力。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

在网友测试中，Reflection 70B 能回答对 GSM8K 数据集会自己谜底失实的问题：

我向模子提供了 GSM8K 中存在的 5 个“ground_truth”自己就不正确的问题。

模子莫得重叠数据集会的失实谜底，而是沿路回答对了，这很令东谈主印象真切，标明那 99.2% 的准确率并非来自于缅想测试集！

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

数多样 r 王人不在话下，连生造词“drirrrngrrrrrnnn”中有几个 r 也能被正确数对。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

网友纷繁对小团队作念出的开源突出顶流闭源感到惊诧，当今最强开源模子不错在土产货运行了。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

关键 70B 还仅仅个运转，官方示意下周还会发布更大的 Reflection 405B。

瞻望 405B 性能将大幅优于 Sonnet 和 GPT-4o。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

Reflection 70B 权重已公开，API 探听将至今天晚些时候由 Hyperbolic Labs 提供。

模子能自我反念念修订失实

目下对于 Reflection 70B 的更多细节如下来吧综合吧。

Reflection 70B 智商普及的关键，是采选了一种名为 Reflection-Tuning 的历练方法，它大略让模子反念念我方生成的文本，在最终细则恢复前检测并修订自身推理中的失实。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

历练中的数据来自使用 GlaiveAI 平台生成的合成数据。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

Reflection 70B 基于 Llama 3.1 70B Instruct，不错使用与其它 Llama 模子相易的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。

它致使使用了程序的 Llama 3.1 聊天步地。

不外，Reflection 70B 引入了一些特等 tokens，结构化输出流程。

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

如底下这个例子所展示的，计议流程分为一个疏淡的设施，这么作念不错提高 CoT 成果，并保抓输出精熟：

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集

模子将从在 <thinking> 和 </thinking> 标签内输出推理运转，一朝对其推理感到惬意，就会在 <output> 和 </output > 标签内输出最终谜底。

是以它大略将其里面念念考和推理与最终谜底鉴别。

在 <thinking> 部分，模子可能会输出一个或多个，这标明模子发现了其推理中的失实，并将在提供最终谜底之前尝试修订该失实。

系统教导如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.

（你是一个寰宇级东谈主工智能系统，大略进行复杂的推理和反念念。在标签内对查询进行推理，然后在标签内提供你的最终恢复。要是你发现我方在职何时候推理出错，请在标签内修订我方。）

开源大模子新王 Reflection 70B 突出 GPT-4o：新技巧可修订我方幻觉，数学 99.2 分刷爆测试集