这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

机器之心公众号

3周前

同时他们开始重新训练模型并上传，从而消除任何可能出现的问题，应该很快就会完成。...当被问到为何需要重新训练时，MattShumer表示本不需要这样做，但已经尝试了所有方法。

最近，开源大模型社区再次「热闹」了起来，主角是 AI 写作初创公司 HyperWrite 开发的新模型Reflection70B。

它的底层模型建立在 Meta Llama3.170B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了405B 的 Llama3.1。

凭借如此惊艳的效果，Reflection70B被冠以开源大模型新王。该模型更是由两位开发者（HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary）花了3周完成，效率可谓惊人。

Reflection70B 能不能经受住社区的考验呢?今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试，结果有点出乎意料。

该机构表示，Reflection Llama3.170B 的 MMLU 得分仅与 Llama370B 相同，并且明显低于 Llama3.170B。

图源:https://x.com/ArtificialAnlys/status/1832505338991395131

还有科学推理与知识（GPQA）和定量推理(MATH)基准测试的结果，同样不如 Llama3.170B。

图源:https://x.com/ArtificialAnlys/status/1832457791010959539

此外，Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection70B 与Llama3.1、Llama3权重的差异，结果显示，Reflection 模型似乎是使用了经过 LoRA 调整的 Llama3而不是 Llama3.1。

贴主还提供了以上模型权重比较结果的代码来源。

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection70B 配置文件名称的更改，可以看到从 Llama370B Instruct 到 Llama3.170B Instruct 的变化。

这样的事实摆在眼前，似乎让人不得不信。各路网友也开始发声附和，有人表示自己从一开始就怀疑它是 Llama3，当用德语问模型一些事情时，它却用英语回答。这种行为对于 Llama3非常常见。

还有人奇怪为什么 Reflection70B 模型一开始就得到了如此多的炒作和关注，毕竟第一个谈论它是「顶级开源模型」的人是开发者本人（Matt）。而且更确切地说，模型是微调的。

更有人开始质疑开发者（Matt），认为他只是这家公司(GlaiveAI)的利益相关者，试图通过炒作来增加价值，实际上却对这项技术一无所知。

在被质疑 Reflection70B 的基础模型可能是 Llama3而非 Llama3.170B 时，Matt Shumer 坐不住了，现身进行了澄清，并表示是Hugging Face 权重出现了问题。

就在几个小时前，Matt Shumer 称已经重新上传了权重，但仍然存在问题。同时他们开始重新训练模型并上传，从而消除任何可能出现的问题，应该很快就会完成。

当被问到为何需要重新训练时，Matt Shumer 表示本不需要这样做，但已经尝试了所有方法。无论做什么，Hugging Face 上 Reflection70B 模型都会出现问题，导致离预期中的性能差得远。

当然 Matt Shumer 还面临更多质疑，比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama3而不是 Llama3.1以及基准中有关 LORAing 的问题。

Matt Shumer 一一进行了解释。（以下标引用）

至于重新训练后的 Reflection70B 表现如何?我们拭目以待。

（举报）