这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

机器之心公众号

3周前

同时他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成。...当被问到为何需要重新训练时,MattShumer表示本不需要这样做,但已经尝试了所有方法。

最近,开源大模型社区再次「热闹」了起来,主角是 AI 写作初创公司 HyperWrite 开发的新模型Reflection70B。

它的底层模型建立在 Meta Llama3.170B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了405B 的 Llama3.1。

图片

凭借如此惊艳的效果,Reflection70B被冠以开源大模型新王。该模型更是由两位开发者(HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary)花了3周完成,效率可谓惊人。

Reflection70B 能不能经受住社区的考验呢?今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试,结果有点出乎意料。

该机构表示,Reflection Llama3.170B 的 MMLU 得分仅与 Llama370B 相同,并且明显低于 Llama3.170B

图片

图源:https://x.com/ArtificialAnlys/status/1832505338991395131

还有科学推理与知识(GPQA)和定量推理(MATH)基准测试的结果,同样不如 Llama3.170B。

图片

图源:https://x.com/ArtificialAnlys/status/1832457791010959539

此外,Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection70B 与Llama3.1、Llama3权重的差异,结果显示,Reflection 模型似乎是使用了经过 LoRA 调整的 Llama3而不是 Llama3.1

图片

图片

贴主还提供了以上模型权重比较结果的代码来源。

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection70B 配置文件名称的更改,可以看到从 Llama370B Instruct 到 Llama3.170B Instruct 的变化。

图片

这样的事实摆在眼前,似乎让人不得不信。各路网友也开始发声附和,有人表示自己从一开始就怀疑它是 Llama3,当用德语问模型一些事情时,它却用英语回答。这种行为对于 Llama3非常常见。

图片

还有人奇怪为什么 Reflection70B 模型一开始就得到了如此多的炒作和关注,毕竟第一个谈论它是「顶级开源模型」的人是开发者本人(Matt)。而且更确切地说,模型是微调的。

图片

更有人开始质疑开发者(Matt),认为他只是这家公司(GlaiveAI)的利益相关者,试图通过炒作来增加价值,实际上却对这项技术一无所知。

图片

在被质疑 Reflection70B 的基础模型可能是 Llama3而非 Llama3.170B 时,Matt Shumer 坐不住了,现身进行了澄清,并表示是Hugging Face 权重出现了问题

图片

就在几个小时前,Matt Shumer 称已经重新上传了权重,但仍然存在问题。同时他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成

图片

当被问到为何需要重新训练时,Matt Shumer 表示本不需要这样做,但已经尝试了所有方法。无论做什么,Hugging Face 上 Reflection70B 模型都会出现问题,导致离预期中的性能差得远。

图片

当然 Matt Shumer 还面临更多质疑,比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama3而不是 Llama3.1以及基准中有关 LORAing 的问题。

图片

Matt Shumer 一一进行了解释。(以下标引用)

至于重新训练后的 Reflection70B 表现如何?我们拭目以待。

(举报)

同时他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成。...当被问到为何需要重新训练时,MattShumer表示本不需要这样做,但已经尝试了所有方法。

最近,开源大模型社区再次「热闹」了起来,主角是 AI 写作初创公司 HyperWrite 开发的新模型Reflection70B。

它的底层模型建立在 Meta Llama3.170B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了405B 的 Llama3.1。

图片

凭借如此惊艳的效果,Reflection70B被冠以开源大模型新王。该模型更是由两位开发者(HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary)花了3周完成,效率可谓惊人。

Reflection70B 能不能经受住社区的考验呢?今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试,结果有点出乎意料。

该机构表示,Reflection Llama3.170B 的 MMLU 得分仅与 Llama370B 相同,并且明显低于 Llama3.170B

图片

图源:https://x.com/ArtificialAnlys/status/1832505338991395131

还有科学推理与知识(GPQA)和定量推理(MATH)基准测试的结果,同样不如 Llama3.170B。

图片

图源:https://x.com/ArtificialAnlys/status/1832457791010959539

此外,Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection70B 与Llama3.1、Llama3权重的差异,结果显示,Reflection 模型似乎是使用了经过 LoRA 调整的 Llama3而不是 Llama3.1

图片

图片

贴主还提供了以上模型权重比较结果的代码来源。

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection70B 配置文件名称的更改,可以看到从 Llama370B Instruct 到 Llama3.170B Instruct 的变化。

图片

这样的事实摆在眼前,似乎让人不得不信。各路网友也开始发声附和,有人表示自己从一开始就怀疑它是 Llama3,当用德语问模型一些事情时,它却用英语回答。这种行为对于 Llama3非常常见。

图片

还有人奇怪为什么 Reflection70B 模型一开始就得到了如此多的炒作和关注,毕竟第一个谈论它是「顶级开源模型」的人是开发者本人(Matt)。而且更确切地说,模型是微调的。

图片

更有人开始质疑开发者(Matt),认为他只是这家公司(GlaiveAI)的利益相关者,试图通过炒作来增加价值,实际上却对这项技术一无所知。

图片

在被质疑 Reflection70B 的基础模型可能是 Llama3而非 Llama3.170B 时,Matt Shumer 坐不住了,现身进行了澄清,并表示是Hugging Face 权重出现了问题

图片

就在几个小时前,Matt Shumer 称已经重新上传了权重,但仍然存在问题。同时他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成

图片

当被问到为何需要重新训练时,Matt Shumer 表示本不需要这样做,但已经尝试了所有方法。无论做什么,Hugging Face 上 Reflection70B 模型都会出现问题,导致离预期中的性能差得远。

图片

当然 Matt Shumer 还面临更多质疑,比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama3而不是 Llama3.1以及基准中有关 LORAing 的问题。

图片

Matt Shumer 一一进行了解释。(以下标引用)

至于重新训练后的 Reflection70B 表现如何?我们拭目以待。

(举报)

展开
打开“财经头条”阅读更多精彩资讯
最新评论

参与讨论

APP内打开