财经头条
提升一亿中产阶级阅读效率
打开
训练算力真的下降了吗?
信息平权
3天前
首先
训练同一代模型所需算力每隔N个月就是指数级降低
,这里面有算法进步、算力本身通缩、数据蒸馏等等因素,这也是为什么说
“模型后发更省力”
。
援引下星球内一则评论:“
就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分”。 DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。
因此
幻方在GPT4o发布7个月后,用1/10算力实现几乎同等水平,是合理的,
甚至可以作为未来对同代模型训练成本下降速度的预测
。
但这里面依然有几个概念上的误解。
首先是“训练”范围上的混淆。幻方的
论文明确说明了:“
上述成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本
。” 也就是星球内一位算法工程师说的“有点断章取义,幻方在训这个模型之前,
用了他们自己的r1模型(对标openai o1)来生成数据
,这个部分的反复尝试要不要算在成本里呢?
单就在训练上做降本增效这件事,这不代表需求会下降,只代表
大厂可以用性价比更高的方式去做模型极限能力的探索
。应用端只要有增长的逻辑,推理的需求依然是值得期待的。
”
随着Ilya说的“公开互联网数据穷尽”,未来合成数据是突破数据天花板的重要来源,且天花板理论上足够高。相当于过去的预训练范式从卷参数、卷数据总量,到了卷数据质量,卷新的Scaling因子(RL、测试时间计算等),而
算力只不过换了个地方,继续被其他训练环节榨干。
从目前各大实验室的实际情况看也是,
OpenAI、Anthropic至今仍处于缺卡状态,相信幻方也是。
看训练算力是否下降,不应该只看某代模型某次训练这种切面,而应该从
“总量”
以及“
自上而下”
去看,
这些实验室的训练算力总需求是下降了吗?反而一直在上升。
预训练的经济效益下降,那就把卡挪给RL post train,发现模型实现同等提升所需卡减少了,那就减少投入了吗?不会,
真实逻辑应该是:榨干同等算力去攫取10倍收益
。就比如o1的训练成本远超GPT-4,而o3的训练成本大概率远超o1。
从前沿探索角度看,训练所需算力只会越来越多。应用生态越繁荣,只会让训练投入的支付能力更强;而算力通缩,只会让同等投入买到更多训练Flops。
就好比幻方这次发布的模型,依然是LLM路线下,将MoE压榨到了极致。
但相信幻方自己的推理模型r1(对标o1)也在探索r2/r3,这显然需要更多算力
。
而r2/r3训完,又被用来消耗大量算力为deepseek v4合成数据
。发现没,pre-train scaling、RL scaling、test-time compute scaling三条线甚至还有
正反馈
。因此,
只会在可获得最大资源的前提下,用最高效的算法/工程手段,压榨出最大的模型能力提升
。
而不会因为效率提升而减少投入,个人认为这是个伪逻辑。
对于推理,不必多说了,一定是上升。引用下星球内洪博的评论:
DeepSeek-V3的出现(可能还包括轻量版V3-Lite),
将支持私有部署和自主微调,为下游应用提供远大于闭源模型时代的发展空间。
未来一两年,
大概率将见证更丰富的推理芯片产品、更繁荣的LLM应用生态。
首先
训练同一代模型所需算力每隔N个月就是指数级降低
,这里面有算法进步、算力本身通缩、数据蒸馏等等因素,这也是为什么说
“模型后发更省力”
。
援引下星球内一则评论:“
就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分”。 DeepSeek v3因为是后发,完全可以避开前人走的坑,用更高效方式避坑,也就是“站在巨人的肩膀上”。
因此
幻方在GPT4o发布7个月后,用1/10算力实现几乎同等水平,是合理的,
甚至可以作为未来对同代模型训练成本下降速度的预测
。
但这里面依然有几个概念上的误解。
首先是“训练”范围上的混淆。幻方的
论文明确说明了:“
上述成本仅包括DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本
。” 也就是星球内一位算法工程师说的“有点断章取义,幻方在训这个模型之前,
用了他们自己的r1模型(对标openai o1)来生成数据
,这个部分的反复尝试要不要算在成本里呢?
单就在训练上做降本增效这件事,这不代表需求会下降,只代表
大厂可以用性价比更高的方式去做模型极限能力的探索
。应用端只要有增长的逻辑,推理的需求依然是值得期待的。
”
随着Ilya说的“公开互联网数据穷尽”,未来合成数据是突破数据天花板的重要来源,且天花板理论上足够高。相当于过去的预训练范式从卷参数、卷数据总量,到了卷数据质量,卷新的Scaling因子(RL、测试时间计算等),而
算力只不过换了个地方,继续被其他训练环节榨干。
从目前各大实验室的实际情况看也是,
OpenAI、Anthropic至今仍处于缺卡状态,相信幻方也是。
看训练算力是否下降,不应该只看某代模型某次训练这种切面,而应该从
“总量”
以及“
自上而下”
去看,
这些实验室的训练算力总需求是下降了吗?反而一直在上升。
预训练的经济效益下降,那就把卡挪给RL post train,发现模型实现同等提升所需卡减少了,那就减少投入了吗?不会,
真实逻辑应该是:榨干同等算力去攫取10倍收益
。就比如o1的训练成本远超GPT-4,而o3的训练成本大概率远超o1。
从前沿探索角度看,训练所需算力只会越来越多。应用生态越繁荣,只会让训练投入的支付能力更强;而算力通缩,只会让同等投入买到更多训练Flops。
就好比幻方这次发布的模型,依然是LLM路线下,将MoE压榨到了极致。
但相信幻方自己的推理模型r1(对标o1)也在探索r2/r3,这显然需要更多算力
。
而r2/r3训完,又被用来消耗大量算力为deepseek v4合成数据
。发现没,pre-train scaling、RL scaling、test-time compute scaling三条线甚至还有
正反馈
。因此,
只会在可获得最大资源的前提下,用最高效的算法/工程手段,压榨出最大的模型能力提升
。
而不会因为效率提升而减少投入,个人认为这是个伪逻辑。
对于推理,不必多说了,一定是上升。引用下星球内洪博的评论:
DeepSeek-V3的出现(可能还包括轻量版V3-Lite),
将支持私有部署和自主微调,为下游应用提供远大于闭源模型时代的发展空间。
未来一两年,
大概率将见证更丰富的推理芯片产品、更繁荣的LLM应用生态。
展开
打开“财经头条”阅读更多精彩资讯
相关新闻
训练算力真的下降了吗?
信息平权
3天前
德国人啤酒消费下降了吗
新华社
3周前
Ilya宣判:预训练即将终结,NeurIPS现场沸腾
虎嗅APP
2周前
小米集团,彻底爆了!
财经锐眼
19小时前
刚刚!特朗普,紧急发声!
券商中国
2天前
AI 正在“吸干”全球电力?更可怕的事还在后面
新周刊
2天前
“AI界拼多多”刷屏,95后“天才少女”火了,雷军曾开出千万年薪抢人
证券时报
2天前
为自救,丰田决定在中国建电动车工厂
远方青木
2025-01-01 13:11
总投资150亿!又一固态电池项目开工
智车科技
1天前
APP内打开