银河通用前几天发了一个叫AstraBrain-WBC 0.5的模型,给人形机器人的身体配上了一个能零样本学会新动作的Transformer控制器。
论文被CVPR 2026接收,代码和数据都开源了。这个模型的论文标题叫Humanoid-GPT。
跟文字领域的GPT一样,它也试图证明一件事:把数据堆到足够大、把模型换成Transformer,Scaling Law在物理世界同样管用。
演示视频里一台宇树G1机器人跟着视频里的人类动作跳舞,动作连贯流畅,没有预编程,没有针对具体动作做微调。论文数据也扎实,零样本运动追踪成功率92.58%,推理延迟压到了0.39毫秒。

01
什么是机器人"小脑",
跟"大脑"有什么区别
银河星脑把机器人的智能拆成了三层。
大脑管感知和任务规划,知道面前是个箱子,箱子要搬到B区。神经控制管末端的精细操作,手指怎么捏住一颗螺丝。夹在中间的小脑,管全身运动协调。重心在哪,哪条腿先迈,手臂和躯干怎么配合,速度多快。
这个分工不是银河通用发明的,人脑本身就长成这样。
大脑皮层做规划,脑桥把指令传给下面,小脑做协调和执行。机器人行业一直以来最头疼的问题就是小脑。
大脑的感知能力靠视觉大模型每年都在跳级,末端的灵巧手也越来越精细了,就夹在中间的这一层,要让一台双足人形机器人在任何姿势下都能稳定地站着、走起来、做出指定动作,一直没有一个通用解。
以前的思路是针对每个动作单独训练一个控制器。教会机器人走路,需要专门采集一批走路的动捕数据,标好关节角度,用强化学习训一个策略。教会它跑步,再训第二个。
有多少种动作就训多少个控制器,每个控制器换场景就失效。机器人学会了一套熟练的行走策略,换到斜坡上可能就不灵了。
AstraBrain-WBC 0.5想试的是另一条路。能不能像一个GPT模型处理各种文字任务一样,一个模型处理所有动作。
银河通用的团队把人类手动捕捉领域几乎所有公开数据集全扒出来了,AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion,再加上自己录的超过一千小时动作数据。合并、筛选、增强以后,得到了20亿帧经过宇树G1关节空间重定向的动作数据。
同类研究此前最大的训练集大约是1亿帧级别。英伟达当时做的SONIC大概堆到了1亿帧。银河通用这个,是它的200倍。
02
Transformer接住
MLP撑不住的盘子
此前人形机器人运动追踪的主流架构是MLP。MLP做运动控制有一个先天的短板:它每次只能"看"一个时刻的状态切片。
步伐和重心之间的关系跨了十几帧甚至几十帧,MLP没办法天然地建模这种长距离依赖,只能靠"把历史数据拼接到输入向量里"这种临时方案来凑。
MLP在多模态、高动态的动作数据上训练,到了一定规模以后边际收益越来越小。Transformer的自注意力机制不同。
模型在序列中每个位置都能同时"回望"此前任意长度的历史帧,捕捉到"当前动作和32帧前的某个姿态"之间的关联。
对于人形机器人,这种跨帧的连贯性直接决定了走路像不像人、跳舞会不会突然僵住。
银河通用的团队做了很干净的消融实验。
同样是20亿帧训练数据,MLP在大约50K步以后损失曲线进入平台期,Transformer在200K步以后还在往下走。Transformer最终稳定在约0.06的水平,MLP停在约0.08。这0.02的差距在真机上的表现,就是走路的步态有没有人味。
训练时,MLP每次只能处理一个时间步,想覆盖一条长序列得循环N次。Transformer一次前向就能处理整条序列所有位置,训练吞吐量在20亿帧这个数据规模下直接拉开了数量级差距。
如果仍然用MLP,同样20亿帧数据需要多出几倍的计算资源和时间才能跑完一轮。
工程部署上,团队做了TensorRT编译和C++流水线优化,推理延迟0.39毫秒,控制回路50Hz。对比TWIST系统的2.79毫秒,速度快了约5倍。更大的模型反而跑得更快,靠的是因果注意力和MLP融合算子的专项内核优化。

03
300多个专家交给一个模型
直接用一个Transformer从20亿帧的原始数据端到端训练是不现实的。团队先用强化学习PPO在约300个动作族群上分别训练了384个"运动专家"。
每个专家只负责自己那个风格的动作,走路专家不管跳舞,跳舞专家不管冲刺。每个专家能把自己的风格做到很高的保真度。
然后用DAgger蒸馏框架,让一个统一的Transformer通才模型同时向384个专家学习。
384个专家的知识被蒸馏到了一个8040万参数的模型里。蒸馏完成以后,部署时只需要这一个大模型。
论文的消融实验显示,簇类数量不能太少也不能太多。
128个簇,每个专家管得太杂,单个专家的训练质量上不去,蒸馏出来的通才也弱。1024个簇,相邻专家之间的监督信号开始互相干扰,学生模型不知道到底该听谁的。大概384个是当前数据规模下多样性、质量和成本的最优折中点。
整个训练过程耗费大约15000个GPU小时。75%用在专家训练上,跑的是RTX 4090;25%用在Transformer蒸馏上,跑的是H100。这个成本放在学术论文里算合理,放在商业化部署里也不算贵。
04
到底有没有用?
AstraBrain-WBC 0.5回答了三个问题。
◎ 第一,动作数据可以堆到20亿帧。
◎ 第二,Transformer架构可以接住这个规模的数据并持续从中学到东西。
◎ 第三,蒸馏以后的模型在真机上能实时运行。
● 第一个,它是一个纯运动追踪模型。
论文原文写得很清楚,下一步方向是和视觉-语言-动作模型对接,加入视觉、触觉和语言多模态信息。
现在的AstraBrain-WBC 0.5只理解关节角度。地上有个箱子,桌子有个杯子,它不知道。别人把运动序列喂给它,它照着做。没有人告诉它去哪、拿什么、怎么拿。它是小脑,不是大脑。
● 第二个,演示环境是平整地面的空旷空间。
这种环境下的高动态动作和工厂里堆满托盘、走道狭窄的实际场景之间有巨大的验证鸿沟。论文没有提供在非结构化环境下的测试数据。
● 第三个,也是业界最关心的问题。
银河通用目前主打的商业化方向是即时零售的机器人仓储,用的是轮式底盘加双臂操作。轮式底盘不需要翻跟斗也不需要跳舞。小脑GPT的能力对于轮式机器人的实际商业价值有多大,目前没有直接的量化数据。
小结
机器人运动控制的Scaling Law验证到了20亿帧的规模。
这个验证结果对行业的指导意义是方法论层面的:过去觉得"机器人的动作数据不容易堆大,Scaling Law不一定管用",现在有人证明管用了。Transformer加足够大的数据,就能做出通用小脑。
机器人小脑从一个"每个技能都需要单独手搓"的手艺活,推向了一个"堆数据和算力就能出效果"的工程问题。手搓和堆料之间的区别,就是能不能规模化的区别。
原文标题 : 人形机器人有了通用运动"小脑",这有什么用?
银河通用前几天发了一个叫AstraBrain-WBC 0.5的模型,给人形机器人的身体配上了一个能零样本学会新动作的Transformer控制器。
论文被CVPR 2026接收,代码和数据都开源了。这个模型的论文标题叫Humanoid-GPT。
跟文字领域的GPT一样,它也试图证明一件事:把数据堆到足够大、把模型换成Transformer,Scaling Law在物理世界同样管用。
演示视频里一台宇树G1机器人跟着视频里的人类动作跳舞,动作连贯流畅,没有预编程,没有针对具体动作做微调。论文数据也扎实,零样本运动追踪成功率92.58%,推理延迟压到了0.39毫秒。

01
什么是机器人"小脑",
跟"大脑"有什么区别
银河星脑把机器人的智能拆成了三层。
大脑管感知和任务规划,知道面前是个箱子,箱子要搬到B区。神经控制管末端的精细操作,手指怎么捏住一颗螺丝。夹在中间的小脑,管全身运动协调。重心在哪,哪条腿先迈,手臂和躯干怎么配合,速度多快。
这个分工不是银河通用发明的,人脑本身就长成这样。
大脑皮层做规划,脑桥把指令传给下面,小脑做协调和执行。机器人行业一直以来最头疼的问题就是小脑。
大脑的感知能力靠视觉大模型每年都在跳级,末端的灵巧手也越来越精细了,就夹在中间的这一层,要让一台双足人形机器人在任何姿势下都能稳定地站着、走起来、做出指定动作,一直没有一个通用解。
以前的思路是针对每个动作单独训练一个控制器。教会机器人走路,需要专门采集一批走路的动捕数据,标好关节角度,用强化学习训一个策略。教会它跑步,再训第二个。
有多少种动作就训多少个控制器,每个控制器换场景就失效。机器人学会了一套熟练的行走策略,换到斜坡上可能就不灵了。
AstraBrain-WBC 0.5想试的是另一条路。能不能像一个GPT模型处理各种文字任务一样,一个模型处理所有动作。
银河通用的团队把人类手动捕捉领域几乎所有公开数据集全扒出来了,AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion,再加上自己录的超过一千小时动作数据。合并、筛选、增强以后,得到了20亿帧经过宇树G1关节空间重定向的动作数据。
同类研究此前最大的训练集大约是1亿帧级别。英伟达当时做的SONIC大概堆到了1亿帧。银河通用这个,是它的200倍。
02
Transformer接住
MLP撑不住的盘子
此前人形机器人运动追踪的主流架构是MLP。MLP做运动控制有一个先天的短板:它每次只能"看"一个时刻的状态切片。
步伐和重心之间的关系跨了十几帧甚至几十帧,MLP没办法天然地建模这种长距离依赖,只能靠"把历史数据拼接到输入向量里"这种临时方案来凑。
MLP在多模态、高动态的动作数据上训练,到了一定规模以后边际收益越来越小。Transformer的自注意力机制不同。
模型在序列中每个位置都能同时"回望"此前任意长度的历史帧,捕捉到"当前动作和32帧前的某个姿态"之间的关联。
对于人形机器人,这种跨帧的连贯性直接决定了走路像不像人、跳舞会不会突然僵住。
银河通用的团队做了很干净的消融实验。
同样是20亿帧训练数据,MLP在大约50K步以后损失曲线进入平台期,Transformer在200K步以后还在往下走。Transformer最终稳定在约0.06的水平,MLP停在约0.08。这0.02的差距在真机上的表现,就是走路的步态有没有人味。
训练时,MLP每次只能处理一个时间步,想覆盖一条长序列得循环N次。Transformer一次前向就能处理整条序列所有位置,训练吞吐量在20亿帧这个数据规模下直接拉开了数量级差距。
如果仍然用MLP,同样20亿帧数据需要多出几倍的计算资源和时间才能跑完一轮。
工程部署上,团队做了TensorRT编译和C++流水线优化,推理延迟0.39毫秒,控制回路50Hz。对比TWIST系统的2.79毫秒,速度快了约5倍。更大的模型反而跑得更快,靠的是因果注意力和MLP融合算子的专项内核优化。

03
300多个专家交给一个模型
直接用一个Transformer从20亿帧的原始数据端到端训练是不现实的。团队先用强化学习PPO在约300个动作族群上分别训练了384个"运动专家"。
每个专家只负责自己那个风格的动作,走路专家不管跳舞,跳舞专家不管冲刺。每个专家能把自己的风格做到很高的保真度。
然后用DAgger蒸馏框架,让一个统一的Transformer通才模型同时向384个专家学习。
384个专家的知识被蒸馏到了一个8040万参数的模型里。蒸馏完成以后,部署时只需要这一个大模型。
论文的消融实验显示,簇类数量不能太少也不能太多。
128个簇,每个专家管得太杂,单个专家的训练质量上不去,蒸馏出来的通才也弱。1024个簇,相邻专家之间的监督信号开始互相干扰,学生模型不知道到底该听谁的。大概384个是当前数据规模下多样性、质量和成本的最优折中点。
整个训练过程耗费大约15000个GPU小时。75%用在专家训练上,跑的是RTX 4090;25%用在Transformer蒸馏上,跑的是H100。这个成本放在学术论文里算合理,放在商业化部署里也不算贵。
04
到底有没有用?
AstraBrain-WBC 0.5回答了三个问题。
◎ 第一,动作数据可以堆到20亿帧。
◎ 第二,Transformer架构可以接住这个规模的数据并持续从中学到东西。
◎ 第三,蒸馏以后的模型在真机上能实时运行。
● 第一个,它是一个纯运动追踪模型。
论文原文写得很清楚,下一步方向是和视觉-语言-动作模型对接,加入视觉、触觉和语言多模态信息。
现在的AstraBrain-WBC 0.5只理解关节角度。地上有个箱子,桌子有个杯子,它不知道。别人把运动序列喂给它,它照着做。没有人告诉它去哪、拿什么、怎么拿。它是小脑,不是大脑。
● 第二个,演示环境是平整地面的空旷空间。
这种环境下的高动态动作和工厂里堆满托盘、走道狭窄的实际场景之间有巨大的验证鸿沟。论文没有提供在非结构化环境下的测试数据。
● 第三个,也是业界最关心的问题。
银河通用目前主打的商业化方向是即时零售的机器人仓储,用的是轮式底盘加双臂操作。轮式底盘不需要翻跟斗也不需要跳舞。小脑GPT的能力对于轮式机器人的实际商业价值有多大,目前没有直接的量化数据。
小结
机器人运动控制的Scaling Law验证到了20亿帧的规模。
这个验证结果对行业的指导意义是方法论层面的:过去觉得"机器人的动作数据不容易堆大,Scaling Law不一定管用",现在有人证明管用了。Transformer加足够大的数据,就能做出通用小脑。
机器人小脑从一个"每个技能都需要单独手搓"的手艺活,推向了一个"堆数据和算力就能出效果"的工程问题。手搓和堆料之间的区别,就是能不能规模化的区别。
原文标题 : 人形机器人有了通用运动"小脑",这有什么用?