在刚刚结束的 NVIDIA CES 2025 发布会上,全场唯一的轮式人形机器人托举起了英伟达新一代显卡产品 RTX5090 引发关注。而该机器人正是来自北京银河通用机器人有限公司的Galbot。
与此同时,在英伟达位于美国拉斯维加斯 Fountainebleu 展台上,Galbot 机器人还首次进行了真机演示。观众在现场24小时无人值守的便利店场景中,通过iPad模拟下单,即可体验机器人在便利店中取货、送货的便捷服务。
Galbot 凭借高效、流畅的工作展示,也让其背后的银河通用具身大模型技术和创新成果走向台前。1月9日,银河通用对外正式发布GraspVLA,号称全球首个端到端具身抓取基础大模型(Foundation Model)。
据银河通用介绍,GraspVLA 的训练包含预训练和后训练两部分,其中预训练完全基于合成大数据。即无需大规模真实数据、仅通过合成数据达到基础模型的预训练过程,和进一步通过小样本微调使基础“通才”快速成长为指定场景“专家”的能力,解决了世界范围内具身通用机器人当前发展的两大瓶颈—— 数据瓶颈和泛化瓶颈。
此外,针对特别需求,GraspVLA 的后训练则仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时,还能形成符合产品需求的专业技能。
仅通过合成大数据的预训练
就可以实现充分泛化
具体而言,银河通用提出了 VLA(视觉-语言-动作模型) 达到基础模型,所需满足的七大泛化情况,并以GraspVLA进行展示。
光照泛化。咖啡厅、便利店、生产车间、KTV 等不同光照条件下,光线的冷暖、强弱变化,包括渐变和骤变,以及在极端黑暗环境下移动目标物体时,模型都应该具备准确找到并正常抓取物体的能力。
文内图片展示包括2倍、3倍或5倍速。“银河通用”公众号
背景泛化。实际环境中,机器人工作场景不尽相同,模型需要面对不同材质、不同纹理的桌面和操作台,甚至动态变化的背景画面。
平面位置泛化。模型还需要面对将物体在桌面上随意平移、旋转的情况。
空间高度泛化。即使面对物体摆放高低错落的工作台,模型也应该可以从容抓取。
动作策略泛化。模型应实时进行推理决策,不仅会移动跟随目标,对于物体竖放、倒放等不同摆放方式,还可根据物体和夹爪的位姿自动调整策略,选择最安全合理的抓取方式,处理复杂情况。
动态干扰泛化。真实工作场景复杂多变,机器人在执行任务时常常会受到干扰。在工作过程中,即使往工作空间中随意添加干扰物体,甚至发生撞击并使目标物体随机移位,模型也需要可以稳定地完成任务。
物体类别泛化。银河通用称,在上述测试中,所有物体、场景、摆放方式均未进行任何训练,GraspVLA 仅通过仿真合成数据学习到的语义和动作能力,就实现了在真实世界中零样本泛化测试。
此外,通过把仿真合成的动作数据和海量互联网语义数据巧妙地联合训练,对于没有学习过动作数据的物体类别,GraspVLA 也能把已掌握的动作能力泛化迁移:
通过少量真实数据的后训练
即可满足特定场景特殊需求
另一方面,经过合成大数据的预训练,GraspVLA 已经天然满足大多数应用需求,但是在产品和特定场景中常常有一些特殊需求,因此模型需要拥有对新需求的快速适应及迁移能力。
银河通用介绍,以商超场景为例,用户希望模型按照顺序取出同类商品。为满足用户需求,针对一箱怡宝矿泉水,仅需采集少量(少于一个人遥操一天)的真实数据,就能让 GraspVLA 理解并满足按序抓取的需求。
GraspVLA在经过怡宝一人/天采集数据的后训练,就可以举一反三,将这种少样本习得的行为自动迁移到其他品牌的饮品(农夫山泉、东方树叶),按摆放顺序分别抓取了瓶身颜色不同,瓶盖大小不一的同类商品。这展现了天量合成大数据预训练达成的基础模型。
工业场景中,往往有大量行业专用的特殊零件。虽然模型仅需预训练就可以抓起任意零件,但难以直接根据语言指令抓起对应物体,比如指定“抓取车窗控制器”,但模型抓起了接线座。
为了提升模型识别罕见零件的能力,仅需采集少量轨迹进行快速后训练。GraspVLA 就可以迅速掌握诸如接线座(Wiring Base)、三角板(Triangular Panel)、黑色软管(Black Hose)等特殊工业名词,能从任意摆放的密集场景中精准找出对应零件。
在家庭场景中,人们对机器人的行为会有特定的偏好,例如抓取杯子时不要碰到杯子内壁。同样通过采集少量带偏好的抓取轨迹,GraspVLA 即可学会按照自然语义抓取。
对此,银河通用表示,这种预训练全合成大数据方案在人力和资金投入上成本更低,时间效率更高,可持续发展性更好,也是 VLA 模型商业化应用中必备的能力。
在刚刚结束的 NVIDIA CES 2025 发布会上,全场唯一的轮式人形机器人托举起了英伟达新一代显卡产品 RTX5090 引发关注。而该机器人正是来自北京银河通用机器人有限公司的Galbot。
与此同时,在英伟达位于美国拉斯维加斯 Fountainebleu 展台上,Galbot 机器人还首次进行了真机演示。观众在现场24小时无人值守的便利店场景中,通过iPad模拟下单,即可体验机器人在便利店中取货、送货的便捷服务。
Galbot 凭借高效、流畅的工作展示,也让其背后的银河通用具身大模型技术和创新成果走向台前。1月9日,银河通用对外正式发布GraspVLA,号称全球首个端到端具身抓取基础大模型(Foundation Model)。
据银河通用介绍,GraspVLA 的训练包含预训练和后训练两部分,其中预训练完全基于合成大数据。即无需大规模真实数据、仅通过合成数据达到基础模型的预训练过程,和进一步通过小样本微调使基础“通才”快速成长为指定场景“专家”的能力,解决了世界范围内具身通用机器人当前发展的两大瓶颈—— 数据瓶颈和泛化瓶颈。
此外,针对特别需求,GraspVLA 的后训练则仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时,还能形成符合产品需求的专业技能。
仅通过合成大数据的预训练
就可以实现充分泛化
具体而言,银河通用提出了 VLA(视觉-语言-动作模型) 达到基础模型,所需满足的七大泛化情况,并以GraspVLA进行展示。
光照泛化。咖啡厅、便利店、生产车间、KTV 等不同光照条件下,光线的冷暖、强弱变化,包括渐变和骤变,以及在极端黑暗环境下移动目标物体时,模型都应该具备准确找到并正常抓取物体的能力。
文内图片展示包括2倍、3倍或5倍速。“银河通用”公众号
背景泛化。实际环境中,机器人工作场景不尽相同,模型需要面对不同材质、不同纹理的桌面和操作台,甚至动态变化的背景画面。
平面位置泛化。模型还需要面对将物体在桌面上随意平移、旋转的情况。
空间高度泛化。即使面对物体摆放高低错落的工作台,模型也应该可以从容抓取。
动作策略泛化。模型应实时进行推理决策,不仅会移动跟随目标,对于物体竖放、倒放等不同摆放方式,还可根据物体和夹爪的位姿自动调整策略,选择最安全合理的抓取方式,处理复杂情况。
动态干扰泛化。真实工作场景复杂多变,机器人在执行任务时常常会受到干扰。在工作过程中,即使往工作空间中随意添加干扰物体,甚至发生撞击并使目标物体随机移位,模型也需要可以稳定地完成任务。
物体类别泛化。银河通用称,在上述测试中,所有物体、场景、摆放方式均未进行任何训练,GraspVLA 仅通过仿真合成数据学习到的语义和动作能力,就实现了在真实世界中零样本泛化测试。
此外,通过把仿真合成的动作数据和海量互联网语义数据巧妙地联合训练,对于没有学习过动作数据的物体类别,GraspVLA 也能把已掌握的动作能力泛化迁移:
通过少量真实数据的后训练
即可满足特定场景特殊需求
另一方面,经过合成大数据的预训练,GraspVLA 已经天然满足大多数应用需求,但是在产品和特定场景中常常有一些特殊需求,因此模型需要拥有对新需求的快速适应及迁移能力。
银河通用介绍,以商超场景为例,用户希望模型按照顺序取出同类商品。为满足用户需求,针对一箱怡宝矿泉水,仅需采集少量(少于一个人遥操一天)的真实数据,就能让 GraspVLA 理解并满足按序抓取的需求。
GraspVLA在经过怡宝一人/天采集数据的后训练,就可以举一反三,将这种少样本习得的行为自动迁移到其他品牌的饮品(农夫山泉、东方树叶),按摆放顺序分别抓取了瓶身颜色不同,瓶盖大小不一的同类商品。这展现了天量合成大数据预训练达成的基础模型。
工业场景中,往往有大量行业专用的特殊零件。虽然模型仅需预训练就可以抓起任意零件,但难以直接根据语言指令抓起对应物体,比如指定“抓取车窗控制器”,但模型抓起了接线座。
为了提升模型识别罕见零件的能力,仅需采集少量轨迹进行快速后训练。GraspVLA 就可以迅速掌握诸如接线座(Wiring Base)、三角板(Triangular Panel)、黑色软管(Black Hose)等特殊工业名词,能从任意摆放的密集场景中精准找出对应零件。
在家庭场景中,人们对机器人的行为会有特定的偏好,例如抓取杯子时不要碰到杯子内壁。同样通过采集少量带偏好的抓取轨迹,GraspVLA 即可学会按照自然语义抓取。
对此,银河通用表示,这种预训练全合成大数据方案在人力和资金投入上成本更低,时间效率更高,可持续发展性更好,也是 VLA 模型商业化应用中必备的能力。