财经头条
提升一亿中产阶级阅读效率
打开
智元曝光「机器人大模型」,但真正的核心,并不是机器人!
极客公园
2周前
在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。...业内人士认为,其实GO-1的这个模型架构很简单,创新之处并不多,主要是对已有工作、数据和训练方式做了大幅整合。
机器人行业,也在期待自己的「ChatGPT 时刻」。
作者|周永亮
编辑|靖宇
3 月 7 日晚,智元机器人联合创始人「稚晖君」(彭志辉)在微博上扔下了一颗「预告炸弹」——「下周有好东西发布」。短短一句话,迅速引爆全网,阅读量飙升至 10 万+。
结果,3 月 10 日上午,智元机器人就揭晓了谜底——Genie Operator-1(GO-1),智元首个通用具身基座大模型亮相。视频中,机器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成问题。官方宣称,
GO-1 不仅具备强大的泛化能力,还能在极少数据甚至零样本的情况下,迅速适应新场景和新任务
。
早在 2024 年底,智元就推出了 AgiBot World,一个包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量数据集。正是基于这一庞大的「数据金矿」,GO-1 才能在短时间内实现高效训练和广泛泛化。可以说,AgiBot World 是 GO-1 背后的「隐形英雄」。
那么,GO-1 这个机器人基座大模型的实际表现究竟如何?它对机器人行业又意味什么?
01
机器人大模型,来了!
按照官方说法,
GO-1 除了拓展机器人的运动能力,更重要的是加强了其
AI
能力,从而大大增加了机器人的实用价值
。
通过学习人类视频,GO-1 具备了强大的物体跟踪能力 | 图片来源:智元机器人官网截图
在智元发布的演示视频中,GO-1 展现了很强的学习能力:通过观看人类操作视频,它就能快速掌握新技能,并高效应用到实际任务中。比如,视频中展示了 GO-1 强大的物体跟踪能力:即使水杯被随意移动,它依然能精准完成倒水动作。
其次,GO-1 展现了非常强的泛化能力。与传统模型需要海量数据训练不同,
GO-1 仅需百条级数据,就能实现快速泛化
。例如,在演示中,GO-1 在完成倒水任务后,无需额外训练,便能无缝切换到烤面包并抹果酱的新任务。这种能力不仅展现了 GO-1 对多样化任务的适应性,更体现了其极简学习的核心优势。
GO-1 可以支持不同形态机器人能力迁移,既可以接待嘉宾,也可以制作咖啡 | 图片来源:智元机器人官网截图
同时,GO-1 的跨本体能力,为多机器人协作提供了强大的技术支持。在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。这种协作体现了 GO-1 的高效性和适应性。
传统具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,导致两大问题:数据利用率低和部署受限。但
GO-1
可以
赋能多种本体,在不同机器人形态之间快速迁移,显著提升了数据的利用效率,降低了部署成本
。
值得一提的是,GO-1 大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。这套系统能够从实际执行过程中捕捉问题数据,尤其是执行失误或异常情况,并通过人工审核和模型优化,持续提升 GO-1 的性能。例如,在演示场景中,机器人在放置咖啡杯时出现失误,系统会立即将相关数据回流,并针对性地优化模型,确保下一次操作更加精准。
同时,GO-1 大模型还为机器人增加了新的语音交互方式,这极大便利了用户在现实场景中自由表达需求。
02
大模型不重要,数据集才重要
GO-1 神乎其神的背后,来自其不同的模型架构。
GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架构,这一架构结合了多模态大模型(VLM)和混合专家系统(MoE),分为三个协同工作的模块:
VLM(多模态大模型):基于 InternVL-2B,处理多视角视觉、力觉信号和语言输入,实现场景感知和指令理解。
Latent Planner(隐式规划器):通过预测 Latent Action Tokens(隐式动作标记),将互联网异构数据中的动作知识迁移到机器人任务中,解决高质量真机数据不足的问题。
Action Expert(动作专家):基于 Diffusion Model 生成高频率、灵活的动作序列,确保精细执行。
业内人士认为,
其实
GO-1
的这个模型架构很简单,创新之处并不多
,
主要是对已有工作、数据和训练方式做了大幅整合
。
相比之前的模型,唯一新增的是一层 Latent Planner(隐式规划器),但它也就几层 Transformer,并不复杂。
相比基座大模型,更重要的是数据集 | 图片来源:智元机器人官网截图
地瓜机器人技术副总裁隋伟表示,智元的工作直指行业痛点——数据问题,对具身智能行业有非常好的促进作用。不过,
相比大模型,这里面最有价值的是数据集
。
据介绍,GO-1 的底层支撑则是一个名为 AgiBot World 的超大规模机器人数据集。据了解,AgiBot World 数据集包含超过 100 万条轨迹,由 100 个真实机器人收集,涵盖 100 多个真实世界场景和 217 个具体任务。
该数据集基于 AgiBot G1 硬件平台构建,由 100 多台同构机器人共同收集,提供高质量的开源机器人操作数据,支持解决多种现实生活场景中的挑战性任务。最新版本的 AgiBot World 数据集,包含 100 万条轨迹,总时长达 2976.4 小时,覆盖 87 项技能和 106 个场景。
同时,AgiBot World 超越了实验室环境中的基本桌面任务(如抓取和放置),专注于涉及双臂操作、灵巧手和协作任务的现实场景。
与行业内现有的数据集(Open X-Embodiment)相比,智元的数据在数量上更为庞大,且数据质量、规范性和一致性更好。
Open X-Embodiment 数据集包含很多不同形态的本体,数据的形态差异性较大,会给模型的训练带来极大地干扰。
GO-1 成功率大幅领先,平均成功率提高了 32%,但仍未引发能力的质变 | 图片来源:智元机器人官网截图
不过,虽然智元的数据集已经有一定规模,仍只是一小步的起点,并未带动机器人能力的显著提升。
测试结果显示,GO-1 的表现比之前模型已经提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和补充饮料(Restock Beverage)的成功率最高仍不到 80%。
隋伟表示,
目前阶段,模型并不是机器人行业的核心瓶颈
。真正的挑战在于两个方面:首先是硬件的收敛问题,例如夹爪、灵巧手、触觉传感器等仿生设计尚未形成标准化;其次是因为本体无法大规模推广,导致数据量始终存在不足。
目前,在数据采集方面,机器人业内主要依赖遥操作技术,包括虚拟现实(VR)设备、同构背带式设备以及运动捕捉设备等。然而,
机器人行业的数据采集成本较高
,且缺乏明确的商业价值支撑,这导致数据闭环的飞轮难以快速运转。
相比之下,自动驾驶行业的数据采集成本几乎可以忽略不计,其通过车载感知系统能够源源不断地回传数据,形成了高效的数据闭环。
在 GO-1 发布视频的最后,大家发现了一个彩蛋——智元机器人预告了下一个具身智能机器人产品,尽管具体时间尚未公布。然而,紧接着稚晖君在微博上发文称,「明天还有惊喜」,这一消息瞬间让业界再次充满了期待感。
大模型的兴起,让 AI 行业获得了爆发式进化。大模型对于机器人和具身智能行业,到底能有这样的促进作用,也让人们格外好奇。智元和创始人稚晖君的 GO-1,看起来是个很好的起点,显然具身 AI 很难由一家公司独立完成,只有开源合作,才有可能真正实现机器人行业的快速进化。
*头图来源:智元机器人官网截图
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
直播预告
在装修时,许多人曾对全屋智能系统充满期待,却因安装复杂和效果不显著而放弃。智能家居本该让生活更便捷,却往往成了「负担」。如何避免踩坑,轻松搞定装修呢?
在理想造车 7 年后,原理想汽车联合创始人、前总裁,现栖息地创始人兼CEO 沈亚楠,开始用造车的思维,重新定义智能家居。
本周二晚 8 点,极客公园视频号直播间,对话沈亚楠,来聊聊:用造车的方式「造家」,可行吗?
更多阅读
在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。...业内人士认为,其实GO-1的这个模型架构很简单,创新之处并不多,主要是对已有工作、数据和训练方式做了大幅整合。
机器人行业,也在期待自己的「ChatGPT 时刻」。
作者|周永亮
编辑|靖宇
3 月 7 日晚,智元机器人联合创始人「稚晖君」(彭志辉)在微博上扔下了一颗「预告炸弹」——「下周有好东西发布」。短短一句话,迅速引爆全网,阅读量飙升至 10 万+。
结果,3 月 10 日上午,智元机器人就揭晓了谜底——Genie Operator-1(GO-1),智元首个通用具身基座大模型亮相。视频中,机器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成问题。官方宣称,
GO-1 不仅具备强大的泛化能力,还能在极少数据甚至零样本的情况下,迅速适应新场景和新任务
。
早在 2024 年底,智元就推出了 AgiBot World,一个包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量数据集。正是基于这一庞大的「数据金矿」,GO-1 才能在短时间内实现高效训练和广泛泛化。可以说,AgiBot World 是 GO-1 背后的「隐形英雄」。
那么,GO-1 这个机器人基座大模型的实际表现究竟如何?它对机器人行业又意味什么?
01
机器人大模型,来了!
按照官方说法,
GO-1 除了拓展机器人的运动能力,更重要的是加强了其
AI
能力,从而大大增加了机器人的实用价值
。
通过学习人类视频,GO-1 具备了强大的物体跟踪能力 | 图片来源:智元机器人官网截图
在智元发布的演示视频中,GO-1 展现了很强的学习能力:通过观看人类操作视频,它就能快速掌握新技能,并高效应用到实际任务中。比如,视频中展示了 GO-1 强大的物体跟踪能力:即使水杯被随意移动,它依然能精准完成倒水动作。
其次,GO-1 展现了非常强的泛化能力。与传统模型需要海量数据训练不同,
GO-1 仅需百条级数据,就能实现快速泛化
。例如,在演示中,GO-1 在完成倒水任务后,无需额外训练,便能无缝切换到烤面包并抹果酱的新任务。这种能力不仅展现了 GO-1 对多样化任务的适应性,更体现了其极简学习的核心优势。
GO-1 可以支持不同形态机器人能力迁移,既可以接待嘉宾,也可以制作咖啡 | 图片来源:智元机器人官网截图
同时,GO-1 的跨本体能力,为多机器人协作提供了强大的技术支持。在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。这种协作体现了 GO-1 的高效性和适应性。
传统具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,导致两大问题:数据利用率低和部署受限。但
GO-1
可以
赋能多种本体,在不同机器人形态之间快速迁移,显著提升了数据的利用效率,降低了部署成本
。
值得一提的是,GO-1 大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。这套系统能够从实际执行过程中捕捉问题数据,尤其是执行失误或异常情况,并通过人工审核和模型优化,持续提升 GO-1 的性能。例如,在演示场景中,机器人在放置咖啡杯时出现失误,系统会立即将相关数据回流,并针对性地优化模型,确保下一次操作更加精准。
同时,GO-1 大模型还为机器人增加了新的语音交互方式,这极大便利了用户在现实场景中自由表达需求。
02
大模型不重要,数据集才重要
GO-1 神乎其神的背后,来自其不同的模型架构。
GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架构,这一架构结合了多模态大模型(VLM)和混合专家系统(MoE),分为三个协同工作的模块:
VLM(多模态大模型):基于 InternVL-2B,处理多视角视觉、力觉信号和语言输入,实现场景感知和指令理解。
Latent Planner(隐式规划器):通过预测 Latent Action Tokens(隐式动作标记),将互联网异构数据中的动作知识迁移到机器人任务中,解决高质量真机数据不足的问题。
Action Expert(动作专家):基于 Diffusion Model 生成高频率、灵活的动作序列,确保精细执行。
业内人士认为,
其实
GO-1
的这个模型架构很简单,创新之处并不多
,
主要是对已有工作、数据和训练方式做了大幅整合
。
相比之前的模型,唯一新增的是一层 Latent Planner(隐式规划器),但它也就几层 Transformer,并不复杂。
相比基座大模型,更重要的是数据集 | 图片来源:智元机器人官网截图
地瓜机器人技术副总裁隋伟表示,智元的工作直指行业痛点——数据问题,对具身智能行业有非常好的促进作用。不过,
相比大模型,这里面最有价值的是数据集
。
据介绍,GO-1 的底层支撑则是一个名为 AgiBot World 的超大规模机器人数据集。据了解,AgiBot World 数据集包含超过 100 万条轨迹,由 100 个真实机器人收集,涵盖 100 多个真实世界场景和 217 个具体任务。
该数据集基于 AgiBot G1 硬件平台构建,由 100 多台同构机器人共同收集,提供高质量的开源机器人操作数据,支持解决多种现实生活场景中的挑战性任务。最新版本的 AgiBot World 数据集,包含 100 万条轨迹,总时长达 2976.4 小时,覆盖 87 项技能和 106 个场景。
同时,AgiBot World 超越了实验室环境中的基本桌面任务(如抓取和放置),专注于涉及双臂操作、灵巧手和协作任务的现实场景。
与行业内现有的数据集(Open X-Embodiment)相比,智元的数据在数量上更为庞大,且数据质量、规范性和一致性更好。
Open X-Embodiment 数据集包含很多不同形态的本体,数据的形态差异性较大,会给模型的训练带来极大地干扰。
GO-1 成功率大幅领先,平均成功率提高了 32%,但仍未引发能力的质变 | 图片来源:智元机器人官网截图
不过,虽然智元的数据集已经有一定规模,仍只是一小步的起点,并未带动机器人能力的显著提升。
测试结果显示,GO-1 的表现比之前模型已经提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和补充饮料(Restock Beverage)的成功率最高仍不到 80%。
隋伟表示,
目前阶段,模型并不是机器人行业的核心瓶颈
。真正的挑战在于两个方面:首先是硬件的收敛问题,例如夹爪、灵巧手、触觉传感器等仿生设计尚未形成标准化;其次是因为本体无法大规模推广,导致数据量始终存在不足。
目前,在数据采集方面,机器人业内主要依赖遥操作技术,包括虚拟现实(VR)设备、同构背带式设备以及运动捕捉设备等。然而,
机器人行业的数据采集成本较高
,且缺乏明确的商业价值支撑,这导致数据闭环的飞轮难以快速运转。
相比之下,自动驾驶行业的数据采集成本几乎可以忽略不计,其通过车载感知系统能够源源不断地回传数据,形成了高效的数据闭环。
在 GO-1 发布视频的最后,大家发现了一个彩蛋——智元机器人预告了下一个具身智能机器人产品,尽管具体时间尚未公布。然而,紧接着稚晖君在微博上发文称,「明天还有惊喜」,这一消息瞬间让业界再次充满了期待感。
大模型的兴起,让 AI 行业获得了爆发式进化。大模型对于机器人和具身智能行业,到底能有这样的促进作用,也让人们格外好奇。智元和创始人稚晖君的 GO-1,看起来是个很好的起点,显然具身 AI 很难由一家公司独立完成,只有开源合作,才有可能真正实现机器人行业的快速进化。
*头图来源:智元机器人官网截图
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
直播预告
在装修时,许多人曾对全屋智能系统充满期待,却因安装复杂和效果不显著而放弃。智能家居本该让生活更便捷,却往往成了「负担」。如何避免踩坑,轻松搞定装修呢?
在理想造车 7 年后,原理想汽车联合创始人、前总裁,现栖息地创始人兼CEO 沈亚楠,开始用造车的思维,重新定义智能家居。
本周二晚 8 点,极客公园视频号直播间,对话沈亚楠,来聊聊:用造车的方式「造家」,可行吗?
更多阅读
展开
打开“财经头条”阅读更多精彩资讯
相关新闻
智元曝光「机器人大模型」,但真正的核心,并不是机器人!
极客公园
2周前
美的人形机器人样机曝光 加速入局人形机器人赛道
新华财经
1周前
首次曝光!人形机器人带飞美的集团AH股
东方财富网
1周前
DeepSeek,突传大消息!高盛发声!
券商中国
10小时前
库克,突然现身浙江大学!苹果捐赠3000万元!
e公司
8小时前
逃避关税!巨额罚单,砸向科技巨头!
券商中国
13小时前
DeepSeek昨夜上新!新旧版V3对比实测,代码能力飙升,震惊海外用户
智东西
1天前
时隔100余天,大熊猫“福宝”恢复对外展出
川观新闻
1天前
人形机器人彻底火了!订单多到紧急下架......
新财网 文
1天前
APP内打开