财经头条
提升一亿中产阶级阅读效率
打开
智元曝光「机器人大模型」,但真正的核心,并不是机器人!
极客公园
14小时前
在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。...业内人士认为,其实GO-1的这个模型架构很简单,创新之处并不多,主要是对已有工作、数据和训练方式做了大幅整合。
机器人行业,也在期待自己的「ChatGPT 时刻」。
作者|周永亮
编辑|靖宇
3 月 7 日晚,智元机器人联合创始人「稚晖君」(彭志辉)在微博上扔下了一颗「预告炸弹」——「下周有好东西发布」。短短一句话,迅速引爆全网,阅读量飙升至 10 万+。
结果,3 月 10 日上午,智元机器人就揭晓了谜底——Genie Operator-1(GO-1),智元首个通用具身基座大模型亮相。视频中,机器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成问题。官方宣称,
GO-1 不仅具备强大的泛化能力,还能在极少数据甚至零样本的情况下,迅速适应新场景和新任务
。
早在 2024 年底,智元就推出了 AgiBot World,一个包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量数据集。正是基于这一庞大的「数据金矿」,GO-1 才能在短时间内实现高效训练和广泛泛化。可以说,AgiBot World 是 GO-1 背后的「隐形英雄」。
那么,GO-1 这个机器人基座大模型的实际表现究竟如何?它对机器人行业又意味什么?
01
机器人大模型,来了!
按照官方说法,
GO-1 除了拓展机器人的运动能力,更重要的是加强了其
AI
能力,从而大大增加了机器人的实用价值
。
通过学习人类视频,GO-1 具备了强大的物体跟踪能力 | 图片来源:智元机器人官网截图
在智元发布的演示视频中,GO-1 展现了很强的学习能力:通过观看人类操作视频,它就能快速掌握新技能,并高效应用到实际任务中。比如,视频中展示了 GO-1 强大的物体跟踪能力:即使水杯被随意移动,它依然能精准完成倒水动作。
其次,GO-1 展现了非常强的泛化能力。与传统模型需要海量数据训练不同,
GO-1 仅需百条级数据,就能实现快速泛化
。例如,在演示中,GO-1 在完成倒水任务后,无需额外训练,便能无缝切换到烤面包并抹果酱的新任务。这种能力不仅展现了 GO-1 对多样化任务的适应性,更体现了其极简学习的核心优势。
GO-1 可以支持不同形态机器人能力迁移,既可以接待嘉宾,也可以制作咖啡 | 图片来源:智元机器人官网截图
同时,GO-1 的跨本体能力,为多机器人协作提供了强大的技术支持。在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。这种协作体现了 GO-1 的高效性和适应性。
传统具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,导致两大问题:数据利用率低和部署受限。但
GO-1
可以
赋能多种本体,在不同机器人形态之间快速迁移,显著提升了数据的利用效率,降低了部署成本
。
值得一提的是,GO-1 大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。这套系统能够从实际执行过程中捕捉问题数据,尤其是执行失误或异常情况,并通过人工审核和模型优化,持续提升 GO-1 的性能。例如,在演示场景中,机器人在放置咖啡杯时出现失误,系统会立即将相关数据回流,并针对性地优化模型,确保下一次操作更加精准。
同时,GO-1 大模型还为机器人增加了新的语音交互方式,这极大便利了用户在现实场景中自由表达需求。
02
大模型不重要,数据集才重要
GO-1 神乎其神的背后,来自其不同的模型架构。
GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架构,这一架构结合了多模态大模型(VLM)和混合专家系统(MoE),分为三个协同工作的模块:
VLM(多模态大模型):基于 InternVL-2B,处理多视角视觉、力觉信号和语言输入,实现场景感知和指令理解。
Latent Planner(隐式规划器):通过预测 Latent Action Tokens(隐式动作标记),将互联网异构数据中的动作知识迁移到机器人任务中,解决高质量真机数据不足的问题。
Action Expert(动作专家):基于 Diffusion Model 生成高频率、灵活的动作序列,确保精细执行。
业内人士认为,
其实
GO-1
的这个模型架构很简单,创新之处并不多
,
主要是对已有工作、数据和训练方式做了大幅整合
。
相比之前的模型,唯一新增的是一层 Latent Planner(隐式规划器),但它也就几层 Transformer,并不复杂。
相比基座大模型,更重要的是数据集 | 图片来源:智元机器人官网截图
地瓜机器人技术副总裁隋伟表示,智元的工作直指行业痛点——数据问题,对具身智能行业有非常好的促进作用。不过,
相比大模型,这里面最有价值的是数据集
。
据介绍,GO-1 的底层支撑则是一个名为 AgiBot World 的超大规模机器人数据集。据了解,AgiBot World 数据集包含超过 100 万条轨迹,由 100 个真实机器人收集,涵盖 100 多个真实世界场景和 217 个具体任务。
该数据集基于 AgiBot G1 硬件平台构建,由 100 多台同构机器人共同收集,提供高质量的开源机器人操作数据,支持解决多种现实生活场景中的挑战性任务。最新版本的 AgiBot World 数据集,包含 100 万条轨迹,总时长达 2976.4 小时,覆盖 87 项技能和 106 个场景。
同时,AgiBot World 超越了实验室环境中的基本桌面任务(如抓取和放置),专注于涉及双臂操作、灵巧手和协作任务的现实场景。
与行业内现有的数据集(Open X-Embodiment)相比,智元的数据在数量上更为庞大,且数据质量、规范性和一致性更好。
Open X-Embodiment 数据集包含很多不同形态的本体,数据的形态差异性较大,会给模型的训练带来极大地干扰。
GO-1 成功率大幅领先,平均成功率提高了 32%,但仍未引发能力的质变 | 图片来源:智元机器人官网截图
不过,虽然智元的数据集已经有一定规模,仍只是一小步的起点,并未带动机器人能力的显著提升。
测试结果显示,GO-1 的表现比之前模型已经提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和补充饮料(Restock Beverage)的成功率最高仍不到 80%。
隋伟表示,
目前阶段,模型并不是机器人行业的核心瓶颈
。真正的挑战在于两个方面:首先是硬件的收敛问题,例如夹爪、灵巧手、触觉传感器等仿生设计尚未形成标准化;其次是因为本体无法大规模推广,导致数据量始终存在不足。
目前,在数据采集方面,机器人业内主要依赖遥操作技术,包括虚拟现实(VR)设备、同构背带式设备以及运动捕捉设备等。然而,
机器人行业的数据采集成本较高
,且缺乏明确的商业价值支撑,这导致数据闭环的飞轮难以快速运转。
相比之下,自动驾驶行业的数据采集成本几乎可以忽略不计,其通过车载感知系统能够源源不断地回传数据,形成了高效的数据闭环。
在 GO-1 发布视频的最后,大家发现了一个彩蛋——智元机器人预告了下一个具身智能机器人产品,尽管具体时间尚未公布。然而,紧接着稚晖君在微博上发文称,「明天还有惊喜」,这一消息瞬间让业界再次充满了期待感。
大模型的兴起,让 AI 行业获得了爆发式进化。大模型对于机器人和具身智能行业,到底能有这样的促进作用,也让人们格外好奇。智元和创始人稚晖君的 GO-1,看起来是个很好的起点,显然具身 AI 很难由一家公司独立完成,只有开源合作,才有可能真正实现机器人行业的快速进化。
*头图来源:智元机器人官网截图
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
直播预告
在装修时,许多人曾对全屋智能系统充满期待,却因安装复杂和效果不显著而放弃。智能家居本该让生活更便捷,却往往成了「负担」。如何避免踩坑,轻松搞定装修呢?
在理想造车 7 年后,原理想汽车联合创始人、前总裁,现栖息地创始人兼CEO 沈亚楠,开始用造车的思维,重新定义智能家居。
本周二晚 8 点,极客公园视频号直播间,对话沈亚楠,来聊聊:用造车的方式「造家」,可行吗?
更多阅读
在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。...业内人士认为,其实GO-1的这个模型架构很简单,创新之处并不多,主要是对已有工作、数据和训练方式做了大幅整合。
机器人行业,也在期待自己的「ChatGPT 时刻」。
作者|周永亮
编辑|靖宇
3 月 7 日晚,智元机器人联合创始人「稚晖君」(彭志辉)在微博上扔下了一颗「预告炸弹」——「下周有好东西发布」。短短一句话,迅速引爆全网,阅读量飙升至 10 万+。
结果,3 月 10 日上午,智元机器人就揭晓了谜底——Genie Operator-1(GO-1),智元首个通用具身基座大模型亮相。视频中,机器人可以烤吐司、煮咖啡、送早餐到你的手上,完全不成问题。官方宣称,
GO-1 不仅具备强大的泛化能力,还能在极少数据甚至零样本的情况下,迅速适应新场景和新任务
。
早在 2024 年底,智元就推出了 AgiBot World,一个包含超过 100 万条轨迹、涵盖 217 个任务、涉及五大场景的大规模高质量数据集。正是基于这一庞大的「数据金矿」,GO-1 才能在短时间内实现高效训练和广泛泛化。可以说,AgiBot World 是 GO-1 背后的「隐形英雄」。
那么,GO-1 这个机器人基座大模型的实际表现究竟如何?它对机器人行业又意味什么?
01
机器人大模型,来了!
按照官方说法,
GO-1 除了拓展机器人的运动能力,更重要的是加强了其
AI
能力,从而大大增加了机器人的实用价值
。
通过学习人类视频,GO-1 具备了强大的物体跟踪能力 | 图片来源:智元机器人官网截图
在智元发布的演示视频中,GO-1 展现了很强的学习能力:通过观看人类操作视频,它就能快速掌握新技能,并高效应用到实际任务中。比如,视频中展示了 GO-1 强大的物体跟踪能力:即使水杯被随意移动,它依然能精准完成倒水动作。
其次,GO-1 展现了非常强的泛化能力。与传统模型需要海量数据训练不同,
GO-1 仅需百条级数据,就能实现快速泛化
。例如,在演示中,GO-1 在完成倒水任务后,无需额外训练,便能无缝切换到烤面包并抹果酱的新任务。这种能力不仅展现了 GO-1 对多样化任务的适应性,更体现了其极简学习的核心优势。
GO-1 可以支持不同形态机器人能力迁移,既可以接待嘉宾,也可以制作咖啡 | 图片来源:智元机器人官网截图
同时,GO-1 的跨本体能力,为多机器人协作提供了强大的技术支持。在智元发布的视频中,展示了两个机器人协同完成复杂任务的场景:一个机器人在前台接待嘉宾,另一个机器人专注于制作咖啡。这种协作体现了 GO-1 的高效性和适应性。
传统具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,导致两大问题:数据利用率低和部署受限。但
GO-1
可以
赋能多种本体,在不同机器人形态之间快速迁移,显著提升了数据的利用效率,降低了部署成本
。
值得一提的是,GO-1 大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。这套系统能够从实际执行过程中捕捉问题数据,尤其是执行失误或异常情况,并通过人工审核和模型优化,持续提升 GO-1 的性能。例如,在演示场景中,机器人在放置咖啡杯时出现失误,系统会立即将相关数据回流,并针对性地优化模型,确保下一次操作更加精准。
同时,GO-1 大模型还为机器人增加了新的语音交互方式,这极大便利了用户在现实场景中自由表达需求。
02
大模型不重要,数据集才重要
GO-1 神乎其神的背后,来自其不同的模型架构。
GO-1 采用了 Vision-Language-Latent-Action(ViLLA)架构,这一架构结合了多模态大模型(VLM)和混合专家系统(MoE),分为三个协同工作的模块:
VLM(多模态大模型):基于 InternVL-2B,处理多视角视觉、力觉信号和语言输入,实现场景感知和指令理解。
Latent Planner(隐式规划器):通过预测 Latent Action Tokens(隐式动作标记),将互联网异构数据中的动作知识迁移到机器人任务中,解决高质量真机数据不足的问题。
Action Expert(动作专家):基于 Diffusion Model 生成高频率、灵活的动作序列,确保精细执行。
业内人士认为,
其实
GO-1
的这个模型架构很简单,创新之处并不多
,
主要是对已有工作、数据和训练方式做了大幅整合
。
相比之前的模型,唯一新增的是一层 Latent Planner(隐式规划器),但它也就几层 Transformer,并不复杂。
相比基座大模型,更重要的是数据集 | 图片来源:智元机器人官网截图
地瓜机器人技术副总裁隋伟表示,智元的工作直指行业痛点——数据问题,对具身智能行业有非常好的促进作用。不过,
相比大模型,这里面最有价值的是数据集
。
据介绍,GO-1 的底层支撑则是一个名为 AgiBot World 的超大规模机器人数据集。据了解,AgiBot World 数据集包含超过 100 万条轨迹,由 100 个真实机器人收集,涵盖 100 多个真实世界场景和 217 个具体任务。
该数据集基于 AgiBot G1 硬件平台构建,由 100 多台同构机器人共同收集,提供高质量的开源机器人操作数据,支持解决多种现实生活场景中的挑战性任务。最新版本的 AgiBot World 数据集,包含 100 万条轨迹,总时长达 2976.4 小时,覆盖 87 项技能和 106 个场景。
同时,AgiBot World 超越了实验室环境中的基本桌面任务(如抓取和放置),专注于涉及双臂操作、灵巧手和协作任务的现实场景。
与行业内现有的数据集(Open X-Embodiment)相比,智元的数据在数量上更为庞大,且数据质量、规范性和一致性更好。
Open X-Embodiment 数据集包含很多不同形态的本体,数据的形态差异性较大,会给模型的训练带来极大地干扰。
GO-1 成功率大幅领先,平均成功率提高了 32%,但仍未引发能力的质变 | 图片来源:智元机器人官网截图
不过,虽然智元的数据集已经有一定规模,仍只是一小步的起点,并未带动机器人能力的显著提升。
测试结果显示,GO-1 的表现比之前模型已经提高了很多,但在倒水(Pour Water)、清理桌面(Table Bussing)和补充饮料(Restock Beverage)的成功率最高仍不到 80%。
隋伟表示,
目前阶段,模型并不是机器人行业的核心瓶颈
。真正的挑战在于两个方面:首先是硬件的收敛问题,例如夹爪、灵巧手、触觉传感器等仿生设计尚未形成标准化;其次是因为本体无法大规模推广,导致数据量始终存在不足。
目前,在数据采集方面,机器人业内主要依赖遥操作技术,包括虚拟现实(VR)设备、同构背带式设备以及运动捕捉设备等。然而,
机器人行业的数据采集成本较高
,且缺乏明确的商业价值支撑,这导致数据闭环的飞轮难以快速运转。
相比之下,自动驾驶行业的数据采集成本几乎可以忽略不计,其通过车载感知系统能够源源不断地回传数据,形成了高效的数据闭环。
在 GO-1 发布视频的最后,大家发现了一个彩蛋——智元机器人预告了下一个具身智能机器人产品,尽管具体时间尚未公布。然而,紧接着稚晖君在微博上发文称,「明天还有惊喜」,这一消息瞬间让业界再次充满了期待感。
大模型的兴起,让 AI 行业获得了爆发式进化。大模型对于机器人和具身智能行业,到底能有这样的促进作用,也让人们格外好奇。智元和创始人稚晖君的 GO-1,看起来是个很好的起点,显然具身 AI 很难由一家公司独立完成,只有开源合作,才有可能真正实现机器人行业的快速进化。
*头图来源:智元机器人官网截图
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
直播预告
在装修时,许多人曾对全屋智能系统充满期待,却因安装复杂和效果不显著而放弃。智能家居本该让生活更便捷,却往往成了「负担」。如何避免踩坑,轻松搞定装修呢?
在理想造车 7 年后,原理想汽车联合创始人、前总裁,现栖息地创始人兼CEO 沈亚楠,开始用造车的思维,重新定义智能家居。
本周二晚 8 点,极客公园视频号直播间,对话沈亚楠,来聊聊:用造车的方式「造家」,可行吗?
更多阅读
展开
打开“财经头条”阅读更多精彩资讯
相关新闻
智元曝光「机器人大模型」,但真正的核心,并不是机器人!
极客公园
14小时前
智元机器人发布首个通用大模型 18只个股具备智元机器人概念(名单)
东方财富网
1小时前
又有新惊喜!智元机器人发布最新双足人形机器人,A股相关概念股一览
数据宝
57分钟前
华为离职“天才少年”官宣刷屏!头部国产机器人好事将近
e公司
1天前
【松岩论道】正宗华为AI医疗概念股汇总!
中金在线
1天前
2025两会热议:自动驾驶“狂飙”,谁在踩油门?谁在踩刹车?
智车科技
22小时前
百度最后的防线:李彦宏的命题是什么?
鹿鸣财经
22小时前
抖音出手!打击利用AI非法荐股
券商中国
13小时前
新兴产业两会新观察 | 智能“进化”:机器人产业蓄势待发
新华社
1天前
APP内打开