在宿迁,窥见世界模型争夺战的粮草先行

观察者网

9小时前

京东云相关负责人在媒体探访中介绍,京东在宿迁的采集模式是一个中心加若干社区网点,面向宿迁市民开放灵活用工渠道,覆盖全职妈妈、退休人员、大学生等多类人群,分层培养灵活用工,形成专业采集加众包采集协同机制。

【文/周远方】

宿迁湖滨新区居民区,一间90平的普通住宅内,一位宝妈戴着京东自研的JoyEgoCam数据采集终端,正在整理收纳。

JoyEgoCam重220克,内置推理单元,比一部智能手机还轻。她的动作比正常人类稍慢,对折、抚平、放入。每天两到四小时的采集,每周工作五天,为她带来四千多元的收入。

这些画面以第一人称视角被记录,即将成为训练具身智能模型的数据燃料。2026年,全球AI的下一座山头,是让机器理解物理因果的世界模型。图灵奖得主杨立昆拿超过10亿美元押注的JEPA架构,核心判断正是如此——大语言模型只懂文字,不懂物理世界,真正的AI需要理解杯子是硬的、装了水会重、松手会掉。而要教机器理解这些,唯一的途径是喂给它海量的、真实的物理世界数据。

世界模型的数据缺口有多大?

大语言模型能迎来GPT时刻,靠的是互联网几十年积累的文本存量——论文、网页、书籍,这些语料早已存在,算法天才们只是找到了挖掘它们的方法。世界模型没有这样的历史遗产。物理世界的交互数据不会自动上网,不会自己变成训练语料。无论硅谷还是北京的实验室,面对的都是同一个空仓库:要让机器理解重力、摩擦力和物体恒存性,需要数千万小时的真实场景数据。

觅蜂科技董事长兼CEO(首席执行官)、智元机器人合伙人姚卯青此前公开表示,训练类似ChatGPT-5级别的系统所需语料达百亿小时量级,而具身智能可用数据仅在50万小时量级,规模差距悬殊,还存在标准缺失、质量不一、供需错配等问题。

这不是巧妇难为无米之炊,而是连判断谁是巧妇、什么是好米、下锅之后该煮成什么饭的标准,都还没有建立。因为没有人知道,什么样的数据才能让机器真正长出物理常识。

在这样的数据荒中,京东宣布,计划两年内采集突破1000万小时的真实场景视频数据。

采什么,怎么采,难在哪?

我们来到宿迁,实地看看这场模型大战的粮草先行。

一、宿迁现场,粮草先行

在京东已经建成的机器人数据采集中心,现场搭建了物流仓储、工业制造、健康医疗、家庭服务、城市运维等场景,我们了解,这里的工作人员本地居民居多,经过专业人员的培训后就能上岗。

舞蹈老师臧老师在练习室里完成了三小时采集,工作内容是把货品重复上架。他说,舞蹈老师的工作时间相对自由,能够体验另一种完全不同的工作,并获得收入,是一件有趣有益的事情。

在另一家服装厂的车间里,一位戴着头环的中年妈妈在踩缝纫机。与前两位特意放慢动作或刻意重复动作不同,她只是以正常状态和速率进行工作,头环没有带来任何影响。兼做数据采集,为她带来一些额外的补贴。

采访中,她说,不愿意自己的女儿继续进厂打工,如果能够由机器人来干这么枯燥的活,她觉得是一件好事。同时,她也非常骄傲自己能够为训练研发机器人贡献自己的力量。

在宿迁郊外的果园里,采集员记录着果蔬采摘的轨迹和不规则地形下的行走数据。果园负责人对来访者给出了最朴素的回答,之所以对AI接受度高,不是因为技术有多先进,而是因为刚毕业的大学生、20出头的小伙子不愿意干这个活。机器人填补的,是人力市场自然流失的岗位,是原本无人愿意承接的空白地带。

京东云相关负责人在媒体探访中介绍,京东在宿迁的采集模式是一个中心加若干社区网点,面向宿迁市民开放灵活用工渠道,覆盖全职妈妈、退休人员、大学生等多类人群,分层培养灵活用工,形成专业采集加众包采集协同机制。这种社区网格采集模式,将县城里的宝妈、退休人员和舞蹈老师,在社区这个单位下,快速组织成一支数据采集部队。

二、人,才是那具通用的本体

为什么训练机器人的数据,要从人类身上采?

要回答这个问题,需要先理清三个经常被混用的概念。人形机器人是物理本体,具身智能是让人形机器人拥有智能的技术体系,世界模型则是大脑的核心,它让机器人在采取行动前在内部模拟后果,理解重力、摩擦力、物体恒存性。三者是层层递进的关系,没有世界模型的具身智能,本质上还是高级遥控玩具。

目前行业有四条数据采集路线在同时跑。真机遥操,工程师坐在电脑前遥控一具20万的机器人本体,让它重复抓取动作,数据最保真,但只能蹲守单一仓库,且A型号的数据无法用于B型号,本体一迭代,之前的数据就作废了,形成数据烟囱。UMI,采集员手持一个约400美元的3D打印夹爪,上面夹着GoPro相机,在真实环境里开合夹取,打破了必须买机器人才能采数据的困局,但视角只盯着夹爪附近。Ego头环,像戴眼镜一样记录的是人眼看到的世界,全身环境信息完整。仿真,在虚拟引擎里搭建环境,让数字机器人试错,但虚拟世界里的摩擦力和光照与真实世界不同,存在仿真到现实的鸿沟。

在这四条路线中,Ego头环正成为产业界最新的风向。因为它把人类变成了通用数据采集器,打破了必须先买机器人才能采数据的成本门槛。

自动驾驶之所以能用真车采集,是因为汽车的形态是唯一的,四个轮子一个方向盘。但具身智能领域,尤其是机器人形态尚未收敛的阶段,A型号机器人的遥操数据无法喂给B型号,机械臂长度变了、关节扭矩变了、摄像头位置变了,之前采的数据就全部作废。

数据采集的时机,不能因行业早期无法统一标准而白白流失掉,人们突然发现,人类才是那具通用的“本体”,而且成本更低。人有两只手、十根手指、立体视觉、平衡感。这些结构是稳定、标准化的。所以人戴着头环去整理收纳、擦桌子、拧螺丝、协助老人翻身,采出来的Ego数据可以喂给任何形态的机器人。

京东JoyEgoCam2万一副,机器人本体,20万一具,其实两者的核心差异不在价格,而在通用性。

京东云相关负责人在媒体探访中介绍,京东在宿迁的采集模式是一个中心加若干社区网点,面向宿迁市民开放灵活用工渠道,覆盖全职妈妈、退休人员、大学生等多类人群,分层培养灵活用工,形成专业采集加众包采集协同机制。

【文/周远方】

宿迁湖滨新区居民区,一间90平的普通住宅内,一位宝妈戴着京东自研的JoyEgoCam数据采集终端,正在整理收纳。

JoyEgoCam重220克,内置推理单元,比一部智能手机还轻。她的动作比正常人类稍慢,对折、抚平、放入。每天两到四小时的采集,每周工作五天,为她带来四千多元的收入。

这些画面以第一人称视角被记录,即将成为训练具身智能模型的数据燃料。2026年,全球AI的下一座山头,是让机器理解物理因果的世界模型。图灵奖得主杨立昆拿超过10亿美元押注的JEPA架构,核心判断正是如此——大语言模型只懂文字,不懂物理世界,真正的AI需要理解杯子是硬的、装了水会重、松手会掉。而要教机器理解这些,唯一的途径是喂给它海量的、真实的物理世界数据。

世界模型的数据缺口有多大?

大语言模型能迎来GPT时刻,靠的是互联网几十年积累的文本存量——论文、网页、书籍,这些语料早已存在,算法天才们只是找到了挖掘它们的方法。世界模型没有这样的历史遗产。物理世界的交互数据不会自动上网,不会自己变成训练语料。无论硅谷还是北京的实验室,面对的都是同一个空仓库:要让机器理解重力、摩擦力和物体恒存性,需要数千万小时的真实场景数据。

觅蜂科技董事长兼CEO(首席执行官)、智元机器人合伙人姚卯青此前公开表示,训练类似ChatGPT-5级别的系统所需语料达百亿小时量级,而具身智能可用数据仅在50万小时量级,规模差距悬殊,还存在标准缺失、质量不一、供需错配等问题。

这不是巧妇难为无米之炊,而是连判断谁是巧妇、什么是好米、下锅之后该煮成什么饭的标准,都还没有建立。因为没有人知道,什么样的数据才能让机器真正长出物理常识。

在这样的数据荒中,京东宣布,计划两年内采集突破1000万小时的真实场景视频数据。

采什么,怎么采,难在哪?

我们来到宿迁,实地看看这场模型大战的粮草先行。

一、宿迁现场,粮草先行

在京东已经建成的机器人数据采集中心,现场搭建了物流仓储、工业制造、健康医疗、家庭服务、城市运维等场景,我们了解,这里的工作人员本地居民居多,经过专业人员的培训后就能上岗。

舞蹈老师臧老师在练习室里完成了三小时采集,工作内容是把货品重复上架。他说,舞蹈老师的工作时间相对自由,能够体验另一种完全不同的工作,并获得收入,是一件有趣有益的事情。

在另一家服装厂的车间里,一位戴着头环的中年妈妈在踩缝纫机。与前两位特意放慢动作或刻意重复动作不同,她只是以正常状态和速率进行工作,头环没有带来任何影响。兼做数据采集,为她带来一些额外的补贴。

采访中,她说,不愿意自己的女儿继续进厂打工,如果能够由机器人来干这么枯燥的活,她觉得是一件好事。同时,她也非常骄傲自己能够为训练研发机器人贡献自己的力量。

在宿迁郊外的果园里,采集员记录着果蔬采摘的轨迹和不规则地形下的行走数据。果园负责人对来访者给出了最朴素的回答,之所以对AI接受度高,不是因为技术有多先进,而是因为刚毕业的大学生、20出头的小伙子不愿意干这个活。机器人填补的,是人力市场自然流失的岗位,是原本无人愿意承接的空白地带。

京东云相关负责人在媒体探访中介绍,京东在宿迁的采集模式是一个中心加若干社区网点,面向宿迁市民开放灵活用工渠道,覆盖全职妈妈、退休人员、大学生等多类人群,分层培养灵活用工,形成专业采集加众包采集协同机制。这种社区网格采集模式,将县城里的宝妈、退休人员和舞蹈老师,在社区这个单位下,快速组织成一支数据采集部队。

二、人,才是那具通用的本体

为什么训练机器人的数据,要从人类身上采?

要回答这个问题,需要先理清三个经常被混用的概念。人形机器人是物理本体,具身智能是让人形机器人拥有智能的技术体系,世界模型则是大脑的核心,它让机器人在采取行动前在内部模拟后果,理解重力、摩擦力、物体恒存性。三者是层层递进的关系,没有世界模型的具身智能,本质上还是高级遥控玩具。

目前行业有四条数据采集路线在同时跑。真机遥操,工程师坐在电脑前遥控一具20万的机器人本体,让它重复抓取动作,数据最保真,但只能蹲守单一仓库,且A型号的数据无法用于B型号,本体一迭代,之前的数据就作废了,形成数据烟囱。UMI,采集员手持一个约400美元的3D打印夹爪,上面夹着GoPro相机,在真实环境里开合夹取,打破了必须买机器人才能采数据的困局,但视角只盯着夹爪附近。Ego头环,像戴眼镜一样记录的是人眼看到的世界,全身环境信息完整。仿真,在虚拟引擎里搭建环境,让数字机器人试错,但虚拟世界里的摩擦力和光照与真实世界不同,存在仿真到现实的鸿沟。

在这四条路线中,Ego头环正成为产业界最新的风向。因为它把人类变成了通用数据采集器,打破了必须先买机器人才能采数据的成本门槛。

自动驾驶之所以能用真车采集,是因为汽车的形态是唯一的,四个轮子一个方向盘。但具身智能领域,尤其是机器人形态尚未收敛的阶段,A型号机器人的遥操数据无法喂给B型号,机械臂长度变了、关节扭矩变了、摄像头位置变了,之前采的数据就全部作废。

数据采集的时机,不能因行业早期无法统一标准而白白流失掉,人们突然发现,人类才是那具通用的“本体”,而且成本更低。人有两只手、十根手指、立体视觉、平衡感。这些结构是稳定、标准化的。所以人戴着头环去整理收纳、擦桌子、拧螺丝、协助老人翻身,采出来的Ego数据可以喂给任何形态的机器人。

京东JoyEgoCam2万一副,机器人本体,20万一具,其实两者的核心差异不在价格,而在通用性。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开