在宿迁，窥见世界模型争夺战的粮草先行

财经头条

提升一亿中产阶级阅读效率

打开

在宿迁，窥见世界模型争夺战的粮草先行

观察者网

9小时前

京东云相关负责人在媒体探访中介绍，京东在宿迁的采集模式是一个中心加若干社区网点，面向宿迁市民开放灵活用工渠道，覆盖全职妈妈、退休人员、大学生等多类人群，分层培养灵活用工，形成专业采集加众包采集协同机制。

【文/周远方】

宿迁湖滨新区居民区，一间90平的普通住宅内，一位宝妈戴着京东自研的JoyEgoCam数据采集终端，正在整理收纳。

点击查看大图

JoyEgoCam重220克，内置推理单元，比一部智能手机还轻。她的动作比正常人类稍慢，对折、抚平、放入。每天两到四小时的采集，每周工作五天，为她带来四千多元的收入。

这些画面以第一人称视角被记录，即将成为训练具身智能模型的数据燃料。2026年，全球AI的下一座山头，是让机器理解物理因果的世界模型。图灵奖得主杨立昆拿超过10亿美元押注的JEPA架构，核心判断正是如此——大语言模型只懂文字，不懂物理世界，真正的AI需要理解杯子是硬的、装了水会重、松手会掉。而要教机器理解这些，唯一的途径是喂给它海量的、真实的物理世界数据。

点击查看大图

世界模型的数据缺口有多大？

大语言模型能迎来GPT时刻，靠的是互联网几十年积累的文本存量——论文、网页、书籍，这些语料早已存在，算法天才们只是找到了挖掘它们的方法。世界模型没有这样的历史遗产。物理世界的交互数据不会自动上网，不会自己变成训练语料。无论硅谷还是北京的实验室，面对的都是同一个空仓库：要让机器理解重力、摩擦力和物体恒存性，需要数千万小时的真实场景数据。

觅蜂科技董事长兼CEO（首席执行官）、智元机器人合伙人姚卯青此前公开表示，训练类似ChatGPT-5级别的系统所需语料达百亿小时量级，而具身智能可用数据仅在50万小时量级，规模差距悬殊，还存在标准缺失、质量不一、供需错配等问题。

这不是巧妇难为无米之炊，而是连判断谁是巧妇、什么是好米、下锅之后该煮成什么饭的标准，都还没有建立。因为没有人知道，什么样的数据才能让机器真正长出物理常识。

点击查看大图

在这样的数据荒中，京东宣布，计划两年内采集突破1000万小时的真实场景视频数据。

采什么，怎么采，难在哪？

我们来到宿迁，实地看看这场模型大战的粮草先行。

一、宿迁现场，粮草先行

在京东已经建成的机器人数据采集中心，现场搭建了物流仓储、工业制造、健康医疗、家庭服务、城市运维等场景，我们了解，这里的工作人员本地居民居多，经过专业人员的培训后就能上岗。

舞蹈老师臧老师在练习室里完成了三小时采集，工作内容是把货品重复上架。他说，舞蹈老师的工作时间相对自由，能够体验另一种完全不同的工作，并获得收入，是一件有趣有益的事情。

在另一家服装厂的车间里，一位戴着头环的中年妈妈在踩缝纫机。与前两位特意放慢动作或刻意重复动作不同，她只是以正常状态和速率进行工作，头环没有带来任何影响。兼做数据采集，为她带来一些额外的补贴。

点击查看大图

采访中，她说，不愿意自己的女儿继续进厂打工，如果能够由机器人来干这么枯燥的活，她觉得是一件好事。同时，她也非常骄傲自己能够为训练研发机器人贡献自己的力量。

在宿迁郊外的果园里，采集员记录着果蔬采摘的轨迹和不规则地形下的行走数据。果园负责人对来访者给出了最朴素的回答，之所以对AI接受度高，不是因为技术有多先进，而是因为刚毕业的大学生、20出头的小伙子不愿意干这个活。机器人填补的，是人力市场自然流失的岗位，是原本无人愿意承接的空白地带。

京东云相关负责人在媒体探访中介绍，京东在宿迁的采集模式是一个中心加若干社区网点，面向宿迁市民开放灵活用工渠道，覆盖全职妈妈、退休人员、大学生等多类人群，分层培养灵活用工，形成专业采集加众包采集协同机制。这种社区网格采集模式，将县城里的宝妈、退休人员和舞蹈老师，在社区这个单位下，快速组织成一支数据采集部队。

二、人，才是那具通用的本体

为什么训练机器人的数据，要从人类身上采？

要回答这个问题，需要先理清三个经常被混用的概念。人形机器人是物理本体，具身智能是让人形机器人拥有智能的技术体系，世界模型则是大脑的核心，它让机器人在采取行动前在内部模拟后果，理解重力、摩擦力、物体恒存性。三者是层层递进的关系，没有世界模型的具身智能，本质上还是高级遥控玩具。

点击查看大图

目前行业有四条数据采集路线在同时跑。真机遥操，工程师坐在电脑前遥控一具20万的机器人本体，让它重复抓取动作，数据最保真，但只能蹲守单一仓库，且A型号的数据无法用于B型号，本体一迭代，之前的数据就作废了，形成数据烟囱。UMI，采集员手持一个约400美元的3D打印夹爪，上面夹着GoPro相机，在真实环境里开合夹取，打破了必须买机器人才能采数据的困局，但视角只盯着夹爪附近。Ego头环，像戴眼镜一样记录的是人眼看到的世界，全身环境信息完整。仿真，在虚拟引擎里搭建环境，让数字机器人试错，但虚拟世界里的摩擦力和光照与真实世界不同，存在仿真到现实的鸿沟。

点击查看大图

在这四条路线中，Ego头环正成为产业界最新的风向。因为它把人类变成了通用数据采集器，打破了必须先买机器人才能采数据的成本门槛。

自动驾驶之所以能用真车采集，是因为汽车的形态是唯一的，四个轮子一个方向盘。但具身智能领域，尤其是机器人形态尚未收敛的阶段，A型号机器人的遥操数据无法喂给B型号，机械臂长度变了、关节扭矩变了、摄像头位置变了，之前采的数据就全部作废。

数据采集的时机，不能因行业早期无法统一标准而白白流失掉，人们突然发现，人类才是那具通用的“本体”，而且成本更低。人有两只手、十根手指、立体视觉、平衡感。这些结构是稳定、标准化的。所以人戴着头环去整理收纳、擦桌子、拧螺丝、协助老人翻身，采出来的Ego数据可以喂给任何形态的机器人。

京东JoyEgoCam2万一副，机器人本体，20万一具，其实两者的核心差异不在价格，而在通用性。

【文/周远方】

宿迁湖滨新区居民区，一间90平的普通住宅内，一位宝妈戴着京东自研的JoyEgoCam数据采集终端，正在整理收纳。

点击查看大图

世界模型的数据缺口有多大？

点击查看大图

在这样的数据荒中，京东宣布，计划两年内采集突破1000万小时的真实场景视频数据。

采什么，怎么采，难在哪？

我们来到宿迁，实地看看这场模型大战的粮草先行。

一、宿迁现场，粮草先行

点击查看大图

二、人，才是那具通用的本体

为什么训练机器人的数据，要从人类身上采？

点击查看大图

在这四条路线中，Ego头环正成为产业界最新的风向。因为它把人类变成了通用数据采集器，打破了必须先买机器人才能采数据的成本门槛。

京东JoyEgoCam2万一副，机器人本体，20万一具，其实两者的核心差异不在价格，而在通用性。

展开

打开“财经头条”阅读更多精彩资讯