四家巨头同时押注自变量：物理世界的大模型，谁来定义？

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

2周前

所以自变量选择了一条看起来更慢、更难被理解的路，它不参加表演秀，不跑马拉松，埋头专注地做“物理世界的基础模型”，也就是要从VLA架构迭代到WUM架构。

在整个五月里，值得期待的事情不少。

首先当然是长十乙的首飞和回收，史无前例的海上网系回收即将第一次发起挑战，这件事的意义我们已在上一篇文章里展开聊过长十乙首飞在即：去南海接火箭回家。另一件事情对一个正在爆发前夜的行业来说，可能同样重要：5月25日，家用机器人将第一次真正进入真实的家庭场景提供服务。

这个动作的主角是一家叫做「自变量」的机器人公司，几乎没有做过任何面向大众的表演，但它的背后赫然拥有字节跳动、阿里巴巴、美团和小米四家大佬，在投资上极少“同框”的他们居然罕见地一起出现了。

老子说，大音希声，大象无形。在所有人都在聚光灯下翻跟头的时候，最安静的选手，拿到了最贵的筹码。

01 身体派：动起来，才能积累数据

在上一篇翻跟头之后，学会踉跄：具身智能的临界点里，我们已经展开了具身智能的行业全景，也提到身体派的三条底层逻辑：身体是基础，运动控制是具身智能必须通过的关卡。身体跑的越多数据才越多，大脑才有东西可学。中国供应链形成了真实的壁垒，

但是，同样是在做身体，各家之间有什么不同吗？

普通人最熟悉的宇树科技，走的是“硬件极致+价格屠刀”的路线。

核心优势是95%以上的核心硬件自研，包括电机、减速器、传感器、编码器、电池全部自己造，而且60%的零件可以在人形机器人和机器狗之间复用。复用率带来的成本优势就是压倒性的：自研的M107关节电机，成本仅为进口电机的50%；整机均价从26万元下探到16.7万元，这个价格在其他厂商那里，连BOM成本都打不平。

智元机器人在运动能力和智能能力之间，找到了一个可以被工厂接受的平衡点。

远征A3进蔚来工厂，验证了人形机器人在不预设程序的条件下，能完成汽车产线上的真实任务。既在展示“身体能干活”，也在测试“大脑能不能理解工厂的任务意图”。整体出货量同样跻身头部，2025年超过5100台。

优必选是最快商业化的代表。Walker S2全年交付1079台，是全球唯一实现全尺寸千台级交付的人形机器人，进了比亚迪、进了空客工厂，还成了港股“人形机器人第一股”。

这三家虽然同属于身体派，但路径又不完全不一样，不过他们的优先级都是先把身体做稳，其他的事后面再说。

不过在这里要划一个重点，我们所说的身体派，其实只是一种侧重，或者说优先级。身体派比谁都清楚，大脑是下一道门。所以，身体派从未放弃大脑，他们只不过是先做好身体，可以理解成是先修好地基，再来盖楼房。

宇树在推进工厂部署的同时，也在建立运动数据的积累机制；智元推出“灵犀”平台，试图在智能与运动之间搭建桥梁；优必选在工业场景之外，也在探索教育和服务的可能性。

它们不是不知道大脑的重要性，只是选择了先修地基、再盖楼房的施工顺序。

身体是入场券，大脑是正赛。

知止而后有定，定而后能静，静而后能安，安而后能虑，虑而后能得。身体派做的事是“止”,先让机器人站定、能动；大脑派做的事是“虑”，让它想清楚为什么动。顺序不同，但缺了哪一步，后面的都走不通。

02 大脑派：先做引擎的人

既然身体派也在往大脑方向走，那四家巨头为什么不直接押注身体派，而是去选择没有量产机器人的公司呢？

自变量的创始人王潜有一个判断被反复引用：“从长期竞争看，硬件在中国没有壁垒，大脑才有。”

这句话经常被人拿来和身体派对立，但这种用法就是误读了。王潜从未否定身体的重要性，我更认为他是在强调：中国供应链的能力会持续拉低硬件的门槛。今天花好几年做出来的身体优势，明天可能会被供应链在半年甚至更短的时间里抹平。但是泛化能力，比如说让一台机器人理解任务、适应新环境、不依赖预设程序的能力壁垒，是不会因为供应链的成熟而消失的。

四家巨头或许各有各的思考。

吸引美团的，是配送和即时零售的最后一公里。如果某天机器人被竞争对手拿来截胡，那么美团的地盘就没了。一个能完成“最后十米”的机器人，比任何外卖柜都有价值。美团自己已经在做派送机器人，但那是“身体派”的解法。押自变量，是在为“大脑派”的解法提前备一手。

阿里对“云+具身”的计算入口或许更感兴趣。物理世界的每一个动作的背后，都是计算，而阿里是最擅长卖计算能力的公司之一。如果机器人时代的“操作系统”不是阿里的，那它在AI时代的所有布局都会出现一个缺口.

字节跳动在思考内容生产外的下一个数据飞轮。抖音的数据飞轮是短视频,但机器人产生的真实物理交互数据,是比短视频更底层的生产要素,这些数据不在互联网上,只能由机器人在真实世界里生成.谁控制了这些数据,谁就控制了下一代AI的训练资源。

小米始终在瞄准智能家居生态的终极形态。一台能在家里跑来跑去的机器人，显然比任何音箱、电视和手机都更接近“中心”。小米自己做了CyberOne，但它也很清楚，如果别人的机器人大脑更好用，CyberOne的身体里完全可能跑别人的系统。

所以，这四家都在关注的，是基础模型的垄断效应。

在LLM（大语言模型）时代，ChatGPT已经演示过这个剧本了，谁先做出基础模型，谁就定义了应用层的规则，后来者只能做套壳。如果物理世界也走同样的路，那“成为物理世界的操作系统”这件事，就值得所有巨头在最早期押注。

在具身智能这件事上，投资也是战略的延续。四家巨头的每一张赌注，都不是在赌自变量，而是在赌自己不能缺席的未来。

自变量累计融资超30亿元人民币，估值突破100亿元。

这笔钱买的是可能性，不是确定性。

03 家庭场景：具身智能的“终极考场”

大脑派能不能走通，光看融资和架构设计，这是说不清楚的。所以自变量选了一个行业里公认最难的地方来验证自己：家庭场景。

上一篇里我们也已经介绍过不同场景的难度，工厂场景的确定性最高、物流场景半开放、服务场景需要人机交互，家庭场景就是完全非标准了。

家庭的容错率是最低的。在工厂里，机器人搞砸一个零件可以重来，但如果在家里把一锅热汤打翻，那就是安全事故了，用户的信任也就没了。所以大多数公司直接先回避掉家庭场景，要在简单的场景里积累能力，等准备好了再考虑家庭。

可自变量并没有。它选择了「58到家」合作，把机器人的大脑放到真实家庭里来做保洁实测。

“深渊在凝视着你”。家庭场景就是这个行业的深渊，所有人都在回避，但自变量选择了走过去。

保洁任务是天然的“模糊指令”训练场，比如你说“把厨房台面擦干净”，机器人需要先理解，哪里是台面？哪些物品需要挪开，哪些可以留下？是用湿布擦，还是用干布擦？这些复杂的决策链条，在工厂里永远不会出现的。

如果自变量能在家庭场景里走通哪怕一小步，证明的也是“我的模型能处理非标准环境”，这就意味着它可以迁移到无数个非标准场景，这就很厉害了。

但是，大脑派路线的核心假设是“泛化能力可以从仿真和半标准场景迁移到真实家庭”。如果这个假设在家庭场景里站不住，那么整个大脑派的估值逻辑可能也会因此被刷新。

5月25日，自变量会交出这份答卷的一部分。

这不是自变量一个人的成绩单。它是大脑派路线的一次中期验证，如果家庭场景能走通哪怕一小步，整个行业对“大脑优先”这条路的信心就会上一个台阶。如果走不通，那身体派的“先修地基”逻辑就会得到更多支持。

04 殊途同归：两条路线终将交汇

身体派在建地基，大脑派在建引擎。

这不是路线之争，是施工顺序的分歧。身体派选择了先让机器人能动起来，再慢慢变聪明；大脑派选择了先让机器人变聪明，再去找合适的身体搭载。

两种选择都有道理，也都承担了各自的风险。

如果供应链把硬件门槛降到足够低，你花了三年积累的运动控制优势可能被压缩到几个月。这是身体派的焦虑。大脑派的风险则在于，如果泛化能力迟迟达不到可用水平，那些巨额融资就会变成账面上的焦虑。

但这两条路最终还是走向了同一个地方：一台能在真实世界里自主行动的机器人。

身体派的大佬们自己清楚这件事，所以他们已经在往大脑方向走；大脑派也清楚这件事，所以他们迟早要面对身体落地的考验。两条路线不是平行线，它们正在慢慢收敛。

万川归之，不知何时止而不盈。但是，谁先到，谁就可以先定规则。

期待，2026年5月25日。

原文标题 : 四家巨头同时押注自变量：物理世界的大模型，谁来定义？