四家巨头同时押注自变量:物理世界的大模型,谁来定义?

智车科技

2周前

所以自变量选择了一条看起来更慢、更难被理解的路,它不参加表演秀,不跑马拉松,埋头专注地做“物理世界的基础模型”,也就是要从VLA架构迭代到WUM架构。

在整个五月里,值得期待的事情不少。

首先当然是长十乙的首飞和回收,史无前例的海上网系回收即将第一次发起挑战,这件事的意义我们已在上一篇文章里展开聊过长十乙首飞在即:去南海接火箭回家。另一件事情对一个正在爆发前夜的行业来说,可能同样重要:5月25日,家用机器人将第一次真正进入真实的家庭场景提供服务。

这个动作的主角是一家叫做「自变量」的机器人公司,几乎没有做过任何面向大众的表演,但它的背后赫然拥有字节跳动、阿里巴巴、美团和小米四家大佬,在投资上极少“同框”的他们居然罕见地一起出现了。

老子说,大音希声,大象无形。在所有人都在聚光灯下翻跟头的时候,最安静的选手,拿到了最贵的筹码。

01 身体派:动起来,才能积累数据

在上一篇 翻跟头之后,学会踉跄:具身智能的临界点 里,我们已经展开了具身智能的行业全景,也提到身体派的三条底层逻辑:身体是基础,运动控制是具身智能必须通过的关卡。身体跑的越多数据才越多,大脑才有东西可学。中国供应链形成了真实的壁垒,

但是,同样是在做身体,各家之间有什么不同吗?

普通人最熟悉的宇树科技,走的是“硬件极致+价格屠刀”的路线。

核心优势是95%以上的核心硬件自研,包括电机、减速器、传感器、编码器、电池全部自己造,而且60%的零件可以在人形机器人和机器狗之间复用。复用率带来的成本优势就是压倒性的:自研的M107关节电机,成本仅为进口电机的50%;整机均价从26万元下探到16.7万元,这个价格在其他厂商那里,连BOM成本都打不平。

智元机器人在运动能力和智能能力之间,找到了一个可以被工厂接受的平衡点。

远征A3进蔚来工厂,验证了人形机器人在不预设程序的条件下,能完成汽车产线上的真实任务。既在展示“身体能干活”,也在测试“大脑能不能理解工厂的任务意图”。整体出货量同样跻身头部,2025年超过5100台。

优必选是最快商业化的代表。Walker S2全年交付1079台,是全球唯一实现全尺寸千台级交付的人形机器人,进了比亚迪、进了空客工厂,还成了港股“人形机器人第一股”。

这三家虽然同属于身体派,但路径又不完全不一样,不过他们的优先级都是先把身体做稳,其他的事后面再说。

不过在这里要划一个重点,我们所说的身体派,其实只是一种侧重,或者说优先级。身体派比谁都清楚,大脑是下一道门。所以,身体派从未放弃大脑,他们只不过是先做好身体,可以理解成是先修好地基,再来盖楼房。

宇树在推进工厂部署的同时,也在建立运动数据的积累机制;智元推出“灵犀”平台,试图在智能与运动之间搭建桥梁;优必选在工业场景之外,也在探索教育和服务的可能性。

它们不是不知道大脑的重要性,只是选择了先修地基、再盖楼房的施工顺序。

身体是入场券,大脑是正赛。

知止而后有定,定而后能静,静而后能安,安而后能虑,虑而后能得。身体派做的事是“止”,先让机器人站定、能动;大脑派做的事是“虑”,让它想清楚为什么动。顺序不同,但缺了哪一步,后面的都走不通。

02 大脑派:先做引擎的人

既然身体派也在往大脑方向走,那四家巨头为什么不直接押注身体派,而是去选择没有量产机器人的公司呢?

自变量的创始人王潜有一个判断被反复引用:“从长期竞争看,硬件在中国没有壁垒,大脑才有。”

这句话经常被人拿来和身体派对立,但这种用法就是误读了。王潜从未否定身体的重要性,我更认为他是在强调:中国供应链的能力会持续拉低硬件的门槛。今天花好几年做出来的身体优势,明天可能会被供应链在半年甚至更短的时间里抹平。但是泛化能力,比如说让一台机器人理解任务、适应新环境、不依赖预设程序的能力壁垒,是不会因为供应链的成熟而消失的。

所以自变量选择了一条看起来更慢、更难被理解的路,它不参加表演秀,不跑马拉松,埋头专注地做“物理世界的基础模型”,也就是要从VLA架构迭代到WUM架构。

四家巨头或许各有各的思考。

吸引美团的,是配送和即时零售的最后一公里。如果某天机器人被竞争对手拿来截胡,那么美团的地盘就没了。一个能完成“最后十米”的机器人,比任何外卖柜都有价值。美团自己已经在做派送机器人,但那是“身体派”的解法。押自变量,是在为“大脑派”的解法提前备一手。

阿里对“云+具身”的计算入口或许更感兴趣。物理世界的每一个动作的背后,都是计算,而阿里是最擅长卖计算能力的公司之一。如果机器人时代的“操作系统”不是阿里的,那它在AI时代的所有布局都会出现一个缺口.

字节跳动在思考内容生产外的下一个数据飞轮。抖音的数据飞轮是短视频,但机器人产生的真实物理交互数据,是比短视频更底层的生产要素,这些数据不在互联网上,只能由机器人在真实世界里生成.谁控制了这些数据,谁就控制了下一代AI的训练资源。

小米始终在瞄准智能家居生态的终极形态。一台能在家里跑来跑去的机器人,显然比任何音箱、电视和手机都更接近“中心”。小米自己做了CyberOne,但它也很清楚,如果别人的机器人大脑更好用,CyberOne的身体里完全可能跑别人的系统。

所以,这四家都在关注的,是基础模型的垄断效应。

在LLM(大语言模型)时代,ChatGPT已经演示过这个剧本了,谁先做出基础模型,谁就定义了应用层的规则,后来者只能做套壳。如果物理世界也走同样的路,那“成为物理世界的操作系统”这件事,就值得所有巨头在最早期押注。

在具身智能这件事上,投资也是战略的延续。四家巨头的每一张赌注,都不是在赌自变量,而是在赌自己不能缺席的未来。

自变量累计融资超30亿元人民币,估值突破100亿元。

这笔钱买的是可能性,不是确定性。

03 家庭场景:具身智能的“终极考场”

大脑派能不能走通,光看融资和架构设计,这是说不清楚的。所以自变量选了一个行业里公认最难的地方来验证自己:家庭场景。

上一篇里我们也已经介绍过不同场景的难度,工厂场景的确定性最高、物流场景半开放、服务场景需要人机交互,家庭场景就是完全非标准了。

家庭的容错率是最低的。在工厂里,机器人搞砸一个零件可以重来,但如果在家里把一锅热汤打翻,那就是安全事故了,用户的信任也就没了。所以大多数公司直接先回避掉家庭场景,要在简单的场景里积累能力,等准备好了再考虑家庭。

可自变量并没有。它选择了「58到家」合作,把机器人的大脑放到真实家庭里来做保洁实测。

“深渊在凝视着你”。家庭场景就是这个行业的深渊,所有人都在回避,但自变量选择了走过去。

保洁任务是天然的“模糊指令”训练场,比如你说“把厨房台面擦干净”,机器人需要先理解,哪里是台面?哪些物品需要挪开,哪些可以留下?是用湿布擦,还是用干布擦?这些复杂的决策链条,在工厂里永远不会出现的。

如果自变量能在家庭场景里走通哪怕一小步,证明的也是“我的模型能处理非标准环境”,这就意味着它可以迁移到无数个非标准场景,这就很厉害了。

但是,大脑派路线的核心假设是“泛化能力可以从仿真和半标准场景迁移到真实家庭”。如果这个假设在家庭场景里站不住,那么整个大脑派的估值逻辑可能也会因此被刷新。

5月25日,自变量会交出这份答卷的一部分。

这不是自变量一个人的成绩单。它是大脑派路线的一次中期验证,如果家庭场景能走通哪怕一小步,整个行业对“大脑优先”这条路的信心就会上一个台阶。如果走不通,那身体派的“先修地基”逻辑就会得到更多支持。

04 殊途同归:两条路线终将交汇

身体派在建地基,大脑派在建引擎。

这不是路线之争,是施工顺序的分歧。身体派选择了先让机器人能动起来,再慢慢变聪明;大脑派选择了先让机器人变聪明,再去找合适的身体搭载。

两种选择都有道理,也都承担了各自的风险。

如果供应链把硬件门槛降到足够低,你花了三年积累的运动控制优势可能被压缩到几个月。这是身体派的焦虑。大脑派的风险则在于,如果泛化能力迟迟达不到可用水平,那些巨额融资就会变成账面上的焦虑。

但这两条路最终还是走向了同一个地方:一台能在真实世界里自主行动的机器人。

身体派的大佬们自己清楚这件事,所以他们已经在往大脑方向走;大脑派也清楚这件事,所以他们迟早要面对身体落地的考验。两条路线不是平行线,它们正在慢慢收敛。

万川归之,不知何时止而不盈。但是,谁先到,谁就可以先定规则。

期待,2026年5月25日。

原文标题 : 四家巨头同时押注自变量:物理世界的大模型,谁来定义?

所以自变量选择了一条看起来更慢、更难被理解的路,它不参加表演秀,不跑马拉松,埋头专注地做“物理世界的基础模型”,也就是要从VLA架构迭代到WUM架构。

在整个五月里,值得期待的事情不少。

首先当然是长十乙的首飞和回收,史无前例的海上网系回收即将第一次发起挑战,这件事的意义我们已在上一篇文章里展开聊过长十乙首飞在即:去南海接火箭回家。另一件事情对一个正在爆发前夜的行业来说,可能同样重要:5月25日,家用机器人将第一次真正进入真实的家庭场景提供服务。

这个动作的主角是一家叫做「自变量」的机器人公司,几乎没有做过任何面向大众的表演,但它的背后赫然拥有字节跳动、阿里巴巴、美团和小米四家大佬,在投资上极少“同框”的他们居然罕见地一起出现了。

老子说,大音希声,大象无形。在所有人都在聚光灯下翻跟头的时候,最安静的选手,拿到了最贵的筹码。

01 身体派:动起来,才能积累数据

在上一篇 翻跟头之后,学会踉跄:具身智能的临界点 里,我们已经展开了具身智能的行业全景,也提到身体派的三条底层逻辑:身体是基础,运动控制是具身智能必须通过的关卡。身体跑的越多数据才越多,大脑才有东西可学。中国供应链形成了真实的壁垒,

但是,同样是在做身体,各家之间有什么不同吗?

普通人最熟悉的宇树科技,走的是“硬件极致+价格屠刀”的路线。

核心优势是95%以上的核心硬件自研,包括电机、减速器、传感器、编码器、电池全部自己造,而且60%的零件可以在人形机器人和机器狗之间复用。复用率带来的成本优势就是压倒性的:自研的M107关节电机,成本仅为进口电机的50%;整机均价从26万元下探到16.7万元,这个价格在其他厂商那里,连BOM成本都打不平。

智元机器人在运动能力和智能能力之间,找到了一个可以被工厂接受的平衡点。

远征A3进蔚来工厂,验证了人形机器人在不预设程序的条件下,能完成汽车产线上的真实任务。既在展示“身体能干活”,也在测试“大脑能不能理解工厂的任务意图”。整体出货量同样跻身头部,2025年超过5100台。

优必选是最快商业化的代表。Walker S2全年交付1079台,是全球唯一实现全尺寸千台级交付的人形机器人,进了比亚迪、进了空客工厂,还成了港股“人形机器人第一股”。

这三家虽然同属于身体派,但路径又不完全不一样,不过他们的优先级都是先把身体做稳,其他的事后面再说。

不过在这里要划一个重点,我们所说的身体派,其实只是一种侧重,或者说优先级。身体派比谁都清楚,大脑是下一道门。所以,身体派从未放弃大脑,他们只不过是先做好身体,可以理解成是先修好地基,再来盖楼房。

宇树在推进工厂部署的同时,也在建立运动数据的积累机制;智元推出“灵犀”平台,试图在智能与运动之间搭建桥梁;优必选在工业场景之外,也在探索教育和服务的可能性。

它们不是不知道大脑的重要性,只是选择了先修地基、再盖楼房的施工顺序。

身体是入场券,大脑是正赛。

知止而后有定,定而后能静,静而后能安,安而后能虑,虑而后能得。身体派做的事是“止”,先让机器人站定、能动;大脑派做的事是“虑”,让它想清楚为什么动。顺序不同,但缺了哪一步,后面的都走不通。

02 大脑派:先做引擎的人

既然身体派也在往大脑方向走,那四家巨头为什么不直接押注身体派,而是去选择没有量产机器人的公司呢?

自变量的创始人王潜有一个判断被反复引用:“从长期竞争看,硬件在中国没有壁垒,大脑才有。”

这句话经常被人拿来和身体派对立,但这种用法就是误读了。王潜从未否定身体的重要性,我更认为他是在强调:中国供应链的能力会持续拉低硬件的门槛。今天花好几年做出来的身体优势,明天可能会被供应链在半年甚至更短的时间里抹平。但是泛化能力,比如说让一台机器人理解任务、适应新环境、不依赖预设程序的能力壁垒,是不会因为供应链的成熟而消失的。

所以自变量选择了一条看起来更慢、更难被理解的路,它不参加表演秀,不跑马拉松,埋头专注地做“物理世界的基础模型”,也就是要从VLA架构迭代到WUM架构。

四家巨头或许各有各的思考。

吸引美团的,是配送和即时零售的最后一公里。如果某天机器人被竞争对手拿来截胡,那么美团的地盘就没了。一个能完成“最后十米”的机器人,比任何外卖柜都有价值。美团自己已经在做派送机器人,但那是“身体派”的解法。押自变量,是在为“大脑派”的解法提前备一手。

阿里对“云+具身”的计算入口或许更感兴趣。物理世界的每一个动作的背后,都是计算,而阿里是最擅长卖计算能力的公司之一。如果机器人时代的“操作系统”不是阿里的,那它在AI时代的所有布局都会出现一个缺口.

字节跳动在思考内容生产外的下一个数据飞轮。抖音的数据飞轮是短视频,但机器人产生的真实物理交互数据,是比短视频更底层的生产要素,这些数据不在互联网上,只能由机器人在真实世界里生成.谁控制了这些数据,谁就控制了下一代AI的训练资源。

小米始终在瞄准智能家居生态的终极形态。一台能在家里跑来跑去的机器人,显然比任何音箱、电视和手机都更接近“中心”。小米自己做了CyberOne,但它也很清楚,如果别人的机器人大脑更好用,CyberOne的身体里完全可能跑别人的系统。

所以,这四家都在关注的,是基础模型的垄断效应。

在LLM(大语言模型)时代,ChatGPT已经演示过这个剧本了,谁先做出基础模型,谁就定义了应用层的规则,后来者只能做套壳。如果物理世界也走同样的路,那“成为物理世界的操作系统”这件事,就值得所有巨头在最早期押注。

在具身智能这件事上,投资也是战略的延续。四家巨头的每一张赌注,都不是在赌自变量,而是在赌自己不能缺席的未来。

自变量累计融资超30亿元人民币,估值突破100亿元。

这笔钱买的是可能性,不是确定性。

03 家庭场景:具身智能的“终极考场”

大脑派能不能走通,光看融资和架构设计,这是说不清楚的。所以自变量选了一个行业里公认最难的地方来验证自己:家庭场景。

上一篇里我们也已经介绍过不同场景的难度,工厂场景的确定性最高、物流场景半开放、服务场景需要人机交互,家庭场景就是完全非标准了。

家庭的容错率是最低的。在工厂里,机器人搞砸一个零件可以重来,但如果在家里把一锅热汤打翻,那就是安全事故了,用户的信任也就没了。所以大多数公司直接先回避掉家庭场景,要在简单的场景里积累能力,等准备好了再考虑家庭。

可自变量并没有。它选择了「58到家」合作,把机器人的大脑放到真实家庭里来做保洁实测。

“深渊在凝视着你”。家庭场景就是这个行业的深渊,所有人都在回避,但自变量选择了走过去。

保洁任务是天然的“模糊指令”训练场,比如你说“把厨房台面擦干净”,机器人需要先理解,哪里是台面?哪些物品需要挪开,哪些可以留下?是用湿布擦,还是用干布擦?这些复杂的决策链条,在工厂里永远不会出现的。

如果自变量能在家庭场景里走通哪怕一小步,证明的也是“我的模型能处理非标准环境”,这就意味着它可以迁移到无数个非标准场景,这就很厉害了。

但是,大脑派路线的核心假设是“泛化能力可以从仿真和半标准场景迁移到真实家庭”。如果这个假设在家庭场景里站不住,那么整个大脑派的估值逻辑可能也会因此被刷新。

5月25日,自变量会交出这份答卷的一部分。

这不是自变量一个人的成绩单。它是大脑派路线的一次中期验证,如果家庭场景能走通哪怕一小步,整个行业对“大脑优先”这条路的信心就会上一个台阶。如果走不通,那身体派的“先修地基”逻辑就会得到更多支持。

04 殊途同归:两条路线终将交汇

身体派在建地基,大脑派在建引擎。

这不是路线之争,是施工顺序的分歧。身体派选择了先让机器人能动起来,再慢慢变聪明;大脑派选择了先让机器人变聪明,再去找合适的身体搭载。

两种选择都有道理,也都承担了各自的风险。

如果供应链把硬件门槛降到足够低,你花了三年积累的运动控制优势可能被压缩到几个月。这是身体派的焦虑。大脑派的风险则在于,如果泛化能力迟迟达不到可用水平,那些巨额融资就会变成账面上的焦虑。

但这两条路最终还是走向了同一个地方:一台能在真实世界里自主行动的机器人。

身体派的大佬们自己清楚这件事,所以他们已经在往大脑方向走;大脑派也清楚这件事,所以他们迟早要面对身体落地的考验。两条路线不是平行线,它们正在慢慢收敛。

万川归之,不知何时止而不盈。但是,谁先到,谁就可以先定规则。

期待,2026年5月25日。

原文标题 : 四家巨头同时押注自变量:物理世界的大模型,谁来定义?

展开
财经头条声明:所载内容仅为传递信息目的,非本站观点,亦非投资建议。据此操作,风险自负。 商务合作:zb@feheadline.com
打开“财经头条”阅读更多精彩资讯
APP内打开