中信建投:具身智能赛道投资机遇

中信建投

8小时前

宇树科技、小米人形机器人、乐聚机器人等相关负责人也将参与,就人形机器人关键技术瓶颈与突破路径、人形机器人应用场景的深度挖掘与落脚难点等展开讨论。
01 云程发轫,万里可期——北京人形机器人与具身智能产业大会观后感

第二届中国人形机器人与具身智能产业大会4月15-16日在北京成功举办,大会集结了45家人形机器人与具身智能头部企业和供应链企业,人形机器人产业发展迅猛,硬件端产品呈现百花齐放之姿,本体、灵巧手、核心零部件等产品涌现。软件端具身智能仍处于前期阶段,数据成为现阶段发展瓶颈。我们认为当下人形机器人仍面临商业化落地挑战,核心原因在于:1、大规模应用场景不足和功能相对简单、泛化能力不强。2、成本问题。短期建议关注人形机器人硬件降本进展和应用场景实际落地节奏。长期来看,大模型+具身智能或成为人形机器人胜负手,建议关注具身智能领先的人形机器人本体厂商及其产业链。
415-16日,第二届中国人形机器人与具身智能产业大会在北京成功举办,大会集结了45家人形机器人与具身智能头部企业和供应链企业。通过本次大会,我们看到人形机器人产业发展迅猛,硬件端产品呈现百花齐放之姿,人形机器人本体、灵巧手、核心零部件产品涌现。但软件端,具身智能仍处于前期阶段,数据成为现阶段发展瓶颈。

硬件端:人形机器人本体、灵巧手、核心零部件产品涌现。魔法原子、乐聚机器人、天链机器人、星动纪元、宇树科技、NOETIX等厂商人形机器人产品亮相,但从现场演示来看,多款产品运控能力欠佳。灵心巧手、因时机器人、灵巧智能、星动纪元、中科硅纪等企业展出灵巧手产品,种类多样,各有特色。核心零部件方面,他山科技、坤维科技、宇立仪器、蓝点触控等企业参展。

软件端:数据成为限制具身智能发展的核心瓶颈。目前人形机器人在移动和操作能力上具备一定智能,但通用性不足,需要具身智能赋能实现多动作泛化、复杂决策和人机交互能力。具身智能发展需要海量数据进行训练,但仍面临数据瓶颈(实机数据采集成本高+仿真数据质量难以保障),虚实数据相结合成为未来发展方向。

人形机器人硬件发展如火如荼,也面临重要挑战。1、人形机器人面临大规模应用场景不足和功能相对简单、泛化能力不强两大困难。2、人形机器人商业化还面临成本问题目前很难达到未来10万元的目标,硬件层面也需要进行降本。

建议关注行业硬件降本进展和应用场景实际落地节奏。长期来看,大模型+具身智能或成为人形机器人胜负手,建议关注具身智能领先的人形机器人本体厂商及其产业链。

风险提示:

1)需求方面:国家基建政策变化导致电源投资规模不及预期;电网投资规模不及预期;新能源装机增速下降导致对电力设备需求下降;全社会用电量增速下降等;两网招标进度不及预期;特高压建设推进进度不及预期等。

2)供给方面:铜资源、钢铁等大宗商品价格上涨;电力电子器件供给紧张,国产化进度不及预期。

3)政策方面:新型电力市场相关支持力度不及预期;电价机制推进进度低于预期;电力现货市场推进进度不及预期;电力峰谷价差不及预期等。

4)国际形势方面:能源危机较快缓解、能源价格较快下跌;国际贸易壁垒加深等。

5)市场方面:竞争格局大幅变动;竞争加剧导致电力设备各环节盈利能力低于预期;运输等费用上涨。

6)技术方面:技术降本进度低于预期;技术可靠性难以进一步提升等。


02 AI+机器人:四维度再思考产业特征和市场节奏

核心观点:当前AI和机器人产业正处于从0-1向1-10跨越转换的关键时刻,商业化落地有望开启景气主线行情,核心关注渗透率指标,市场焦点或将转向业绩兑现。综合考虑产业优势结合应用前景,AI和机器人行情高度应不亚于前。当前市场仍然缺乏显著增量资金,短周期快速波动或取代A字大幅波动。向后展望,ETF可能是下一轮主力资金,同时有望推升龙头;2月中国股市流入百亿美元,全球资金回流CN资产值得期待。行情节奏方面,早期阶段若估值/仓位/交易热度过高,可能对继续上涨形成一定的阻力,存量资金博弈下,交易热度指标有效性高,此外近期还需关注其他宏观变化可能导致市场主线转向。

行情定位:0-1阶段概念先行,市场呈现交易性行情;1-10阶段商业化落地,渗透率快速提升行情随之启动,形成真正的产业趋势市场主线,渗透率放缓往往是行情结束的重要标志。当前AI和机器人产业正处于跨越“1”的关键时刻,市场焦点或将转向业绩兑现,行情由主题映射走向基本面驱动,后续关注AI应用落地和机器人本体进展情况。

产业特征:本轮AI+机器人与此前互联网+新能源的产业共性之一在于,庞大的C端用户基础带来丰富的应用场景,并且提供了高容量的试错空间,允许布局多种技术路线,成为产业竞争力的关键之一。移动互联网A股面临缺乏核心标的的问题,AI此前同样面临算力卡脖子的局面,但这一现象有望被Deepseek重构。中国几乎拥有机器人产业链全环节,并从新能源车获得技术继承,有望充分发挥中国制造优势,降本增效实现快速渗透,但需注意产能过快扩张的风险。产业优势结合应用前景,AI和机器人行情高度应不亚于前。

资金环境:当前仍然缺乏显著增量资金,与此同时以两融为代表的散户游资力量活跃,叠加信息传播和市场学习效率提升,短周期快速波动或取代A字大幅波动。向后展望,ETF虽然今年尚未发力,但可能是下一轮主力资金,同时有望推升龙头,中期维度保持关注;2月中国股市流入百亿美元,全球资金回流CN资产值得期待;险资虽有可观增量,但主要去往大盘/红利/南向等方向;主动型公募仍然存在较大赎回压力,重仓股谨慎对待。

市场节奏:1)早期阶段估值仓位交易热度过高;2)历史经验关注渗透率超过30-50%的临界点;3)下游终端产品放量贡献业绩后投资者可能抢先兑现离场;4)行业产能或某些环节投资过剩;5)新技术诞生;6)流动性环境剧烈变化;7)其他宏观变化。

风险提示:新兴技术发展存在不确定性,关键技术突破存在门槛,下游应用场景落地和业绩兑现情况可能不及预期;产业属性存在差异,产业规律或存在适用性限制,历史规律可能出现失效;海外局势动荡,地缘政治冲突问题尚未完全解除,美国欧洲等发达国家可能面临衰退风险;美国对华政策存在超预期风险,可能进一步加强对华科技封锁;国内宏观经济、宏观调控政策和产业政策存在超预期波动的可能性。


03 重点推荐顺周期低估值,人形机器人关注T进展和巨头入局

人形机器人:特斯拉产业链关注度提升,腾讯、英伟达等巨头入局有望进一步加速行业发展。本周特斯拉进一步明确2025-2026年Optimus量产预期,与产业链进展节奏相匹配。同时,我们也关注到家电龙头美的、海尔等积极布局人形机器人赛道,进一步探索终端应用落地。2025年人形机器人行业处于爆发式增长的量产元年,来自于主机厂的量产推进、新品发布、大模型更新等催化不断,产业链积极推进零部件性能升级和成本降低,产业发展趋势愈发明朗。同时,以腾讯、英伟达等巨头为代表的企业,有望从云计算、大模型等维度赋能机器人行业发展,进一步加速具身智能应用,并让产业链分工更为明晰。

人形机器人

(1)家电龙头美的、海尔在人形机器人领域积极布局。①美的:本周美的集团研发的人形机器人首次曝光,视频中机器人可以完成递水、跳舞等动作。美的机器人主要分两大块,一块是家电机器人化,在家电产品中融入AI、机器人的技术;另一块聚焦人形机器人的整机开发,同时深挖应用场景,探索在B端的落地场景。②海尔:3月20日,海尔家庭机器人与星动纪元在上海举行了战略签约仪式。此次合作标志着AI智慧家庭与服务机器人的深度融合,双方将携手共同推出基于智慧家庭场景的服务机器人,加速AI智慧家庭生态创新发展。

(2)特斯拉进一步明确量产预期,人形机器人产业化趋势明朗。北京时间3月21日,特斯拉召开全员大会,马斯克表示Optimus将于今年投入生产。特斯拉今年目标生产5000台Optimus,且已订购的零部件足够支撑今年生产10000-12000台,2026年目标生产50000台Optimus,并将于2026年下半年对特斯拉以外的市场开放。马斯克认为,Optimus将成为有史以来规模最大的产品,甚至可能比其他任何产品规模大10倍。未来特斯拉一年有望生产数以千万计的机器人,甚至达到一年一亿台。

(3)腾讯、英伟达入局有望进一步加速机器人行业发展。①腾讯:腾讯董事会主席兼首席执行官马化腾在业绩会上表示,去年腾讯机器人实验室Robotics X调整了研究方向,主攻腾讯擅长的云、大数据等;他表示,腾讯希望成为所有机器人厂商的合作伙伴,而不是取而代之做硬件。②英伟达:在2025年GTC大会上,英伟达推出人形机器人基础模型等技术,以加速机器人开发。英伟达宣布将开源NVIDIA Isaac GR00T N1,该模型被描述为“全球首个开放、完全可定制的通用人形推理和技能基础模型”。

我们的观点:本周市场对于特斯拉人形机器人产业链关注度提升,特斯拉进一步明确2025-2026年Optimus量产预期,与产业链进展节奏相匹配。同时,我们也关注到家电龙头美的、海尔等积极布局人形机器人赛道,进一步探索终端应用落地。2025年人形机器人行业处于爆发式增长的量产元年,来自于主机厂的量产推进、新品发布、大模型更新等催化不断,产业链积极推进零部件性能升级和成本降低,产业发展趋势愈发明朗。同时,以腾讯、英伟达等巨头为代表的企业,有望从云计算、大模型等维度赋能机器人行业发展,进一步加速具身智能应用,并让产业链分工更为明晰。

风险提示:

(1)国内宏观经济波动的风险:机械是典型的中游资本品行业,承上启下,与宏观经济波动密切相关,如果国内宏观政策出现重大转向,势必会影响机械行业总体需求。

(2)海外市场波动的风险:中国企业出海不可能一帆风顺,未来的征程势必会出现各种各样的摩擦,是阶段性的小插曲还是新趋势形成,需要审慎判断。

(3)下游扩产不及预期的风险:若下游行业扩产不及预期,则相应的设备需求将会下降,会对行业内公司订单、业绩等造成不利影响。


04 智元发布通用具身基座大模型GO-1和机器人灵犀X2,模型迭代加速具身智能发展

智元机器人发布通用具身基座模型——智元启元大模型(Genie Operator-1),开创性提出了ViLLA架构,实现了可以利用人类视频学习,完成小样本快速泛化,提升了机器人学习能力,结合此前发布的开源百万真机数据集AgiBotWorld,将降低具身智能门槛,有望加速具身智能的普及。此外,公司推出灵犀X2机器人,模块化设计能力提升,且在运动控制、交互能力方面表现优异。人形机器人厂商模型持续迭代,软硬件能力持续升级,将进一步打开人形机器人应用场景的想象空间,加速产业化发展。

发布通用具身基座大模型GO-1,创新架构提高机器人学习能力

2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),开创性地提出了Vision-Language-Latent-Action (ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化,实现一脑多形并持续进化,结合公司此前发布的开源百万真机数据集AgiBotWorld,将降低具身智能门槛,促进机器人向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,加速具身智能的落地应用。

发布灵犀X2机器人,运动控制、交互能力表现亮眼

2025年3月11日,智元机器人在全网多个平台发布视频,推出灵犀X2机器人,其模块化设计能力突出。更值得关注的是,X2通过结合深度强化学习和模仿学习算法的优势,不仅可以像人一样走路,还可以奔跑、旋转、跳舞,甚至实现骑自行车等复杂动作,运动控制效果优异。此外,灵犀X2可实现复杂的交互能力,拥有毫秒级的交互反应,视频中与人类沟通交流流畅自然。

人形机器人产业链梳理:随着国内外人形机器人厂商2025年分别逐步启动几千台或者万台的量产计划,2026年预期分别数万台或者10万台的量产计划,我们建议核心关注具备零部件低价批量供应能力的企业,以及具备技术或者产业链卡位优势的企业。

一、智元机器人自成立以来发展迅速,已实现通用具身机器人量产

上海智元新创技术有限公司(以下简称“智元机器人”)成立于2023年2月,是一家致力于以AI+机器人的融合创新、打造世界级领先的具身智能机器人产品及应用生态的创新企业。

2023年4月,公司设立上海总部;6月设立北京算法中心;同年8月18日,正式发布远征A1智能机器人。

2024年1月,公司建立全国首个机器人制造工厂;同年8月18日,智元机器人发布“远征”与“灵犀”两大系列共五款商用人形机器人新品;9月,4000平数采工厂建立;10月24日,智元灵犀X1面向全球正式开源;12月16日,智元机器人发布视频称开启通用机器人商用量产;12月30日,智元发布百万真机数据集开源项目AgiBot World。

2025年1月6日,智元机器人量产的第1000台通用具身机器人正式下线;3月10日,智元发布首个通用具身基座大模型GO-1。

从人形机器人新品发布以及量产节奏来看,智元机器人发展迅速,处于行业领先身位。2024年11月,智元机器人入选《2024福布斯中国创新力企业50强》,其创新属性备受认可。

图片

公司创始团队具有丰富的技术背景和产业资源。智元机器人的创始团队包括“稚晖君”彭志辉在内的多位业内资深人士,成员背景综合互补,具有深厚的核心技术背景、产业管理经验和产业资源。其核心人员彭志辉,拥有华为“天才少年”的背景,在AI和机器人领域具备深厚的技术积累,主要负责人形机器人的智能算法、感知、认知和决策等方面的研发工作。另一位核心人物是上海交通大学博士生导师、上海人工智能研究院首席科学家、上海智元新创技术有限公司联合创始人闫维新,主要负责人形机器人的机械结构设计、运动控制等硬件方面的研发工作。

公司上市以来经历多轮融资,获得诸多资本方的认可。作为新兴的人形机器人初创公司,公司在成立的2年多时间内完成了多次融资。2023年3月,智元机器人完成天使轮融资;根据企查查数据,2023年公司又陆续完成了A、A+、A++、A+++轮融资,并于2024年又陆续完成了3轮融资。智元机器人吸引了包括高瓴创投、奇绩创坛、鼎晖投资、高榕资本、红杉中国、比亚迪等众多知名投资机构的投资。

图片

2023年8月智元发布第一代通用型具身智能机器人原型机远征A1。远征A1机器人基于创始团队在机器人和AI行业多年的经验积累在半年内打造,这款机器人未来将可以在各种复杂场景下自主完成移动和操作任务。同时,智元公布其自研的一系列核心组件及其技术指标,包括核心关节电机PowerFlow、灵巧手SkillHand、统一软件框架AgiROS、语言任务模型WorkGPT、具身智脑EI-Brain等。

图片

2024年8月智元发布远征、灵犀两大系列共5款机器人,覆盖不同场景。2024年度新品发布会中,公司发布了“远征”系列3款机器人,包括交互服务机器人智元远征A2、柔性智造机器人远征A2-W、重载特种机器人远征A2-Max;“灵犀”系列2款机器人,包括全栈开源机器人灵犀X1、专业数采机器人灵犀X1-W,多种机器人覆盖了不同应用场景,整体软硬件能力持续提升。2025年1月6日,智元量产的通用具身机器人累计下线1000台,包括731套双足人形机器人(远征A2/灵犀X1)、269套轮式通用机器人(远征A2-D/A2-W)。

图片

二、发布通用具身基座大模型GO-1,创新架构提高机器人学习能力

2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。

GO-1大模型吸纳多维度数据,有望加速具身智能的普及。目前通用机器人大模型所需数据量极为庞大、且数据获取难度高,导致短期内通用机器人难以采集足够数量的真机数据用于大模型训练;同时,常规的VLA架构也难以利用大规模人类以及跨本体操作视频数据,目前业界主要采用仿真数据和互联网的图文数据以训练机器人。而GO-1大模型则吸纳了各种维度和类型的数据,将增强模型对人类行为的理解,并明显降低训练成本,加速具身智能的普及。

图片

2024年底智元推出开源百万真机数据集AgiBotWorld,数据质量达到工业级标准。2024年底,智元推出了AgiBotWorld,这是包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集;是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。相比Google开源的Open X-Embodiment数据集,AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。AgiBot World数据集中涵盖的场景具备多样化和多元化特点,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等复杂动作,几乎涵盖了人类日常生活所需的绝大多数场景,该数据集的数据精度和涵盖面处于业内领先地位。

图片

2025年3月智元启元大模型GO-1正式发布,提出ViLLA创新性架构。2025年3月10日,智元机器人正式发布其首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1)。为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了Vision-Language-Latent-Action (ViLLA) 这一创新性架构,GO-1即基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟,在真实世界的灵巧操作和长时任务方面表现卓越。

图片

ViLLA架构由VLM(多模态大模型) + MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

在推理时,VLM、Latent Planner和Action Expert三者协同工作:①VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;②Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;③Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

图片

GO-1大模型将显著提高机器人的学习能力。GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

GO-1大模型的特点主要包括:

①人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

②小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

③一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

④持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

GO-1大模型的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进。①从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练;②从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境;③从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

GO-1大模型将提高机器人的学习能力,加速具身智能的普及。GO-1是通用具身基座大模型,不局限于机器人的具体型号、适用场景、预设指令,具备较好的泛化能力。机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,加速具身智能的落地应用。

三、发布灵犀X2机器人,运动控制、交互能力表现亮眼

2025年3月11日,智元机器人在全网多个平台发布视频,推出灵犀X2机器人。

灵犀X2模块化设计能力突出。智元把机器人的硬件系统抽象出了一系列可复用的核心组件,小脑控制器Xyber-Edge、域控制器Xyber-DCU、智能电源管理系统Xyber-BMS,以及核心关节模组PowerFlow,通过这些组件可以快速搭建一套完整的人形机器人系统,模块化设计能力突出。灵犀X2机体选择柔性材料,原型机全身28个自由度中,没有使用并联结构,既能够保证惯量上移,又实现了传动链的完全解耦。

运控算法持续突破,灵犀X2可完成骑自行车等复杂动作。当前足式机器人的运动控制已经全面从传统的model-based转向learning驱动的强化学习,智元通过结合深度强化学习和模仿学习算法的优势,使得X2不仅可以像人一样走路,还可以奔跑、旋转、跳舞,甚至实现骑自行车等复杂动作,运动控制效果优异。

图片

灵犀X2可实现复杂的交互能力,拥有毫秒级的交互反应。借助目前大语言模型技术,智元为X2训练定制了多模态交互大模型硅光动语,在此基础上,通过边缘侧大脑端到端的模型架构以及大量的工程优化,让机器人拥有了毫秒级的交互反应,视频中灵犀X2可以和人类流畅交流、自然互动。同时,除了耳朵和嘴巴,基于VLM的硅光动语多模态模型,也赋予了X2通过视觉理解和认知世界的能力。

智元将操作智能的能力迁移到了X2。灵犀X2本体支持很好的柔性阻抗控制,可以装配包括灵巧手在内的各种末端,也具备精细操作的能力。此外,启元大模型使得X2初步具备了简单任务中对操作物体的零样本泛化能力,并可以在某些任务中实现多机协作。

智元对于灵犀X2的定位是支持高自由度运动能力的双足人形机器人、搭载情感计算引擎的智能交互机器人,以及初步具备通用任务执行能力的具身机器人,未来有望在家庭服务等多个场景得到应用。

四、人形机器人产业链梳理

智元发布通用具身基座模型——智元启元大模型(Genie Operator-1),开创性提出了ViLLA架构,实现了可以利用人类视频学习,完成小样本快速泛化,提升了机器人学习能力,降低了具身智能门槛,有望加速具身智能的普及。同时,公司灵犀X2机器人在运动控制、交互能力方面表现优异,也让我们看到了人形机器人主机厂在软硬件方面的快速进步,将不断打开人形机器人应用场景的想象空间。

随着国内外人形机器人厂商2025年分别逐步启动几千台或者万台的量产计划,2026年预期分别数万台或者10万台的量产计划,我们建议核心关注具备零部件低价批量供应能力的企业,以及具备技术或者产业链卡位优势的企业。

风险提示:

(1)AI发展放缓风险:无论是具身智能还是其中人形机器人的商业化落地进展,都依赖AI的持续发展完善,如果AI发展放缓甚至出现停滞,那么将影响具身智能与人形机器人的产业化进程。

(2)宏观经济波动风险:宏观经济如果出现重大下行,会影响具身智能与人形机器人产品的需求,影响社会创新热情。

(3)数据安全风险:无论是具身智能还是人形机器人,与物理世界的交互都会涉及到大量的数据及处理,可能会出现数据、知识产权风险。



05 工程机械基本面超预期,具身智能和人形机器人国内市场活跃

人形机器人:行业边际催化不断,关注机器人本体厂商最新进展
本周小米产业链发酵,市场关注国产人形机器人线性关节提升趋势。海内外人形机器人厂商积极推进软硬件发展,智元下周预计发布首个通用具身基座模型、Tesla最新宣传视频涉及人形机器人,预计本体厂商的最新产品进展仍将为板块带来持续催化。边际上建议关注具有新品发布预期的本体厂商供应链相关标的,同时持续推荐供应链中具有较强竞争力的供应商。
政府工作报告首次出现“具身智能”等新词,我们认为具身智能是更广义的AI赋能,具身智能体与物理世界环境的交互会越来越智能化,不断创造新的行业需求,重构行业竞争格局,持续带来具身智能和人形机器人板块的投资机会。
风险提示:
(1)国内宏观经济波动的风险:机械是典型的中游资本品行业,承上启下,与宏观经济波动密切相关,如果国内宏观政策出现重大转向,势必会影响机械行业总体需求。
(2)海外市场波动的风险:中国企业出海不可能一帆风顺,未来的征程势必会出现各种各样的摩擦,是阶段性的小插曲还是新趋势形成,需要审慎判断。
(3)下游扩产不及预期的风险:若下游行业扩产不及预期,则相应的设备需求将会下降,会对行业内公司订单、业绩等造成不利影响。

06 具身智能和人形机器人行业投资机遇

大模型快速迭代,推动具身智能大发展,AI赋能深浅,关系到行业发展空间与竞争格局重构。
人形机器人是具身智能最重要的载体,模型迭代与供应链降本加速其商业化落地,百家争鸣态势正形成,特斯拉不再是产业链唯一风向标,预计将会涌现出来更多参与者。
看好具备低价、批量供货能力或者具有技术优势的标的。
高效AI大模型不断涌现,性能快速迭代,推动具身智能大发展:所有设备公司均应该思考如何用AI赋能,提升产品的智能化水平、工作效率和客户满意度,这将关系到设备行业的发展空间以及竞争格局重构。
人形机器人是具身智能最重要的载体:人形机器人作为一种具身智能,可以更好地与人类互动,或者在人类生活的环境中为人类服务。随着智能化程度提升,未来可能每个家庭甚至每个人平均拥有一台人形机器人,预计市场空间将超过汽车、智能手机,至少是数万亿市场规模。
模型迭代与供应链降本加速人形机器人商业化落地:
百家争鸣态势正在形成,特斯拉不再是产业链唯一的风向标。随着大模型的发展、优化迭代,训练成本越来越低,训练效率越来越高,从视觉、语言到动作的执行越来越流畅。那些掌握了更高效大模型的企业,有可能后来居上。
供应链迅速降本,预计会有更多的整机企业涌现:供应链日趋成熟,会吸引更多的科研机构参与研究创新,吸引新兴创业者加入,吸引大企业以后来者姿态切入,推动人形机器人整机价格迅速下降。
风险提示:
(1)AI发展放缓风险:无论是具身智能还是其中人形机器人的商业化落地进展,都依赖AI的持续发展完善,如果AI发展放缓甚至出现停滞,那么将影响具身智能与人形机器人的产业化进程。
(2)宏观经济波动风险:宏观经济如果出现重大下行,会影响具身智能与人形机器人产品的需求,影响社会创新热情。
(3)数据安全风险:无论是具身智能还是人形机器人,与物理世界的交互都会涉及到大量的数据及处理,可能会出现数据、知识产权风险。
(4)道德伦理风险:具身智能尤其是人形机器人的发展,可能引发社会伦理问题,需要提前加以干预和设定。


07 Figure发布Helix:效果惊艳、端到端VLA模型在人形机器人的首次落地

1.2月21日,Figure在官网上推出了首个适用于人形机器人的端到端VLA模型Helix,这是继2月5日Figure与OpenAI中止合作后推出的重要工作,是视觉-语言-动作(VLA)模型首次在成熟的人形机器人产品中落地。

2.Helix使得机器人能够通过极少的数据实现多自由度(35-Dof)的动作,具有极强的泛化能力,支持多机器人协作。在演示视频中,两个人形机器人在同一个神经网络下,很好的协作完成了厨房中物体识别、分析、抓取、归纳的任务。
Helix采用创新的“系统1,系统2”双系统模型架构,分别是7hz的慢思考系统和200hz的快反应系统。其中快反应保证流畅,慢思考提升智能。同时预训练样本量仅仅为500个小时的数据,是数据集的5%,仅需少量数据便能快速实现scaling law的涌现效果。
Figure新进展:通用型视觉语言动作模型Helix
2月21日,美国人形机器人公司Figure AI在官网上发布了一款通用型视觉语言动作模型Helix,能够将语言、视觉、动作融合进行任务完成,支持人形机器人上半身使用,具有较强的泛化能力,需要预训练数据集少,甚至可以同时使两个机器人协调工作。
早在2月5日,Figure 的创始人兼CEO Brett Adcoc在推特上发布了一条帖子,宣布终止与OpenAI的合作协议:并表示Figure在完全自主研发的端到端机器人AI方面取得了重大突破,接下来的30天内展示一些人们从未在人形机器人上见过的东西,现在看来Helix就是其中之一。
实际上目前来说,端到端已然成为了具身智能大模型的一个共识。自动驾驶已经验证了端到端的可行性,而Helix的突破性,在于他是第一个运行在人形机器人上的端到端VLA大模型。之前许多实验室都发布过具身智能大模型,但基本都是装载于机械臂上面,自由度偏少。而Helix对应的机器人版本有着足足35个自由度,一般模型可能很难进行迁移。
图片
简单来说,Helix做到一系列的突破,包括但不限于:
1)全上半身控制:Helix 是第一个输出对整个人形上半身(包括手腕、躯干、头部和单个手指)进行高速连续控制的 VLA。

2)多机器人协作:Helix 是第一个在两个机器人上同时运行的 VLA,使它们能够使用以前从未见过的物品解决远距离协作任务。

3)极强的对象泛化能力:备 Helix 的手办机器人现在几乎可以拾取任何小型家用物品,包括它们以前从未遇到过的数千件物品,只需遵循自然语言提示即可。

4)一套神经网络权重:与以前的方法不同,Helix使用一组神经网络权重来学习所有行为,包括拾取和放置物品、使用抽屉和冰箱以及跨机器人交互,而无需采取任何针对特定任务的微调。
5)商用就绪:Helix 是第一款完全在嵌入式低功耗 GPU 上运行的 VLA,可立即用于商业部署。
图片
一般来说,传统的scaling law都告诉我们一个模型训练采用的数据量越多越好模型就越好,但是在很多领域,比如家庭中,不同于单一的生产线,家具的种类是非常丰富的,如果依旧采用原来的训练方法,训练所需要的时间和成本都是非常高的,因此Figure要求模型必须具备良好的泛化能力,减少对数据集的依赖。
在图表2中,我们可以看到,相比于传统的编写数据或者是如今流行的收集数据,Helix大大减少了机器人训练需要的时间,因为它追求使得机器人通过VLM直接理解某些常识,即通过自然语言指令就获得某些技能。也就是说,曾经需要数百次演示的新技能,只需用自然语言与机器人交谈就可以立即获得。
图片
如图表3所示,Helix是同类产品中首个“系统1,系统2”的VLA模型,两个系统有点类似于人类的快思考和慢思考,一直以来,VLM是通用的,但不是快速的,就像人类的慢思考,依靠理性,而机器人视觉运动策略是快速的,但不是通用的,如同人类基于直觉的快思考。Helix 通过两个互补的系统来解决这种权衡,这些系统经过端到端训练以进行通信。具体如下:
系统2:一种经过训练的VLM,参数量70亿,以 7-9 Hz 的频率运行,用于场景理解和语言理解,实现跨对象和上下文的广泛泛化。主要负责决策部分。
系统1:一种快速反应的视觉运动策略,参数量0.8亿,可将 S2 产生的潜在语义表示转化为 200 Hz 的精确连续机器人动作。主要负责动作的输出。
系统2 中的VLM 基于互联网大规模数据进行预训练。它将机器人收到图像和状态信息(包括手腕姿势和手指位置)投影到视觉语言嵌入空间后对其进行处理。结合指定所需行为的自然语言命令,S2 将所有语义任务相关信息提取到单个连续的潜在向量中,传递给 S1 以调节其动作。
系统1中的架构基于一个完全卷积的、多尺度的视觉主干进行视觉处理,虽然 S1 接收与 S2 相同的图像和状态输入,但它以更高的频率处理它们(20HZ),以实现更灵敏的闭环控制。来自 S2 的潜在向量被投射到 S1 的标记空间中,并与来自 S1 视觉主干的视觉特征沿序列维度连接,提供任务调节。最后以200Hz 的频率输出完整的上半身人形控制,包括所需的手腕姿势、手指屈曲和外展控制,以及躯干和头部方向目标。
实际上,Helix的训练非常高效,Helix 以非常少的资源实现了强大的对象泛化。总共用 500 小时的高质量监督数据就完成了Helix的高度泛化能力,这只是以前收集的 VLA 数据集大小的一小部分 (<5%)。
图片
这一套系统使得Helix能够表现出很多异于一般模型的能力:
1)多机器人协作:图表4显示了两个 Figure 机器人之间的协作。两个机器人都使用相同的 Helix 模型权重运行,无需特定于充当的角色进行模型权重的微调,它们通过自然语言提示实现协调,例如“将饼干袋交给您右侧的机器人”或“从您左侧的机器人那里接收饼干袋并将其放入打开的抽屉中”。这标志着多个机器人通过VLA实现协作的可能。
2)Pick up everything: 图表5中显示了Helix的较强的对象泛化能力,配备 Helix 的 Figure 机器人可以通过简单的“捡起”命令拾取几乎任何小型家用物体。这在机器人于家务中的应用上非常重要,在系统测试中,机器人成功地处理了数千件杂乱无章的新物品——从玻璃器皿和玩具到工具和衣服——无需任何事先演示或定制编程。表现出了极强的对象泛化能力。
因此,Helix展现出了人形机器人可以具有近乎人类的环境适应性,同时继Deepseek之后又一次对scaling law产生了颠覆。
风险提示:
北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;下游需求不及预期影响公司正常生产和交付,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。


08 智元推出首个4D世界模型,OpenAI重点布局机器人

1.1 智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。然而,现有的机器人动作规划方法常常面临着一些问题。比如,其常常由于缺乏对于动态操作空间的理解以及在处理一些长序任务时的记忆处理能力有所欠缺。同时,在机器人动作预测中构建出来的基于2D视频生成的world model难以准确表达复杂的3D关系。
针对上述难题,智元机器人团队提出了 EnerVerse 架构,通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务,在这个过程中同时具有对动态操作空间的理解能力。同时创新性地引入了自由锚定视角(Free Anchor View, FAV)和稀疏记忆机制(Sparse Memory)。这个架构可以为机器人未来动作的预测提供一个4D的全视角world model同时优化其记忆处理能力。
图片
在图表1中,我们可以看出EnerVerse的视频生成的大致过程,首先在根据观察输入初始构建出多视角的空间,之后对于这个多视角的空间进行渲染,使得其仿真度更高,接近现实世界,再将这个多角度空间的图像输入右方的多视角扩散生成器,同时给出任务指令(倒茶),便可以生成下一时刻的各个角度的预测图像,借此可以预测机器人的动作进而辅助其进行动作规划策略的构建。
EnerVerse 的亮点在于其可以通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角(FAV)方法,解决上文中提到的一系列问题。
对于逐块扩散生成(Next Chunk Diffusion),EnerVerse 采用逐块生成的自回归扩散模型,通过逐步生成未来具身空间来引导机器人动作规划。同时可以使得机器人具有一定对动态操作空间的理解能力。
对于这个自回归扩散模型,如图表2所示,左侧为多视角的扩散生成板块,我们首先输入在i时刻来自相机的图像和对应的光线方向图,分离噪音和观察图像(Obs, Image Latent),然后通过2D和3D卷积提取图像特征,之后模型使用空间注意力(Spatial Attent)和时间注意力(Temporal Attent)来处理图像特征,以更好地理解图像内容和时间序列信息。经过扩散生成i+1时刻的图像,经过渲染生成对i+1时刻的预测图片(Render, Image Latent),再将其输入生成器,不断迭代生成预测视频。
右侧为分块的自回归的训练过程。首先在上半的训练阶段中,从观察视频中随机提取关键帧输入扩散生成器,同时输入目标图像(一般是关键帧的后续帧),通过将生成的图像和目标图像进行对比预测噪声(Prod. Noise),并通过噪声度量损失,通过损失最小化这一目标实现训练。
下半部分为生成器的运用,通过向其中输入i时刻的观察图像(Obs. Image Latent)和目标图像(i+1时刻)以及噪声生成预测图像(i+2时刻),在下一个迭代中,将原来的目标图像作为观察图像,预测图像作为目标图像进而预测i+3时刻的图像,迭代即可生成预测视频,具有对于动态操作空间的理解能力。
图片
对于灵活4D生成(FAV),EnerVers针对具身操作中复杂遮挡环境和多视角需求,提出了自由锚定视角(FAV)方法,以灵活表达 4D 空间。其核心优势包括:
1)自由设定视角:FAV 支持动态调整锚定视角,克服固定多视角(fixed multi-anchor view)在狭窄场景中的局限性。例如,在厨房等场景中,FAV 可轻松适应动态遮挡关系。
2)跨视角空间一致性:基于光线投射原理(ray casting),EnerVerse 通过视线方向图(ray direction map)作为视角控制条件,并将 2D 空间注意力扩展为跨视角的 3D 空间注意力(cross-view spatial attention),确保生成视频的几何一致性。
3)Sim2Real 适配:通过在仿真数据上训练的 4D 生成模型(EnerVerse-D)与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代,EnerVerse 构建了一个数据飞轮,为真实场景下的 FAV 生成提供伪真值支持。
其流程如下图(图表3)所示,对于取吐司这个任务,我们首先向生成器中输入摄像机捕捉到的观察视频,之后生成器可以生成另外一个视角的模拟视频以及此视角下的模拟视频,通过4D高斯散射(4D Gaussian Splatting)和4DGS优化可以优化生成的图像,使其更接近真实情况。对其渲染后将另一个视频的模拟视频一同输入生成器生成新视角的模拟视频,迭代即可生成全方位的自由锚定视频。
图片
在实现高效动作规划方面,EnerVerse 通过在生成网络下游集成 Diffusion 策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。其关键设计包括:1)高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。2)稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的 FAV 观测结果,使得机器人能够即时舍弃无用记忆以减少内存消耗,有效提升长程任务规划能力。
在各项实验中,EnerVerse表现出了优良的性能。视频生成方面,EnerVerse在长短程视频的生成任务中都表现优秀,在短程生成任务中,EnerVerse 表现优于现有微调视频生成模型,如基于 DynamiCrafter 与 FreeNoise 的扩散模型。在长程生成任务中,EnerVerse 展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。此外,EnerVerse 在 LIBERO 仿真场景和 AgiBot World 真实场景中生成的多视角视频质量也得到了充分验证。
在动作规划方面,在 LIBERO 基准测试中,EnerVerse 在机器人动作规划任务中取得显著优势,在单视角(one FAV)设定下,EnerVerse 在 LIBERO 四类任务中的平均成功率已超过现有方法。在多视角(three FAV)设定下则进一步提升任务成功率,在每一类任务上均超越当前最佳方法。表现出了自由锚定视角这一特性对于机器人动作规划训练的重要性。
图片
在消融与训练策略分析中,研究人员发现:稀疏记忆对长程序列生成的逻辑合理性及长程动作预测精度至关重要。同时,先进行未来空间生成训练,再进行动作预测训练的二阶段策略,可显著提升动作规划性能。
在注意力方面,研究人员可视化了Diffusion 策略头中的交叉注意力模块,如下图(图表5)所示,纵轴表示动作空间的注意力,横轴表示未来空间的注意力,不同的图片代表不同的策略头以及图层。研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。说明不会出现同一时间预测场景与动作出现偏离的情况。
图片
智元机器人通过 EnerVerse 架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划,EnerVerse 不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。
1.2 OpenAI被曝重组机器人团队:重回硬件布局
1月初的 CES 大会,黄仁勋在演讲中提到,机器人领域的「ChatGPT 时刻」即将到来,机器人即将迎来腾飞,如果说大语言模型定义了当前的 AI 浪潮,那么下一波浪潮的主角有可能是机器人。AI 将从纯粹的语言理解,进化到对物理世界的深度认知。机器人作为其载体,可能产生一定变化。
近期,据外媒 Tech Crunch 报道,OpenAI 正在重组其机器人团队。这一消息来自 OpenAI 硬件部门的总监的社交媒体动态和最新发布的招聘信息。此次招聘的共有三个岗位,分别是:
1)电子感知工程师:负责设计设计和开发机器人传感器系统,年薪 36-44 万美元。
2)机器人机械设计工程师:负责设计机器人的核心机械系统,年薪 36-44 万美元。
3)技术项目经理:负责统筹产品开发全流程,建立和管理机器人训练实验室,协调各技术团队,确保设计阶段顺利推进,年薪 34-44 万美元。
图片
OpenAI 的目标在长久以来一直都是开发「通用」、「自适应」和「多功能」的机器人,即能在真实世界中展现接近人类的智能。为此,硬件团队将专注于自主开发传感器和计算组件,并由自主研发的 AI 模型驱动,形成一条自给自足的产业链,最大程度上发挥经营协同效应。据 The Information 报道,OpenAI 已在探索人形机器人的研发,更已着眼未来量产的可能,正在招募具有「百万级量产机械系统经验」的工程师。这些举措显示出OpenAI可能正在进行策略上的转变。
实际上,OpenAI 重返机器人领域早有苗头。去年 11 月,从 Meta 的 AR 眼镜部门跳槽到 OpenAI 来负责硬件部门的 Caitlin Kalinowski 便已在 X 平台透露,OpenAI 将开发配备定制传感器的机器人。
过去两年中,OpenAI便已经表现出了机器人领域的青睐。其在机器人领域「广撒网」,对多家主推机器人(尤其是人形机器人)的公司进行了投资,其内部创业基金投资了几家人形机器人公司。例如,在2023 年 3 月,投资了来自挪威的人形机器人公司 1X Technologies(融资 1.25 亿美元)。在2024 年 2 月 29 日投资了Figure,一家硅谷著名具身智能创业公司,并助其融资 7.45 亿美元。在当时 Figure 融资新闻发布会上,OpenAI 就暗示了可能重启机器人项目。
虽然 Kalinowski 称,这是 OpenAI 首次发布机器人硬件相关职位,但这并非 OpenAI 首次涉足机器人领域。要知道,机器人曾经是OpenAI的“老本行”。机器人研发是 OpenAI 创立之初的重要使命之一。OpenAI 的联合创始人 Wojciech Zaremba 当时带领一支团队,专注于研发「通用机器人」。
2017 年 5 月,OpenAI 推出了开源软件 Roboschool,用于在模拟环境中操控机器人。这一年,OpenAI 还宣布成功开发出一套系统,可以从模拟训练直接迁移到实体机器人,只需一次学习就能掌握新任务。2018 年,灵活机械手可以操作小木块。2019年实现机器人单手还原魔方。
图片
OpenAI 的机器人团队取得了不错的进展,但 2020 年 10 月,OpenAI 以缺乏足够的训练数据为由,悄然解散了机器人团队。OpenAI 发布的声明称:「鉴于 AI 技术和能力的迅猛发展,我们发现其他途径(如基于人类反馈的强化学习)能让研究进展更快。」这一举措在当时来看,背后主要有两方面的理由:
1)机器人研发在当时看来投入产出比不高:Zaremba 在访谈中表示,OpenAI 的联合创始人们,包括 Greg Brockman、前首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和 Sam Altman 都是 Scaling Law 的拥趸。他们相信,巨大的计算能力是通向 AGI 的必经之路,而强大的计算机结合强化学习、预训练等技术可以实现突破性的 AI 进展。
2)资金耗费:同时资金短缺也是一个重要原因。机器人研发成本耗费较高,因此机器人行业没少经历「寒潮」:工业机器人公司 Rethink Robotics 未能成功寻找收购方后,几个月便关闭了门店。被认为是最先进的机器人公司的 Boston Dynamics 成为了「烫手山芋」,先后被谷歌收购,然后卖给软银,最后现代同意以 11 亿美元收购控股权。连本田也暂停了耕耘十余年的 Asimo 机器人项目。
风险提示:
北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期。主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。


09 人工智能2025年投资策略报告:算力为基,自主可控大势所趋,Agent及B端应用崛起

人形机器人是一种相对较新的服务机器人,其形状与尺寸与人体相似,能够模仿人类运动、表情、动作,以及行为特征,有时甚至可以与人类进行交互,或执行一些特定任务。它可以应用在各种领域,比如娱乐、接待、教育、医疗,以及助老护理等,也可以提供社交陪伴,或者执行危险或重复性高的工作。相较于工业机器人,人形机器人具有更智能、更灵活、更多元等特点。在社会各界的赋能下,随着技术的升级及产业形态的发展,人形机器人有望渗透进入服务业、制造业等应用领域,市场潜力或将加速释放。
中国政府高度重视人形机器人的发展,并将其列为重点支持的战略性新兴产业之一。2023年9月13日,工业和信息化部印发《关于组织开展2023年未来产业创新任务揭榜挂帅工作的通知》,面向元宇宙、人形机器人、脑机接口、通用人工智能4个重点方向提出了2025年的具体目标,为人形机器人的发展提供了有力支持,也为整个科技产业的进步注入了新的活力。
人形机器人大模型应用取得显著进展。2024 年 3 月,英伟达发布人形机器人基础大模型GR00T,将推进机器人在具身智能方面的突破进展。该模型采用语言、视频、人类示教等多模态指令作为输入,直接生成机器人需要执行的下一个动作,搭载全新计算平台Jetson Thor,在模拟环境的对GR00T进行训练。大模型通过学习人类视频,学习人类动作,提升动作流畅性与拟人性,真正实现人机交互,提升其智能性。基于GR00T人型机器人基础模型,可以实现通过语言、视频和人类演示,来理解自然语言,模仿人类动作,进而快速学习协调性、灵活性以及其他的技能,进而能够融入现实世界并与人类进行互动。
图片
人形机器人Walker S集六大AI技术于一身,搭载高性能伺服关节以及多维力觉、多目立体视觉、全向听觉和惯性、测距等全方位的感知系统;全面升级视觉定位导航和手眼协调操作技术,自主运动及决策能力大幅提高,实现平稳快速的行走和精准安全的交互,可在多种场景下提供智能化、有温度的服务。
风险提示:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;大模型算法更新迭代效果不及预期,可能会影响大模型演进及拓展,进而会影响其商业化落地等;汽车与工业智能化进展不及预期等。



10 特斯拉领衔,人形机器人的从1到N——人形机器人行业研究方法论

核心观点:回顾人形机器人整体行情,人形机器人指数涨跌主要受重要行业事件催化和特斯拉机器人进展影响,主要行情包含5个阶段。2022年5月,马斯克宣布进军人形机器人行业,引发首轮行情;2023年5月特斯拉公布Optimus最新进展,黄仁勋提出“具身智能”概念,AI大模型相继推出,引发机器人整体板块式行情;2023年11月,特斯拉公布技术方案变化,伴有行走测试预期,国内人形机器人创新中心成立,引发丝杠等细分环节收敛行情。经过两年发展,目前人形机器人行业处于从1到N的量产阶段,我们认为特斯拉机器人量产进度、AI大模型更迭代、海内外人形机器人产业化落地进程仍然是核心影响因素。

人形机器人复杂程度是机器人之最,由电机、减速器、丝杠、传感器等核心零部件组成,海外厂商起步较早,国内企业性能逐步赶上。

区别与传统工业机器人,人形机器人结构更为复杂,电机、减速器、丝杠等核心零部件使用数量更多,要求更高。①电机:无框力矩电机、空心杯电机常用于人形机器人,未来技术路线将重点突破高功率、高扭矩密度、高过载需求;②减速器:谐波减速器、行星减速器常用于人形机器人,但专用于人形机器人的高精度、大减速比,小体积,轻质量的减速器仍有提升空间;③丝杠:回顾历史,丝杠在人形机器人使用较少,主要系价格昂贵,缺少机器人专用丝杠型号,随着国产企业相继突破技术瓶颈,未来性价比更高、效率更高的人形机器人专用丝杠有望打开市场空间;④一体化关节:未来具备高功率密度、高精度、高爆发力的一体化关节将是主流零部件趋势之一,为机器人提供稳定的硬件基础。

海内外多家人形机器人相继进入工厂实训,特斯拉表示明年将有上千台机器人在特斯拉工厂工作,人形机器人从1到N渐行渐近

特斯拉表示,明年将有上千台人形机器人进入工厂工作;Figure机器人在宝马工厂进行实训,完成物料搬运等工作;美国Digit机器人在亚马逊进行物料搬运,机器人执行任务时实现100%自主性,任务完成成功率高达97%;国内机器人今年相继进入工厂实训,优必选、宇树等公司在新能源汽车厂开始实训工作,目前可以完成质检、贴车标等简单工作。

看好国内一体化关节、龙头减速器、龙头电机企业受益于机器人量产放量,建议关注丝杠企业在技术上的突破和和送样进展。六维力、触觉传感器作为降本诉求最强的环节之一,看好国内企业实现技术突破+价格优势明显+服务灵活性更高等优势。

风险提示:1)宏观经济下滑超预期:人形机器人行业发展受宏观经济波动影响较大,若未来宏观经济景气度下行,下游行业投资放缓,会影响机器人产业链的发展环境和市场需求。2)技术迭代不及预期:目前人形机器人领域仍面临较多困难和挑战,若未来技术迭代不及预期,导致成本下降幅度较慢,对产业链相关公司以及整个行业造成不利影响。3)市场竞争加剧风险:随着越来越多的企业涌入人形机器人赛道,行业竞争激烈,若相关企业加快研发进展和应用布局,市场竞争程度进一步加剧,会影响目前行业内企业的增长。

宇树科技、小米人形机器人、乐聚机器人等相关负责人也将参与,就人形机器人关键技术瓶颈与突破路径、人形机器人应用场景的深度挖掘与落脚难点等展开讨论。
01 云程发轫,万里可期——北京人形机器人与具身智能产业大会观后感

第二届中国人形机器人与具身智能产业大会4月15-16日在北京成功举办,大会集结了45家人形机器人与具身智能头部企业和供应链企业,人形机器人产业发展迅猛,硬件端产品呈现百花齐放之姿,本体、灵巧手、核心零部件等产品涌现。软件端具身智能仍处于前期阶段,数据成为现阶段发展瓶颈。我们认为当下人形机器人仍面临商业化落地挑战,核心原因在于:1、大规模应用场景不足和功能相对简单、泛化能力不强。2、成本问题。短期建议关注人形机器人硬件降本进展和应用场景实际落地节奏。长期来看,大模型+具身智能或成为人形机器人胜负手,建议关注具身智能领先的人形机器人本体厂商及其产业链。
415-16日,第二届中国人形机器人与具身智能产业大会在北京成功举办,大会集结了45家人形机器人与具身智能头部企业和供应链企业。通过本次大会,我们看到人形机器人产业发展迅猛,硬件端产品呈现百花齐放之姿,人形机器人本体、灵巧手、核心零部件产品涌现。但软件端,具身智能仍处于前期阶段,数据成为现阶段发展瓶颈。

硬件端:人形机器人本体、灵巧手、核心零部件产品涌现。魔法原子、乐聚机器人、天链机器人、星动纪元、宇树科技、NOETIX等厂商人形机器人产品亮相,但从现场演示来看,多款产品运控能力欠佳。灵心巧手、因时机器人、灵巧智能、星动纪元、中科硅纪等企业展出灵巧手产品,种类多样,各有特色。核心零部件方面,他山科技、坤维科技、宇立仪器、蓝点触控等企业参展。

软件端:数据成为限制具身智能发展的核心瓶颈。目前人形机器人在移动和操作能力上具备一定智能,但通用性不足,需要具身智能赋能实现多动作泛化、复杂决策和人机交互能力。具身智能发展需要海量数据进行训练,但仍面临数据瓶颈(实机数据采集成本高+仿真数据质量难以保障),虚实数据相结合成为未来发展方向。

人形机器人硬件发展如火如荼,也面临重要挑战。1、人形机器人面临大规模应用场景不足和功能相对简单、泛化能力不强两大困难。2、人形机器人商业化还面临成本问题目前很难达到未来10万元的目标,硬件层面也需要进行降本。

建议关注行业硬件降本进展和应用场景实际落地节奏。长期来看,大模型+具身智能或成为人形机器人胜负手,建议关注具身智能领先的人形机器人本体厂商及其产业链。

风险提示:

1)需求方面:国家基建政策变化导致电源投资规模不及预期;电网投资规模不及预期;新能源装机增速下降导致对电力设备需求下降;全社会用电量增速下降等;两网招标进度不及预期;特高压建设推进进度不及预期等。

2)供给方面:铜资源、钢铁等大宗商品价格上涨;电力电子器件供给紧张,国产化进度不及预期。

3)政策方面:新型电力市场相关支持力度不及预期;电价机制推进进度低于预期;电力现货市场推进进度不及预期;电力峰谷价差不及预期等。

4)国际形势方面:能源危机较快缓解、能源价格较快下跌;国际贸易壁垒加深等。

5)市场方面:竞争格局大幅变动;竞争加剧导致电力设备各环节盈利能力低于预期;运输等费用上涨。

6)技术方面:技术降本进度低于预期;技术可靠性难以进一步提升等。


02 AI+机器人:四维度再思考产业特征和市场节奏

核心观点:当前AI和机器人产业正处于从0-1向1-10跨越转换的关键时刻,商业化落地有望开启景气主线行情,核心关注渗透率指标,市场焦点或将转向业绩兑现。综合考虑产业优势结合应用前景,AI和机器人行情高度应不亚于前。当前市场仍然缺乏显著增量资金,短周期快速波动或取代A字大幅波动。向后展望,ETF可能是下一轮主力资金,同时有望推升龙头;2月中国股市流入百亿美元,全球资金回流CN资产值得期待。行情节奏方面,早期阶段若估值/仓位/交易热度过高,可能对继续上涨形成一定的阻力,存量资金博弈下,交易热度指标有效性高,此外近期还需关注其他宏观变化可能导致市场主线转向。

行情定位:0-1阶段概念先行,市场呈现交易性行情;1-10阶段商业化落地,渗透率快速提升行情随之启动,形成真正的产业趋势市场主线,渗透率放缓往往是行情结束的重要标志。当前AI和机器人产业正处于跨越“1”的关键时刻,市场焦点或将转向业绩兑现,行情由主题映射走向基本面驱动,后续关注AI应用落地和机器人本体进展情况。

产业特征:本轮AI+机器人与此前互联网+新能源的产业共性之一在于,庞大的C端用户基础带来丰富的应用场景,并且提供了高容量的试错空间,允许布局多种技术路线,成为产业竞争力的关键之一。移动互联网A股面临缺乏核心标的的问题,AI此前同样面临算力卡脖子的局面,但这一现象有望被Deepseek重构。中国几乎拥有机器人产业链全环节,并从新能源车获得技术继承,有望充分发挥中国制造优势,降本增效实现快速渗透,但需注意产能过快扩张的风险。产业优势结合应用前景,AI和机器人行情高度应不亚于前。

资金环境:当前仍然缺乏显著增量资金,与此同时以两融为代表的散户游资力量活跃,叠加信息传播和市场学习效率提升,短周期快速波动或取代A字大幅波动。向后展望,ETF虽然今年尚未发力,但可能是下一轮主力资金,同时有望推升龙头,中期维度保持关注;2月中国股市流入百亿美元,全球资金回流CN资产值得期待;险资虽有可观增量,但主要去往大盘/红利/南向等方向;主动型公募仍然存在较大赎回压力,重仓股谨慎对待。

市场节奏:1)早期阶段估值仓位交易热度过高;2)历史经验关注渗透率超过30-50%的临界点;3)下游终端产品放量贡献业绩后投资者可能抢先兑现离场;4)行业产能或某些环节投资过剩;5)新技术诞生;6)流动性环境剧烈变化;7)其他宏观变化。

风险提示:新兴技术发展存在不确定性,关键技术突破存在门槛,下游应用场景落地和业绩兑现情况可能不及预期;产业属性存在差异,产业规律或存在适用性限制,历史规律可能出现失效;海外局势动荡,地缘政治冲突问题尚未完全解除,美国欧洲等发达国家可能面临衰退风险;美国对华政策存在超预期风险,可能进一步加强对华科技封锁;国内宏观经济、宏观调控政策和产业政策存在超预期波动的可能性。


03 重点推荐顺周期低估值,人形机器人关注T进展和巨头入局

人形机器人:特斯拉产业链关注度提升,腾讯、英伟达等巨头入局有望进一步加速行业发展。本周特斯拉进一步明确2025-2026年Optimus量产预期,与产业链进展节奏相匹配。同时,我们也关注到家电龙头美的、海尔等积极布局人形机器人赛道,进一步探索终端应用落地。2025年人形机器人行业处于爆发式增长的量产元年,来自于主机厂的量产推进、新品发布、大模型更新等催化不断,产业链积极推进零部件性能升级和成本降低,产业发展趋势愈发明朗。同时,以腾讯、英伟达等巨头为代表的企业,有望从云计算、大模型等维度赋能机器人行业发展,进一步加速具身智能应用,并让产业链分工更为明晰。

人形机器人

(1)家电龙头美的、海尔在人形机器人领域积极布局。①美的:本周美的集团研发的人形机器人首次曝光,视频中机器人可以完成递水、跳舞等动作。美的机器人主要分两大块,一块是家电机器人化,在家电产品中融入AI、机器人的技术;另一块聚焦人形机器人的整机开发,同时深挖应用场景,探索在B端的落地场景。②海尔:3月20日,海尔家庭机器人与星动纪元在上海举行了战略签约仪式。此次合作标志着AI智慧家庭与服务机器人的深度融合,双方将携手共同推出基于智慧家庭场景的服务机器人,加速AI智慧家庭生态创新发展。

(2)特斯拉进一步明确量产预期,人形机器人产业化趋势明朗。北京时间3月21日,特斯拉召开全员大会,马斯克表示Optimus将于今年投入生产。特斯拉今年目标生产5000台Optimus,且已订购的零部件足够支撑今年生产10000-12000台,2026年目标生产50000台Optimus,并将于2026年下半年对特斯拉以外的市场开放。马斯克认为,Optimus将成为有史以来规模最大的产品,甚至可能比其他任何产品规模大10倍。未来特斯拉一年有望生产数以千万计的机器人,甚至达到一年一亿台。

(3)腾讯、英伟达入局有望进一步加速机器人行业发展。①腾讯:腾讯董事会主席兼首席执行官马化腾在业绩会上表示,去年腾讯机器人实验室Robotics X调整了研究方向,主攻腾讯擅长的云、大数据等;他表示,腾讯希望成为所有机器人厂商的合作伙伴,而不是取而代之做硬件。②英伟达:在2025年GTC大会上,英伟达推出人形机器人基础模型等技术,以加速机器人开发。英伟达宣布将开源NVIDIA Isaac GR00T N1,该模型被描述为“全球首个开放、完全可定制的通用人形推理和技能基础模型”。

我们的观点:本周市场对于特斯拉人形机器人产业链关注度提升,特斯拉进一步明确2025-2026年Optimus量产预期,与产业链进展节奏相匹配。同时,我们也关注到家电龙头美的、海尔等积极布局人形机器人赛道,进一步探索终端应用落地。2025年人形机器人行业处于爆发式增长的量产元年,来自于主机厂的量产推进、新品发布、大模型更新等催化不断,产业链积极推进零部件性能升级和成本降低,产业发展趋势愈发明朗。同时,以腾讯、英伟达等巨头为代表的企业,有望从云计算、大模型等维度赋能机器人行业发展,进一步加速具身智能应用,并让产业链分工更为明晰。

风险提示:

(1)国内宏观经济波动的风险:机械是典型的中游资本品行业,承上启下,与宏观经济波动密切相关,如果国内宏观政策出现重大转向,势必会影响机械行业总体需求。

(2)海外市场波动的风险:中国企业出海不可能一帆风顺,未来的征程势必会出现各种各样的摩擦,是阶段性的小插曲还是新趋势形成,需要审慎判断。

(3)下游扩产不及预期的风险:若下游行业扩产不及预期,则相应的设备需求将会下降,会对行业内公司订单、业绩等造成不利影响。


04 智元发布通用具身基座大模型GO-1和机器人灵犀X2,模型迭代加速具身智能发展

智元机器人发布通用具身基座模型——智元启元大模型(Genie Operator-1),开创性提出了ViLLA架构,实现了可以利用人类视频学习,完成小样本快速泛化,提升了机器人学习能力,结合此前发布的开源百万真机数据集AgiBotWorld,将降低具身智能门槛,有望加速具身智能的普及。此外,公司推出灵犀X2机器人,模块化设计能力提升,且在运动控制、交互能力方面表现优异。人形机器人厂商模型持续迭代,软硬件能力持续升级,将进一步打开人形机器人应用场景的想象空间,加速产业化发展。

发布通用具身基座大模型GO-1,创新架构提高机器人学习能力

2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),开创性地提出了Vision-Language-Latent-Action (ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化,实现一脑多形并持续进化,结合公司此前发布的开源百万真机数据集AgiBotWorld,将降低具身智能门槛,促进机器人向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,加速具身智能的落地应用。

发布灵犀X2机器人,运动控制、交互能力表现亮眼

2025年3月11日,智元机器人在全网多个平台发布视频,推出灵犀X2机器人,其模块化设计能力突出。更值得关注的是,X2通过结合深度强化学习和模仿学习算法的优势,不仅可以像人一样走路,还可以奔跑、旋转、跳舞,甚至实现骑自行车等复杂动作,运动控制效果优异。此外,灵犀X2可实现复杂的交互能力,拥有毫秒级的交互反应,视频中与人类沟通交流流畅自然。

人形机器人产业链梳理:随着国内外人形机器人厂商2025年分别逐步启动几千台或者万台的量产计划,2026年预期分别数万台或者10万台的量产计划,我们建议核心关注具备零部件低价批量供应能力的企业,以及具备技术或者产业链卡位优势的企业。

一、智元机器人自成立以来发展迅速,已实现通用具身机器人量产

上海智元新创技术有限公司(以下简称“智元机器人”)成立于2023年2月,是一家致力于以AI+机器人的融合创新、打造世界级领先的具身智能机器人产品及应用生态的创新企业。

2023年4月,公司设立上海总部;6月设立北京算法中心;同年8月18日,正式发布远征A1智能机器人。

2024年1月,公司建立全国首个机器人制造工厂;同年8月18日,智元机器人发布“远征”与“灵犀”两大系列共五款商用人形机器人新品;9月,4000平数采工厂建立;10月24日,智元灵犀X1面向全球正式开源;12月16日,智元机器人发布视频称开启通用机器人商用量产;12月30日,智元发布百万真机数据集开源项目AgiBot World。

2025年1月6日,智元机器人量产的第1000台通用具身机器人正式下线;3月10日,智元发布首个通用具身基座大模型GO-1。

从人形机器人新品发布以及量产节奏来看,智元机器人发展迅速,处于行业领先身位。2024年11月,智元机器人入选《2024福布斯中国创新力企业50强》,其创新属性备受认可。

图片

公司创始团队具有丰富的技术背景和产业资源。智元机器人的创始团队包括“稚晖君”彭志辉在内的多位业内资深人士,成员背景综合互补,具有深厚的核心技术背景、产业管理经验和产业资源。其核心人员彭志辉,拥有华为“天才少年”的背景,在AI和机器人领域具备深厚的技术积累,主要负责人形机器人的智能算法、感知、认知和决策等方面的研发工作。另一位核心人物是上海交通大学博士生导师、上海人工智能研究院首席科学家、上海智元新创技术有限公司联合创始人闫维新,主要负责人形机器人的机械结构设计、运动控制等硬件方面的研发工作。

公司上市以来经历多轮融资,获得诸多资本方的认可。作为新兴的人形机器人初创公司,公司在成立的2年多时间内完成了多次融资。2023年3月,智元机器人完成天使轮融资;根据企查查数据,2023年公司又陆续完成了A、A+、A++、A+++轮融资,并于2024年又陆续完成了3轮融资。智元机器人吸引了包括高瓴创投、奇绩创坛、鼎晖投资、高榕资本、红杉中国、比亚迪等众多知名投资机构的投资。

图片

2023年8月智元发布第一代通用型具身智能机器人原型机远征A1。远征A1机器人基于创始团队在机器人和AI行业多年的经验积累在半年内打造,这款机器人未来将可以在各种复杂场景下自主完成移动和操作任务。同时,智元公布其自研的一系列核心组件及其技术指标,包括核心关节电机PowerFlow、灵巧手SkillHand、统一软件框架AgiROS、语言任务模型WorkGPT、具身智脑EI-Brain等。

图片

2024年8月智元发布远征、灵犀两大系列共5款机器人,覆盖不同场景。2024年度新品发布会中,公司发布了“远征”系列3款机器人,包括交互服务机器人智元远征A2、柔性智造机器人远征A2-W、重载特种机器人远征A2-Max;“灵犀”系列2款机器人,包括全栈开源机器人灵犀X1、专业数采机器人灵犀X1-W,多种机器人覆盖了不同应用场景,整体软硬件能力持续提升。2025年1月6日,智元量产的通用具身机器人累计下线1000台,包括731套双足人形机器人(远征A2/灵犀X1)、269套轮式通用机器人(远征A2-D/A2-W)。

图片

二、发布通用具身基座大模型GO-1,创新架构提高机器人学习能力

2025年3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。

GO-1大模型吸纳多维度数据,有望加速具身智能的普及。目前通用机器人大模型所需数据量极为庞大、且数据获取难度高,导致短期内通用机器人难以采集足够数量的真机数据用于大模型训练;同时,常规的VLA架构也难以利用大规模人类以及跨本体操作视频数据,目前业界主要采用仿真数据和互联网的图文数据以训练机器人。而GO-1大模型则吸纳了各种维度和类型的数据,将增强模型对人类行为的理解,并明显降低训练成本,加速具身智能的普及。

图片

2024年底智元推出开源百万真机数据集AgiBotWorld,数据质量达到工业级标准。2024年底,智元推出了AgiBotWorld,这是包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集;是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。相比Google开源的Open X-Embodiment数据集,AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。AgiBot World数据集中涵盖的场景具备多样化和多元化特点,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等复杂动作,几乎涵盖了人类日常生活所需的绝大多数场景,该数据集的数据精度和涵盖面处于业内领先地位。

图片

2025年3月智元启元大模型GO-1正式发布,提出ViLLA创新性架构。2025年3月10日,智元机器人正式发布其首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1)。为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了Vision-Language-Latent-Action (ViLLA) 这一创新性架构,GO-1即基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟,在真实世界的灵巧操作和长时任务方面表现卓越。

图片

ViLLA架构由VLM(多模态大模型) + MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

在推理时,VLM、Latent Planner和Action Expert三者协同工作:①VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;②Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;③Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列。

图片

GO-1大模型将显著提高机器人的学习能力。GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

GO-1大模型的特点主要包括:

①人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

②小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

③一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

④持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

GO-1大模型的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进。①从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练;②从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境;③从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

GO-1大模型将提高机器人的学习能力,加速具身智能的普及。GO-1是通用具身基座大模型,不局限于机器人的具体型号、适用场景、预设指令,具备较好的泛化能力。机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,加速具身智能的落地应用。

三、发布灵犀X2机器人,运动控制、交互能力表现亮眼

2025年3月11日,智元机器人在全网多个平台发布视频,推出灵犀X2机器人。

灵犀X2模块化设计能力突出。智元把机器人的硬件系统抽象出了一系列可复用的核心组件,小脑控制器Xyber-Edge、域控制器Xyber-DCU、智能电源管理系统Xyber-BMS,以及核心关节模组PowerFlow,通过这些组件可以快速搭建一套完整的人形机器人系统,模块化设计能力突出。灵犀X2机体选择柔性材料,原型机全身28个自由度中,没有使用并联结构,既能够保证惯量上移,又实现了传动链的完全解耦。

运控算法持续突破,灵犀X2可完成骑自行车等复杂动作。当前足式机器人的运动控制已经全面从传统的model-based转向learning驱动的强化学习,智元通过结合深度强化学习和模仿学习算法的优势,使得X2不仅可以像人一样走路,还可以奔跑、旋转、跳舞,甚至实现骑自行车等复杂动作,运动控制效果优异。

图片

灵犀X2可实现复杂的交互能力,拥有毫秒级的交互反应。借助目前大语言模型技术,智元为X2训练定制了多模态交互大模型硅光动语,在此基础上,通过边缘侧大脑端到端的模型架构以及大量的工程优化,让机器人拥有了毫秒级的交互反应,视频中灵犀X2可以和人类流畅交流、自然互动。同时,除了耳朵和嘴巴,基于VLM的硅光动语多模态模型,也赋予了X2通过视觉理解和认知世界的能力。

智元将操作智能的能力迁移到了X2。灵犀X2本体支持很好的柔性阻抗控制,可以装配包括灵巧手在内的各种末端,也具备精细操作的能力。此外,启元大模型使得X2初步具备了简单任务中对操作物体的零样本泛化能力,并可以在某些任务中实现多机协作。

智元对于灵犀X2的定位是支持高自由度运动能力的双足人形机器人、搭载情感计算引擎的智能交互机器人,以及初步具备通用任务执行能力的具身机器人,未来有望在家庭服务等多个场景得到应用。

四、人形机器人产业链梳理

智元发布通用具身基座模型——智元启元大模型(Genie Operator-1),开创性提出了ViLLA架构,实现了可以利用人类视频学习,完成小样本快速泛化,提升了机器人学习能力,降低了具身智能门槛,有望加速具身智能的普及。同时,公司灵犀X2机器人在运动控制、交互能力方面表现优异,也让我们看到了人形机器人主机厂在软硬件方面的快速进步,将不断打开人形机器人应用场景的想象空间。

随着国内外人形机器人厂商2025年分别逐步启动几千台或者万台的量产计划,2026年预期分别数万台或者10万台的量产计划,我们建议核心关注具备零部件低价批量供应能力的企业,以及具备技术或者产业链卡位优势的企业。

风险提示:

(1)AI发展放缓风险:无论是具身智能还是其中人形机器人的商业化落地进展,都依赖AI的持续发展完善,如果AI发展放缓甚至出现停滞,那么将影响具身智能与人形机器人的产业化进程。

(2)宏观经济波动风险:宏观经济如果出现重大下行,会影响具身智能与人形机器人产品的需求,影响社会创新热情。

(3)数据安全风险:无论是具身智能还是人形机器人,与物理世界的交互都会涉及到大量的数据及处理,可能会出现数据、知识产权风险。



05 工程机械基本面超预期,具身智能和人形机器人国内市场活跃

人形机器人:行业边际催化不断,关注机器人本体厂商最新进展
本周小米产业链发酵,市场关注国产人形机器人线性关节提升趋势。海内外人形机器人厂商积极推进软硬件发展,智元下周预计发布首个通用具身基座模型、Tesla最新宣传视频涉及人形机器人,预计本体厂商的最新产品进展仍将为板块带来持续催化。边际上建议关注具有新品发布预期的本体厂商供应链相关标的,同时持续推荐供应链中具有较强竞争力的供应商。
政府工作报告首次出现“具身智能”等新词,我们认为具身智能是更广义的AI赋能,具身智能体与物理世界环境的交互会越来越智能化,不断创造新的行业需求,重构行业竞争格局,持续带来具身智能和人形机器人板块的投资机会。
风险提示:
(1)国内宏观经济波动的风险:机械是典型的中游资本品行业,承上启下,与宏观经济波动密切相关,如果国内宏观政策出现重大转向,势必会影响机械行业总体需求。
(2)海外市场波动的风险:中国企业出海不可能一帆风顺,未来的征程势必会出现各种各样的摩擦,是阶段性的小插曲还是新趋势形成,需要审慎判断。
(3)下游扩产不及预期的风险:若下游行业扩产不及预期,则相应的设备需求将会下降,会对行业内公司订单、业绩等造成不利影响。

06 具身智能和人形机器人行业投资机遇

大模型快速迭代,推动具身智能大发展,AI赋能深浅,关系到行业发展空间与竞争格局重构。
人形机器人是具身智能最重要的载体,模型迭代与供应链降本加速其商业化落地,百家争鸣态势正形成,特斯拉不再是产业链唯一风向标,预计将会涌现出来更多参与者。
看好具备低价、批量供货能力或者具有技术优势的标的。
高效AI大模型不断涌现,性能快速迭代,推动具身智能大发展:所有设备公司均应该思考如何用AI赋能,提升产品的智能化水平、工作效率和客户满意度,这将关系到设备行业的发展空间以及竞争格局重构。
人形机器人是具身智能最重要的载体:人形机器人作为一种具身智能,可以更好地与人类互动,或者在人类生活的环境中为人类服务。随着智能化程度提升,未来可能每个家庭甚至每个人平均拥有一台人形机器人,预计市场空间将超过汽车、智能手机,至少是数万亿市场规模。
模型迭代与供应链降本加速人形机器人商业化落地:
百家争鸣态势正在形成,特斯拉不再是产业链唯一的风向标。随着大模型的发展、优化迭代,训练成本越来越低,训练效率越来越高,从视觉、语言到动作的执行越来越流畅。那些掌握了更高效大模型的企业,有可能后来居上。
供应链迅速降本,预计会有更多的整机企业涌现:供应链日趋成熟,会吸引更多的科研机构参与研究创新,吸引新兴创业者加入,吸引大企业以后来者姿态切入,推动人形机器人整机价格迅速下降。
风险提示:
(1)AI发展放缓风险:无论是具身智能还是其中人形机器人的商业化落地进展,都依赖AI的持续发展完善,如果AI发展放缓甚至出现停滞,那么将影响具身智能与人形机器人的产业化进程。
(2)宏观经济波动风险:宏观经济如果出现重大下行,会影响具身智能与人形机器人产品的需求,影响社会创新热情。
(3)数据安全风险:无论是具身智能还是人形机器人,与物理世界的交互都会涉及到大量的数据及处理,可能会出现数据、知识产权风险。
(4)道德伦理风险:具身智能尤其是人形机器人的发展,可能引发社会伦理问题,需要提前加以干预和设定。


07 Figure发布Helix:效果惊艳、端到端VLA模型在人形机器人的首次落地

1.2月21日,Figure在官网上推出了首个适用于人形机器人的端到端VLA模型Helix,这是继2月5日Figure与OpenAI中止合作后推出的重要工作,是视觉-语言-动作(VLA)模型首次在成熟的人形机器人产品中落地。

2.Helix使得机器人能够通过极少的数据实现多自由度(35-Dof)的动作,具有极强的泛化能力,支持多机器人协作。在演示视频中,两个人形机器人在同一个神经网络下,很好的协作完成了厨房中物体识别、分析、抓取、归纳的任务。
Helix采用创新的“系统1,系统2”双系统模型架构,分别是7hz的慢思考系统和200hz的快反应系统。其中快反应保证流畅,慢思考提升智能。同时预训练样本量仅仅为500个小时的数据,是数据集的5%,仅需少量数据便能快速实现scaling law的涌现效果。
Figure新进展:通用型视觉语言动作模型Helix
2月21日,美国人形机器人公司Figure AI在官网上发布了一款通用型视觉语言动作模型Helix,能够将语言、视觉、动作融合进行任务完成,支持人形机器人上半身使用,具有较强的泛化能力,需要预训练数据集少,甚至可以同时使两个机器人协调工作。
早在2月5日,Figure 的创始人兼CEO Brett Adcoc在推特上发布了一条帖子,宣布终止与OpenAI的合作协议:并表示Figure在完全自主研发的端到端机器人AI方面取得了重大突破,接下来的30天内展示一些人们从未在人形机器人上见过的东西,现在看来Helix就是其中之一。
实际上目前来说,端到端已然成为了具身智能大模型的一个共识。自动驾驶已经验证了端到端的可行性,而Helix的突破性,在于他是第一个运行在人形机器人上的端到端VLA大模型。之前许多实验室都发布过具身智能大模型,但基本都是装载于机械臂上面,自由度偏少。而Helix对应的机器人版本有着足足35个自由度,一般模型可能很难进行迁移。
图片
简单来说,Helix做到一系列的突破,包括但不限于:
1)全上半身控制:Helix 是第一个输出对整个人形上半身(包括手腕、躯干、头部和单个手指)进行高速连续控制的 VLA。

2)多机器人协作:Helix 是第一个在两个机器人上同时运行的 VLA,使它们能够使用以前从未见过的物品解决远距离协作任务。

3)极强的对象泛化能力:备 Helix 的手办机器人现在几乎可以拾取任何小型家用物品,包括它们以前从未遇到过的数千件物品,只需遵循自然语言提示即可。

4)一套神经网络权重:与以前的方法不同,Helix使用一组神经网络权重来学习所有行为,包括拾取和放置物品、使用抽屉和冰箱以及跨机器人交互,而无需采取任何针对特定任务的微调。
5)商用就绪:Helix 是第一款完全在嵌入式低功耗 GPU 上运行的 VLA,可立即用于商业部署。
图片
一般来说,传统的scaling law都告诉我们一个模型训练采用的数据量越多越好模型就越好,但是在很多领域,比如家庭中,不同于单一的生产线,家具的种类是非常丰富的,如果依旧采用原来的训练方法,训练所需要的时间和成本都是非常高的,因此Figure要求模型必须具备良好的泛化能力,减少对数据集的依赖。
在图表2中,我们可以看到,相比于传统的编写数据或者是如今流行的收集数据,Helix大大减少了机器人训练需要的时间,因为它追求使得机器人通过VLM直接理解某些常识,即通过自然语言指令就获得某些技能。也就是说,曾经需要数百次演示的新技能,只需用自然语言与机器人交谈就可以立即获得。
图片
如图表3所示,Helix是同类产品中首个“系统1,系统2”的VLA模型,两个系统有点类似于人类的快思考和慢思考,一直以来,VLM是通用的,但不是快速的,就像人类的慢思考,依靠理性,而机器人视觉运动策略是快速的,但不是通用的,如同人类基于直觉的快思考。Helix 通过两个互补的系统来解决这种权衡,这些系统经过端到端训练以进行通信。具体如下:
系统2:一种经过训练的VLM,参数量70亿,以 7-9 Hz 的频率运行,用于场景理解和语言理解,实现跨对象和上下文的广泛泛化。主要负责决策部分。
系统1:一种快速反应的视觉运动策略,参数量0.8亿,可将 S2 产生的潜在语义表示转化为 200 Hz 的精确连续机器人动作。主要负责动作的输出。
系统2 中的VLM 基于互联网大规模数据进行预训练。它将机器人收到图像和状态信息(包括手腕姿势和手指位置)投影到视觉语言嵌入空间后对其进行处理。结合指定所需行为的自然语言命令,S2 将所有语义任务相关信息提取到单个连续的潜在向量中,传递给 S1 以调节其动作。
系统1中的架构基于一个完全卷积的、多尺度的视觉主干进行视觉处理,虽然 S1 接收与 S2 相同的图像和状态输入,但它以更高的频率处理它们(20HZ),以实现更灵敏的闭环控制。来自 S2 的潜在向量被投射到 S1 的标记空间中,并与来自 S1 视觉主干的视觉特征沿序列维度连接,提供任务调节。最后以200Hz 的频率输出完整的上半身人形控制,包括所需的手腕姿势、手指屈曲和外展控制,以及躯干和头部方向目标。
实际上,Helix的训练非常高效,Helix 以非常少的资源实现了强大的对象泛化。总共用 500 小时的高质量监督数据就完成了Helix的高度泛化能力,这只是以前收集的 VLA 数据集大小的一小部分 (<5%)。
图片
这一套系统使得Helix能够表现出很多异于一般模型的能力:
1)多机器人协作:图表4显示了两个 Figure 机器人之间的协作。两个机器人都使用相同的 Helix 模型权重运行,无需特定于充当的角色进行模型权重的微调,它们通过自然语言提示实现协调,例如“将饼干袋交给您右侧的机器人”或“从您左侧的机器人那里接收饼干袋并将其放入打开的抽屉中”。这标志着多个机器人通过VLA实现协作的可能。
2)Pick up everything: 图表5中显示了Helix的较强的对象泛化能力,配备 Helix 的 Figure 机器人可以通过简单的“捡起”命令拾取几乎任何小型家用物体。这在机器人于家务中的应用上非常重要,在系统测试中,机器人成功地处理了数千件杂乱无章的新物品——从玻璃器皿和玩具到工具和衣服——无需任何事先演示或定制编程。表现出了极强的对象泛化能力。
因此,Helix展现出了人形机器人可以具有近乎人类的环境适应性,同时继Deepseek之后又一次对scaling law产生了颠覆。
风险提示:
北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;下游需求不及预期影响公司正常生产和交付,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。


08 智元推出首个4D世界模型,OpenAI重点布局机器人

1.1 智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。然而,现有的机器人动作规划方法常常面临着一些问题。比如,其常常由于缺乏对于动态操作空间的理解以及在处理一些长序任务时的记忆处理能力有所欠缺。同时,在机器人动作预测中构建出来的基于2D视频生成的world model难以准确表达复杂的3D关系。
针对上述难题,智元机器人团队提出了 EnerVerse 架构,通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务,在这个过程中同时具有对动态操作空间的理解能力。同时创新性地引入了自由锚定视角(Free Anchor View, FAV)和稀疏记忆机制(Sparse Memory)。这个架构可以为机器人未来动作的预测提供一个4D的全视角world model同时优化其记忆处理能力。
图片
在图表1中,我们可以看出EnerVerse的视频生成的大致过程,首先在根据观察输入初始构建出多视角的空间,之后对于这个多视角的空间进行渲染,使得其仿真度更高,接近现实世界,再将这个多角度空间的图像输入右方的多视角扩散生成器,同时给出任务指令(倒茶),便可以生成下一时刻的各个角度的预测图像,借此可以预测机器人的动作进而辅助其进行动作规划策略的构建。
EnerVerse 的亮点在于其可以通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角(FAV)方法,解决上文中提到的一系列问题。
对于逐块扩散生成(Next Chunk Diffusion),EnerVerse 采用逐块生成的自回归扩散模型,通过逐步生成未来具身空间来引导机器人动作规划。同时可以使得机器人具有一定对动态操作空间的理解能力。
对于这个自回归扩散模型,如图表2所示,左侧为多视角的扩散生成板块,我们首先输入在i时刻来自相机的图像和对应的光线方向图,分离噪音和观察图像(Obs, Image Latent),然后通过2D和3D卷积提取图像特征,之后模型使用空间注意力(Spatial Attent)和时间注意力(Temporal Attent)来处理图像特征,以更好地理解图像内容和时间序列信息。经过扩散生成i+1时刻的图像,经过渲染生成对i+1时刻的预测图片(Render, Image Latent),再将其输入生成器,不断迭代生成预测视频。
右侧为分块的自回归的训练过程。首先在上半的训练阶段中,从观察视频中随机提取关键帧输入扩散生成器,同时输入目标图像(一般是关键帧的后续帧),通过将生成的图像和目标图像进行对比预测噪声(Prod. Noise),并通过噪声度量损失,通过损失最小化这一目标实现训练。
下半部分为生成器的运用,通过向其中输入i时刻的观察图像(Obs. Image Latent)和目标图像(i+1时刻)以及噪声生成预测图像(i+2时刻),在下一个迭代中,将原来的目标图像作为观察图像,预测图像作为目标图像进而预测i+3时刻的图像,迭代即可生成预测视频,具有对于动态操作空间的理解能力。
图片
对于灵活4D生成(FAV),EnerVers针对具身操作中复杂遮挡环境和多视角需求,提出了自由锚定视角(FAV)方法,以灵活表达 4D 空间。其核心优势包括:
1)自由设定视角:FAV 支持动态调整锚定视角,克服固定多视角(fixed multi-anchor view)在狭窄场景中的局限性。例如,在厨房等场景中,FAV 可轻松适应动态遮挡关系。
2)跨视角空间一致性:基于光线投射原理(ray casting),EnerVerse 通过视线方向图(ray direction map)作为视角控制条件,并将 2D 空间注意力扩展为跨视角的 3D 空间注意力(cross-view spatial attention),确保生成视频的几何一致性。
3)Sim2Real 适配:通过在仿真数据上训练的 4D 生成模型(EnerVerse-D)与 4D 高斯泼溅 (4D Gaussian Splatting) 交替迭代,EnerVerse 构建了一个数据飞轮,为真实场景下的 FAV 生成提供伪真值支持。
其流程如下图(图表3)所示,对于取吐司这个任务,我们首先向生成器中输入摄像机捕捉到的观察视频,之后生成器可以生成另外一个视角的模拟视频以及此视角下的模拟视频,通过4D高斯散射(4D Gaussian Splatting)和4DGS优化可以优化生成的图像,使其更接近真实情况。对其渲染后将另一个视频的模拟视频一同输入生成器生成新视角的模拟视频,迭代即可生成全方位的自由锚定视频。
图片
在实现高效动作规划方面,EnerVerse 通过在生成网络下游集成 Diffusion 策略头(Diffusion Policy Head),打通未来空间生成与机器人动作规划的全链条。其关键设计包括:1)高效动作预测:生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保动作预测的实时性。2)稀疏记忆支持:在动作预测推理中,稀疏记忆队列存储真实或重建的 FAV 观测结果,使得机器人能够即时舍弃无用记忆以减少内存消耗,有效提升长程任务规划能力。
在各项实验中,EnerVerse表现出了优良的性能。视频生成方面,EnerVerse在长短程视频的生成任务中都表现优秀,在短程生成任务中,EnerVerse 表现优于现有微调视频生成模型,如基于 DynamiCrafter 与 FreeNoise 的扩散模型。在长程生成任务中,EnerVerse 展现出更强的逻辑一致性与连续生成能力,这是现有模型无法实现的。此外,EnerVerse 在 LIBERO 仿真场景和 AgiBot World 真实场景中生成的多视角视频质量也得到了充分验证。
在动作规划方面,在 LIBERO 基准测试中,EnerVerse 在机器人动作规划任务中取得显著优势,在单视角(one FAV)设定下,EnerVerse 在 LIBERO 四类任务中的平均成功率已超过现有方法。在多视角(three FAV)设定下则进一步提升任务成功率,在每一类任务上均超越当前最佳方法。表现出了自由锚定视角这一特性对于机器人动作规划训练的重要性。
图片
在消融与训练策略分析中,研究人员发现:稀疏记忆对长程序列生成的逻辑合理性及长程动作预测精度至关重要。同时,先进行未来空间生成训练,再进行动作预测训练的二阶段策略,可显著提升动作规划性能。
在注意力方面,研究人员可视化了Diffusion 策略头中的交叉注意力模块,如下图(图表5)所示,纵轴表示动作空间的注意力,横轴表示未来空间的注意力,不同的图片代表不同的策略头以及图层。研究发现 EnerVerse 生成的未来空间与预测的动作空间具有较强的时序一致性。说明不会出现同一时间预测场景与动作出现偏离的情况。
图片
智元机器人通过 EnerVerse 架构开创了未来具身智能的新方向。通过未来空间生成引导动作规划,EnerVerse 不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。
1.2 OpenAI被曝重组机器人团队:重回硬件布局
1月初的 CES 大会,黄仁勋在演讲中提到,机器人领域的「ChatGPT 时刻」即将到来,机器人即将迎来腾飞,如果说大语言模型定义了当前的 AI 浪潮,那么下一波浪潮的主角有可能是机器人。AI 将从纯粹的语言理解,进化到对物理世界的深度认知。机器人作为其载体,可能产生一定变化。
近期,据外媒 Tech Crunch 报道,OpenAI 正在重组其机器人团队。这一消息来自 OpenAI 硬件部门的总监的社交媒体动态和最新发布的招聘信息。此次招聘的共有三个岗位,分别是:
1)电子感知工程师:负责设计设计和开发机器人传感器系统,年薪 36-44 万美元。
2)机器人机械设计工程师:负责设计机器人的核心机械系统,年薪 36-44 万美元。
3)技术项目经理:负责统筹产品开发全流程,建立和管理机器人训练实验室,协调各技术团队,确保设计阶段顺利推进,年薪 34-44 万美元。
图片
OpenAI 的目标在长久以来一直都是开发「通用」、「自适应」和「多功能」的机器人,即能在真实世界中展现接近人类的智能。为此,硬件团队将专注于自主开发传感器和计算组件,并由自主研发的 AI 模型驱动,形成一条自给自足的产业链,最大程度上发挥经营协同效应。据 The Information 报道,OpenAI 已在探索人形机器人的研发,更已着眼未来量产的可能,正在招募具有「百万级量产机械系统经验」的工程师。这些举措显示出OpenAI可能正在进行策略上的转变。
实际上,OpenAI 重返机器人领域早有苗头。去年 11 月,从 Meta 的 AR 眼镜部门跳槽到 OpenAI 来负责硬件部门的 Caitlin Kalinowski 便已在 X 平台透露,OpenAI 将开发配备定制传感器的机器人。
过去两年中,OpenAI便已经表现出了机器人领域的青睐。其在机器人领域「广撒网」,对多家主推机器人(尤其是人形机器人)的公司进行了投资,其内部创业基金投资了几家人形机器人公司。例如,在2023 年 3 月,投资了来自挪威的人形机器人公司 1X Technologies(融资 1.25 亿美元)。在2024 年 2 月 29 日投资了Figure,一家硅谷著名具身智能创业公司,并助其融资 7.45 亿美元。在当时 Figure 融资新闻发布会上,OpenAI 就暗示了可能重启机器人项目。
虽然 Kalinowski 称,这是 OpenAI 首次发布机器人硬件相关职位,但这并非 OpenAI 首次涉足机器人领域。要知道,机器人曾经是OpenAI的“老本行”。机器人研发是 OpenAI 创立之初的重要使命之一。OpenAI 的联合创始人 Wojciech Zaremba 当时带领一支团队,专注于研发「通用机器人」。
2017 年 5 月,OpenAI 推出了开源软件 Roboschool,用于在模拟环境中操控机器人。这一年,OpenAI 还宣布成功开发出一套系统,可以从模拟训练直接迁移到实体机器人,只需一次学习就能掌握新任务。2018 年,灵活机械手可以操作小木块。2019年实现机器人单手还原魔方。
图片
OpenAI 的机器人团队取得了不错的进展,但 2020 年 10 月,OpenAI 以缺乏足够的训练数据为由,悄然解散了机器人团队。OpenAI 发布的声明称:「鉴于 AI 技术和能力的迅猛发展,我们发现其他途径(如基于人类反馈的强化学习)能让研究进展更快。」这一举措在当时来看,背后主要有两方面的理由:
1)机器人研发在当时看来投入产出比不高:Zaremba 在访谈中表示,OpenAI 的联合创始人们,包括 Greg Brockman、前首席科学家 Ilya Sutskever、Elon Musk、Reid Hoffman 和 Sam Altman 都是 Scaling Law 的拥趸。他们相信,巨大的计算能力是通向 AGI 的必经之路,而强大的计算机结合强化学习、预训练等技术可以实现突破性的 AI 进展。
2)资金耗费:同时资金短缺也是一个重要原因。机器人研发成本耗费较高,因此机器人行业没少经历「寒潮」:工业机器人公司 Rethink Robotics 未能成功寻找收购方后,几个月便关闭了门店。被认为是最先进的机器人公司的 Boston Dynamics 成为了「烫手山芋」,先后被谷歌收购,然后卖给软银,最后现代同意以 11 亿美元收购控股权。连本田也暂停了耕耘十余年的 Asimo 机器人项目。
风险提示:
北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期。主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。


09 人工智能2025年投资策略报告:算力为基,自主可控大势所趋,Agent及B端应用崛起

人形机器人是一种相对较新的服务机器人,其形状与尺寸与人体相似,能够模仿人类运动、表情、动作,以及行为特征,有时甚至可以与人类进行交互,或执行一些特定任务。它可以应用在各种领域,比如娱乐、接待、教育、医疗,以及助老护理等,也可以提供社交陪伴,或者执行危险或重复性高的工作。相较于工业机器人,人形机器人具有更智能、更灵活、更多元等特点。在社会各界的赋能下,随着技术的升级及产业形态的发展,人形机器人有望渗透进入服务业、制造业等应用领域,市场潜力或将加速释放。
中国政府高度重视人形机器人的发展,并将其列为重点支持的战略性新兴产业之一。2023年9月13日,工业和信息化部印发《关于组织开展2023年未来产业创新任务揭榜挂帅工作的通知》,面向元宇宙、人形机器人、脑机接口、通用人工智能4个重点方向提出了2025年的具体目标,为人形机器人的发展提供了有力支持,也为整个科技产业的进步注入了新的活力。
人形机器人大模型应用取得显著进展。2024 年 3 月,英伟达发布人形机器人基础大模型GR00T,将推进机器人在具身智能方面的突破进展。该模型采用语言、视频、人类示教等多模态指令作为输入,直接生成机器人需要执行的下一个动作,搭载全新计算平台Jetson Thor,在模拟环境的对GR00T进行训练。大模型通过学习人类视频,学习人类动作,提升动作流畅性与拟人性,真正实现人机交互,提升其智能性。基于GR00T人型机器人基础模型,可以实现通过语言、视频和人类演示,来理解自然语言,模仿人类动作,进而快速学习协调性、灵活性以及其他的技能,进而能够融入现实世界并与人类进行互动。
图片
人形机器人Walker S集六大AI技术于一身,搭载高性能伺服关节以及多维力觉、多目立体视觉、全向听觉和惯性、测距等全方位的感知系统;全面升级视觉定位导航和手眼协调操作技术,自主运动及决策能力大幅提高,实现平稳快速的行走和精准安全的交互,可在多种场景下提供智能化、有温度的服务。
风险提示:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;大模型算法更新迭代效果不及预期,可能会影响大模型演进及拓展,进而会影响其商业化落地等;汽车与工业智能化进展不及预期等。



10 特斯拉领衔,人形机器人的从1到N——人形机器人行业研究方法论

核心观点:回顾人形机器人整体行情,人形机器人指数涨跌主要受重要行业事件催化和特斯拉机器人进展影响,主要行情包含5个阶段。2022年5月,马斯克宣布进军人形机器人行业,引发首轮行情;2023年5月特斯拉公布Optimus最新进展,黄仁勋提出“具身智能”概念,AI大模型相继推出,引发机器人整体板块式行情;2023年11月,特斯拉公布技术方案变化,伴有行走测试预期,国内人形机器人创新中心成立,引发丝杠等细分环节收敛行情。经过两年发展,目前人形机器人行业处于从1到N的量产阶段,我们认为特斯拉机器人量产进度、AI大模型更迭代、海内外人形机器人产业化落地进程仍然是核心影响因素。

人形机器人复杂程度是机器人之最,由电机、减速器、丝杠、传感器等核心零部件组成,海外厂商起步较早,国内企业性能逐步赶上。

区别与传统工业机器人,人形机器人结构更为复杂,电机、减速器、丝杠等核心零部件使用数量更多,要求更高。①电机:无框力矩电机、空心杯电机常用于人形机器人,未来技术路线将重点突破高功率、高扭矩密度、高过载需求;②减速器:谐波减速器、行星减速器常用于人形机器人,但专用于人形机器人的高精度、大减速比,小体积,轻质量的减速器仍有提升空间;③丝杠:回顾历史,丝杠在人形机器人使用较少,主要系价格昂贵,缺少机器人专用丝杠型号,随着国产企业相继突破技术瓶颈,未来性价比更高、效率更高的人形机器人专用丝杠有望打开市场空间;④一体化关节:未来具备高功率密度、高精度、高爆发力的一体化关节将是主流零部件趋势之一,为机器人提供稳定的硬件基础。

海内外多家人形机器人相继进入工厂实训,特斯拉表示明年将有上千台机器人在特斯拉工厂工作,人形机器人从1到N渐行渐近

特斯拉表示,明年将有上千台人形机器人进入工厂工作;Figure机器人在宝马工厂进行实训,完成物料搬运等工作;美国Digit机器人在亚马逊进行物料搬运,机器人执行任务时实现100%自主性,任务完成成功率高达97%;国内机器人今年相继进入工厂实训,优必选、宇树等公司在新能源汽车厂开始实训工作,目前可以完成质检、贴车标等简单工作。

看好国内一体化关节、龙头减速器、龙头电机企业受益于机器人量产放量,建议关注丝杠企业在技术上的突破和和送样进展。六维力、触觉传感器作为降本诉求最强的环节之一,看好国内企业实现技术突破+价格优势明显+服务灵活性更高等优势。

风险提示:1)宏观经济下滑超预期:人形机器人行业发展受宏观经济波动影响较大,若未来宏观经济景气度下行,下游行业投资放缓,会影响机器人产业链的发展环境和市场需求。2)技术迭代不及预期:目前人形机器人领域仍面临较多困难和挑战,若未来技术迭代不及预期,导致成本下降幅度较慢,对产业链相关公司以及整个行业造成不利影响。3)市场竞争加剧风险:随着越来越多的企业涌入人形机器人赛道,行业竞争激烈,若相关企业加快研发进展和应用布局,市场竞争程度进一步加剧,会影响目前行业内企业的增长。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开