王煜:“具身技能”是人们进入具身智能的第一个大门

创业邦

4天前

这一过程中工人所需的主要能力是高水平的操作技能,而移动能力则不那么关键。

目前2024年9月19-20日,第18届DEMO CHINA在成都举行。本届大会由创业邦主办,成都市经济和信息化局成都市新经济发展委员会、成都市科学技术局、成都市投资促进局、成都市博览局为指导单位。

近两年,大会围绕“AI+科技投资”展开。创新中国 AI纪元,本届DEMO CHINA以“Rise of Transformers”为主题,102家早期科技公司在大会现场参与超级展示、企业对接。其中,AI企业高达48家。致力于打造中国具有影响力的早期科技企业展示及对接平台,十余年来,DEMO CHINA吸引45000+创业企业报名,1404家企业登台展示。其中,572家企业成长到A轮以后,309家企业参与后进入下一轮融资,33家企业成功上市。

大会现场,创业邦星际营25期新锐AI之星融资加速计划、2024高通创投-红杉中国创业大赛、2024淡水河谷绿色创新计划、Banglink企业对接会同期举行。200+投资机构代表齐聚成都,带来一场创投盛宴。

会上,港科大机器人研究院创始院长、戴盟机器人联合创始人王煜在《具身智能,解锁AGI的物理世界交互之门》演讲中的精彩观点如下:

1.人形机器人需要与物理世界进行互动,并理解我们的世界。那么在接触过程中,触觉传感器将发挥至关重要的作用。

2.所以,我们需要的是技能和对技能的学习,名词叫做“具身技能”,核心的价值在于操作的能力,还在于它还能够学习到比较复杂多样的各种操作能力,这种能力应能泛化应用于不同的生产线,并能迅速自主地掌握工人通常需几周才能学会的技能。

3.具身智能是最终目标,具身技能是人们进入具身智能的第一个大门,也是最关键的一个大门,一定要打开。

港科大机器人研究院创始院长、戴盟机器人联合创始人 王煜

以下为现场演讲内容,经创业邦整理后发布:

在今天通用人工智能的时代,具身智能将通用人工智能和我们人类生活的物理世界连在一起,也就是将人工智能软件系统和硬科技搭在一起,所以我们认为具身智能是能够解锁通用人工智能和物理世界的交互智能。

如果我们说到具身智能,大家自然就想到了人形机器人,在今天这两个词基本在很多地方是相关互动的。今年年初,美国英伟达展示了一大批9个到10个培训机器人,8月在世界机器人大会上,我们有27个人形机器人也在那里互动展出。

因此,对我们来说,人工智能已经推动人形机器人进入了一个新的发展阶段。对于我们创业者来说,这既是一个充满良好机遇的时期,也是一个需要克服重要技术挑战的时期。这里面不仅包括技术的进步,还涉及到经济和商业价值的推动。

去年年底,中宣部对人形机器人的发展任务进行了明确的规划和部署,制定了清晰的发展路线图。在这一战略指导下,最基本的要求包括了我们所讨论的,构建基础通用人工智能的大脑和小脑架构。接下来,将涉及到硬科技领域的一些关键技术,这包括但不限于关键零部件、电机、驱动系统,以及触觉传感技术。人形机器人需要与物理世界进行互动,并理解我们的世界。那么在接触过程中,触觉传感器将发挥至关重要的作用。

当然,最终的目标是确定这些机器人的具体应用场景,以确保它们能够有效实施,并为我们带来经济和社会价值。对于我们这些从事人形机器人或其他与人工智能相关的硬科技领域的从业者而言,这需要深思熟虑并付诸实践。

根据这个指南,我们可以看到典型的应用场景包括汽车制造和电子产品的制造。在汽车制造领域,包括美国的人形机器人企业在内,众多公司已经展开合作。对于这类机器人来说,其移动和操作能力极为关键,因此必须具备高度发达的手、臂和大脑等功能。

对于电子产品制造而言,其成型过程与其他行业截然不同。在电子产品的前端制造中,全自动化程度极高;然而,到了后端的装配阶段,却依然需要大量的人力投入。这一现象在3C制造过程中尤为明显,使其成为一个颇具挑战性且有趣的人形机器人应用场景。

在这种情境下,我们需要集中精力,仔细考虑问题,并提出能够真正带来价值的解决方案,避免过度消耗我们的精力和资本。

比如,3C制造面临的主要问题是产品多样化,批量相对较小,并且产品更新换代频繁。在制造车间内,无论是中小型厂商还是大型厂商,环境通常只能算是半规范化。最终的装配过程都依赖于固定的工作岗位和操作工位,主要由人工完成。

在生产线上,零部件通常通过输送系统送达工人手中,工人完成任务后,零件会继续传送至下一个工序。因此,这一过程中工人所需的主要能力是高水平的操作技能,而移动能力则不那么关键。

因此,从3C制造的视角来看,机器人的设计不必完全呈人形,而很可能需要的是具有双臂和双眼的上半身,关键在于配备灵巧的手。这些灵巧手需具备触觉传感和触摸能力,以实现复杂的操作技能,这是生产过程中至关重要的。

所以,我们需要的是技能和对技能的学习,名词叫做“具身技能”,核心的价值在于操作的能力,还在于它还能够学习到比较复杂多样的各种操作能力,这种能力应能泛化应用于不同的生产线,并能迅速自主地掌握工人通常需几周才能学会的技能。通过这种方式,机器人将不仅能够替代人工执行任务,还能带来商业价值,实现24小时不间断的工作。

这部分的发展与人形机器人的进步是同步进行的,但关键仅在于上肢、双臂和灵巧手的功能,以及其他一些终端操作装置。最关键的是,机器人需要能够获取必要的信息,实现手与眼的协同工作,手部还需要具备触觉功能,以指导执行精密和灵巧的操作任务。

至于大脑的发展,这是当前通用人工智能领域中的一个核心议题,就不多说了。机器人需要能够理解其所处的环境,理解与环境相关的人和细节指令,最终实现精确的运动轨迹和运动控制。

在电子产品的精细操作中,关键能力集中在上肢,尤其是精细操作技能。这些技能可以比喻为“小脑”,因为类似于人类在操作时大多不需经过大脑的深思,而是依靠手指和脊椎的协调来掌握和执行技能,无需过多思考即可顺利完成任务。

因此,当工人进行这些重复性劳动时,他会觉得有一些不耐烦、不好玩,就是因为他大脑空在那里。这些技能实际上是比较底层的,如果我们有小的模型把这些技能学会,将显著降低算力成本,同时提高执行速度和灵活性,从而充分展现其价值。

关键的问题在于如何使机器人具备操作能力,这包括硬件必须提供充足的信息和控制能力,软件则需使机器人能够精确执行操作。这种能力通常通过学习获得,可以采用强化学习或模仿学习的方法。对于移动机器人而言,强化学习极为有效。我们认为,学习操作小脑技能是人形机器人发展中极具潜力和商业价值的方向。

所以,我作为联合创始人创办的一家名为戴盟机器人的公司,基本上就是沿着“得心应手”和“心灵手巧”的方向来产业化,主要研发的方向是让机器人习得精细的操作技能,能在各类场景下具有举一反三的操作泛化能力,这就是具身技能。

这里边一个重要的问题就是触觉感知,我们在做好多大活的时候,我们的手不需要触摸什么东西,不需要动脑筋或者是琢磨。但是做小的精细活的时候,触觉感知是非常重要的,尤其是在我们五个手指上。

这里边有一个很典型的例子,有一个女孩天生没有触觉感知,划火柴需要一般人五倍的时间,而且效率不会提高,每次都需要这么长的时间。这是因为,她没有感觉信息,好多事情不会做的很好。

对整个技术行业来讲,要提供很好的触觉传感器,虽然现在做人工皮肤的公司很多,但是这些技术基本上离我们在灵巧手上需要的触感传感器来讲还有相当大的差距。

目前,我们正推广一套基于光学机理的触觉传感器,该技术完全满足机器手所需的触觉信息密度、响应速度及成本效益,并且体积较小。因此,戴盟机器人正在沿此技术路线推进产品开发。此外,这套系统能够量化多模态信息,辅助机器手的操作和机器人的学习过程。

作为一名教授,我带了很多学生,还有一个大团队研发了很多年。在戴盟机器手中,这系列触觉传感器已经开始被应用。

利用这种传感技术,若将其安装在手指或末端执行器中,机器人将能够执行许多传统工业机器人难以完成的任务,使得人形机器人或者是人形手臂能够多元化操作,包括完成对软的插件和对一些衣服、衣料、家庭场景、工业场景上面的任务。

这个里边展示的是机器人有了这些能力以后,它基本上能够自主的处理一些家务活儿,比如叠衣服,虽然现在整个产品还没有达到完全可以在家里边实现一个佣人的能力,但是基本的技能都有了。

关于最关键的问题:如果已经拥有这些硬件,那么机器人如何通过学习掌握这些技能模型?即如何丰富其“小脑”的功能?强化学习和模仿学习是两个关键的方法。特别是在模仿学习中,触觉传感信息的应用至关重要,我们需要通过观察人类的操作技能来模仿到我们的机器灵巧手中,这也是当前许多研发灵巧手和上臂的公司面临的主要挑战。

目前,信息传递主要依赖虚拟技术,包括VR和AR,但未来的关键在于利用真实的物理数据。即我们必须能够在人类操作时,从其动作中捕捉到数据并传递给机器人。目前我们已能够获取人类关节运动的数据,然而,人类的触觉信息仍难以捕捉。

另外人在操作的时候有各式各样的手指的模态,不同的任务有不同的模态,这些模态为什么是这样?机器人怎么能够把这些模态完整的学会呢?这也是我们需要在技术上攻克的,也就是能够给我们带来商业价值的一个很好的机会。

所以从整体上来讲,我们人形机器人还有很多事情要做,很多技术难关需要攻克,但是如果我们一条技术路线摸的比较准,一个科创企业能够有自己的核心技术,能够看准它的商业机会,我认为这些科创公司都会有机会最终发展成比较大的、有核心能力的人形机器人公司。

我最后想给大家讲到,具身智能是最终的目标,具身技能是我们进入具身智能的第一个大门,最关键的一个大门,一定要打开。我们戴盟机器人的目标就是把这个大门打通,然后使得我们真正进入超大的具身智能商业领域。

谢谢大家!

这一过程中工人所需的主要能力是高水平的操作技能,而移动能力则不那么关键。

目前2024年9月19-20日,第18届DEMO CHINA在成都举行。本届大会由创业邦主办,成都市经济和信息化局成都市新经济发展委员会、成都市科学技术局、成都市投资促进局、成都市博览局为指导单位。

近两年,大会围绕“AI+科技投资”展开。创新中国 AI纪元,本届DEMO CHINA以“Rise of Transformers”为主题,102家早期科技公司在大会现场参与超级展示、企业对接。其中,AI企业高达48家。致力于打造中国具有影响力的早期科技企业展示及对接平台,十余年来,DEMO CHINA吸引45000+创业企业报名,1404家企业登台展示。其中,572家企业成长到A轮以后,309家企业参与后进入下一轮融资,33家企业成功上市。

大会现场,创业邦星际营25期新锐AI之星融资加速计划、2024高通创投-红杉中国创业大赛、2024淡水河谷绿色创新计划、Banglink企业对接会同期举行。200+投资机构代表齐聚成都,带来一场创投盛宴。

会上,港科大机器人研究院创始院长、戴盟机器人联合创始人王煜在《具身智能,解锁AGI的物理世界交互之门》演讲中的精彩观点如下:

1.人形机器人需要与物理世界进行互动,并理解我们的世界。那么在接触过程中,触觉传感器将发挥至关重要的作用。

2.所以,我们需要的是技能和对技能的学习,名词叫做“具身技能”,核心的价值在于操作的能力,还在于它还能够学习到比较复杂多样的各种操作能力,这种能力应能泛化应用于不同的生产线,并能迅速自主地掌握工人通常需几周才能学会的技能。

3.具身智能是最终目标,具身技能是人们进入具身智能的第一个大门,也是最关键的一个大门,一定要打开。

港科大机器人研究院创始院长、戴盟机器人联合创始人 王煜

以下为现场演讲内容,经创业邦整理后发布:

在今天通用人工智能的时代,具身智能将通用人工智能和我们人类生活的物理世界连在一起,也就是将人工智能软件系统和硬科技搭在一起,所以我们认为具身智能是能够解锁通用人工智能和物理世界的交互智能。

如果我们说到具身智能,大家自然就想到了人形机器人,在今天这两个词基本在很多地方是相关互动的。今年年初,美国英伟达展示了一大批9个到10个培训机器人,8月在世界机器人大会上,我们有27个人形机器人也在那里互动展出。

因此,对我们来说,人工智能已经推动人形机器人进入了一个新的发展阶段。对于我们创业者来说,这既是一个充满良好机遇的时期,也是一个需要克服重要技术挑战的时期。这里面不仅包括技术的进步,还涉及到经济和商业价值的推动。

去年年底,中宣部对人形机器人的发展任务进行了明确的规划和部署,制定了清晰的发展路线图。在这一战略指导下,最基本的要求包括了我们所讨论的,构建基础通用人工智能的大脑和小脑架构。接下来,将涉及到硬科技领域的一些关键技术,这包括但不限于关键零部件、电机、驱动系统,以及触觉传感技术。人形机器人需要与物理世界进行互动,并理解我们的世界。那么在接触过程中,触觉传感器将发挥至关重要的作用。

当然,最终的目标是确定这些机器人的具体应用场景,以确保它们能够有效实施,并为我们带来经济和社会价值。对于我们这些从事人形机器人或其他与人工智能相关的硬科技领域的从业者而言,这需要深思熟虑并付诸实践。

根据这个指南,我们可以看到典型的应用场景包括汽车制造和电子产品的制造。在汽车制造领域,包括美国的人形机器人企业在内,众多公司已经展开合作。对于这类机器人来说,其移动和操作能力极为关键,因此必须具备高度发达的手、臂和大脑等功能。

对于电子产品制造而言,其成型过程与其他行业截然不同。在电子产品的前端制造中,全自动化程度极高;然而,到了后端的装配阶段,却依然需要大量的人力投入。这一现象在3C制造过程中尤为明显,使其成为一个颇具挑战性且有趣的人形机器人应用场景。

在这种情境下,我们需要集中精力,仔细考虑问题,并提出能够真正带来价值的解决方案,避免过度消耗我们的精力和资本。

比如,3C制造面临的主要问题是产品多样化,批量相对较小,并且产品更新换代频繁。在制造车间内,无论是中小型厂商还是大型厂商,环境通常只能算是半规范化。最终的装配过程都依赖于固定的工作岗位和操作工位,主要由人工完成。

在生产线上,零部件通常通过输送系统送达工人手中,工人完成任务后,零件会继续传送至下一个工序。因此,这一过程中工人所需的主要能力是高水平的操作技能,而移动能力则不那么关键。

因此,从3C制造的视角来看,机器人的设计不必完全呈人形,而很可能需要的是具有双臂和双眼的上半身,关键在于配备灵巧的手。这些灵巧手需具备触觉传感和触摸能力,以实现复杂的操作技能,这是生产过程中至关重要的。

所以,我们需要的是技能和对技能的学习,名词叫做“具身技能”,核心的价值在于操作的能力,还在于它还能够学习到比较复杂多样的各种操作能力,这种能力应能泛化应用于不同的生产线,并能迅速自主地掌握工人通常需几周才能学会的技能。通过这种方式,机器人将不仅能够替代人工执行任务,还能带来商业价值,实现24小时不间断的工作。

这部分的发展与人形机器人的进步是同步进行的,但关键仅在于上肢、双臂和灵巧手的功能,以及其他一些终端操作装置。最关键的是,机器人需要能够获取必要的信息,实现手与眼的协同工作,手部还需要具备触觉功能,以指导执行精密和灵巧的操作任务。

至于大脑的发展,这是当前通用人工智能领域中的一个核心议题,就不多说了。机器人需要能够理解其所处的环境,理解与环境相关的人和细节指令,最终实现精确的运动轨迹和运动控制。

在电子产品的精细操作中,关键能力集中在上肢,尤其是精细操作技能。这些技能可以比喻为“小脑”,因为类似于人类在操作时大多不需经过大脑的深思,而是依靠手指和脊椎的协调来掌握和执行技能,无需过多思考即可顺利完成任务。

因此,当工人进行这些重复性劳动时,他会觉得有一些不耐烦、不好玩,就是因为他大脑空在那里。这些技能实际上是比较底层的,如果我们有小的模型把这些技能学会,将显著降低算力成本,同时提高执行速度和灵活性,从而充分展现其价值。

关键的问题在于如何使机器人具备操作能力,这包括硬件必须提供充足的信息和控制能力,软件则需使机器人能够精确执行操作。这种能力通常通过学习获得,可以采用强化学习或模仿学习的方法。对于移动机器人而言,强化学习极为有效。我们认为,学习操作小脑技能是人形机器人发展中极具潜力和商业价值的方向。

所以,我作为联合创始人创办的一家名为戴盟机器人的公司,基本上就是沿着“得心应手”和“心灵手巧”的方向来产业化,主要研发的方向是让机器人习得精细的操作技能,能在各类场景下具有举一反三的操作泛化能力,这就是具身技能。

这里边一个重要的问题就是触觉感知,我们在做好多大活的时候,我们的手不需要触摸什么东西,不需要动脑筋或者是琢磨。但是做小的精细活的时候,触觉感知是非常重要的,尤其是在我们五个手指上。

这里边有一个很典型的例子,有一个女孩天生没有触觉感知,划火柴需要一般人五倍的时间,而且效率不会提高,每次都需要这么长的时间。这是因为,她没有感觉信息,好多事情不会做的很好。

对整个技术行业来讲,要提供很好的触觉传感器,虽然现在做人工皮肤的公司很多,但是这些技术基本上离我们在灵巧手上需要的触感传感器来讲还有相当大的差距。

目前,我们正推广一套基于光学机理的触觉传感器,该技术完全满足机器手所需的触觉信息密度、响应速度及成本效益,并且体积较小。因此,戴盟机器人正在沿此技术路线推进产品开发。此外,这套系统能够量化多模态信息,辅助机器手的操作和机器人的学习过程。

作为一名教授,我带了很多学生,还有一个大团队研发了很多年。在戴盟机器手中,这系列触觉传感器已经开始被应用。

利用这种传感技术,若将其安装在手指或末端执行器中,机器人将能够执行许多传统工业机器人难以完成的任务,使得人形机器人或者是人形手臂能够多元化操作,包括完成对软的插件和对一些衣服、衣料、家庭场景、工业场景上面的任务。

这个里边展示的是机器人有了这些能力以后,它基本上能够自主的处理一些家务活儿,比如叠衣服,虽然现在整个产品还没有达到完全可以在家里边实现一个佣人的能力,但是基本的技能都有了。

关于最关键的问题:如果已经拥有这些硬件,那么机器人如何通过学习掌握这些技能模型?即如何丰富其“小脑”的功能?强化学习和模仿学习是两个关键的方法。特别是在模仿学习中,触觉传感信息的应用至关重要,我们需要通过观察人类的操作技能来模仿到我们的机器灵巧手中,这也是当前许多研发灵巧手和上臂的公司面临的主要挑战。

目前,信息传递主要依赖虚拟技术,包括VR和AR,但未来的关键在于利用真实的物理数据。即我们必须能够在人类操作时,从其动作中捕捉到数据并传递给机器人。目前我们已能够获取人类关节运动的数据,然而,人类的触觉信息仍难以捕捉。

另外人在操作的时候有各式各样的手指的模态,不同的任务有不同的模态,这些模态为什么是这样?机器人怎么能够把这些模态完整的学会呢?这也是我们需要在技术上攻克的,也就是能够给我们带来商业价值的一个很好的机会。

所以从整体上来讲,我们人形机器人还有很多事情要做,很多技术难关需要攻克,但是如果我们一条技术路线摸的比较准,一个科创企业能够有自己的核心技术,能够看准它的商业机会,我认为这些科创公司都会有机会最终发展成比较大的、有核心能力的人形机器人公司。

我最后想给大家讲到,具身智能是最终的目标,具身技能是我们进入具身智能的第一个大门,最关键的一个大门,一定要打开。我们戴盟机器人的目标就是把这个大门打通,然后使得我们真正进入超大的具身智能商业领域。

谢谢大家!

展开
打开“财经头条”阅读更多精彩资讯
APP内打开