对话AI教母李飞飞：我们究竟需要什么样的AI Agent？如何正确把握这个风口（附视频）

财经头条

提升一亿中产阶级阅读效率

打开

管理智慧

1天前

那个让你觉得“啊，我们需要做这个”的契机是什么。...我们现在知道所谓“NE网络模型”（注：此处原文中出现“NENetworkmodels”，可能指的是神经网络模型）具有更高的容量和表征能力。

作者|AI工作坊

来源 |AI深度研究员 管理智慧

咨询合作| 13699120588

文章仅代表作者本人

2025年，被众多硅谷科技领袖称为"AI Agent元年

2025年，随着Claude 、ChatGPT、Gemini Pro等大模型能力的跃升，AI Agent成为科技领域最炙手可热的话题。这些Agent不再只是被动回应，而是展现出惊人的主动性：它们能理解复杂指令、分解任务目标、持续追踪进度，甚至在完成任务时像人类助手一样主动提供建议。

采访中，李飞飞表示:"我自己也会用一些大型语言模型去理解某个概念、读一篇论文，或者提出一些我不太懂的问题。"作为斯坦福"以人为本的人工智能研究院"的创办者，她对AI Agent的理解更加务实，"最让我兴奋的是看到别人，尤其是孩子们，也在用它来学习和提高自己。""我认为，靠自然语言来分享知识，或者让人们通过自然语言去搜索、构思、学习，是一个非常强大的方式。"但她同时提醒：不管AI多么强大，都要确保人们保留自己的"自主性"（agency）。在她看来，AI Agent的根本定位应该是工具而非主导者，是赋能者而非替代者。这种观点在当下显得尤为重要：我们既要拥抱AI带来的改变，又要保持清醒的认知。

那么，在2025年这个被称为"AI Agent元年"的时刻，我们究竟需要什么样的AI Agent？又该如何把握机遇？在这次深度对话中，这位计算机视觉领域的先驱者给出了她的答案。

主持人：F.F.，很高兴见到你，欢迎来到 Possible。

李飞飞：同样，也很高兴在这里见到你。

创业项目“空间智能”

主持人：我想问一下，你当初是怎么想到 ImageNet 这个主意的？那个让你觉得“啊，我们需要做这个”的契机是什么？

李飞飞：要说清楚具体的那个“关键时刻”其实不太容易，但大约是在 2006 年前后。当时我非常投入地在做研究，使用机器学习算法来尝试理解物体和图像。无论我怎么做、怎么看，都无法逃避一个数学概念：那就是机器学习中的“过拟合”（overfitting）。所谓过拟合，就是模型的复杂度和模型所用数据之间不匹配。尤其当数据——不仅仅是数据量，还有数据的复杂度——并不能有效驱动模型的时候，这个问题就会非常突出。

当然，并不是所有模型都生而平等。我们现在知道所谓“NE 网络模型”（注：此处原文中出现“NE Network models”，可能指的是神经网络模型）具有更高的容量和表征能力。但撇开这些术语不谈，数据和模型之间一定是存在相互作用的。然而我当时发现，大家只关注模型，却不关注数据，或者说只关注模型却以错误的方式看待数据。这正是当时我产生灵感的原因——我觉得我们不仅要关注模型，或者说不能只用一种方式关注模型，而是要关注数据，让数据来驱动模型。那时我刚好到了早期职业生涯的下一阶段，去普林斯顿大学任教。我在那里接触到了一个叫做“WordNet” 的项目。WordNet 与计算机视觉本身没有直接关系，但它是一种很好的方式来组织世界上的各种概念，而且我也很喜欢“WordNet”这个名字。然后，一件事情推动着另一件事的发展，ImageNet 就这样诞生了。它其实源自我对“大规模数据以及对视觉世界多样化表征”的强烈信念。

主持人：你在 AI 职业生涯的中段，创建了这个了不起的 ImageNet。现在你们还有一个 World Labs（世界实验室），我想把这条线从 ImageNet 一直延伸到 World Labs。能不能和我们谈谈 World Labs 的想法是什么？你正在构建什么，这对我们理解 AI 的未来以及对 World Labs 本身，都具有怎样的关键意义呢？

李飞飞：确实如此。我整个人的研究生涯——尤其是在 ImageNet 之后——一直在非常专注地思考一个问题：什么是“智能”？我们如何在机器中实现智能？归根结底，对我来说，它可以分解为两个非常简单的方面：如果我们观察人类智能，一方面，我们会“说话”。我们使用语言来沟通，来组织我们的知识，来交流信息。但是，智能还有另一个“半边”，对我们来说同样深远，那就是我们会“做事”。我们会去做各种事情，比如做早餐煎蛋饼，或者去远足；又或者跟朋友们一起玩耍，享受彼此的陪伴。这些行为远远超越了我们说出的任何语言。比如我们可以舒适地坐在对方面前，手里拿着啤酒罐，这些都属于“智能”的一部分。

这一部分智能，实际上是建立在我们对三维世界的理解之上——我们能够感知这个三维世界，并把它转化为一套理解、推理以及预测的过程，从而让我们能够在世界里行动。在我看来，这种能力就叫做“空间智能”（spatial intelligence）。它是具有实体躯体的智慧生物（比如人类）所固有的、最根本的本能——去处理三维空间的能力。ImageNet 之所以会出现，是因为我想要给二维图像中的像素贴上标签，而对于人类而言，二维图像是三维世界的投影。所以，从某种程度来说，ImageNet 是我们去理解所处的完整可视世界的“起步阶段”。这个起步阶段非常关键，因为无论对人、动物还是机器来说，理解并给这些图像和物体打标签，都是很重要的第一步。

但是现在，天啊，已经过去 15 年甚至 14 年了吧？我觉得我们已经准备好去做一个更宏大的目标了，几乎可以说是一个“全垒打”式的目标：去解锁智能的另一半——也就是“空间智能”这个问题。让空间智能如此有意思的一点在于，它实际上有两个层面：一个是物理的三维世界，另一个则是数字化的三维世界。而我们过去一直都无法“生活”在这两者之间。

主持人：但是现在来看，空间智能可以成为一种统一的技术，既能理解与感知“以三维为基础的物理世界”，也能理解“数字化的三维世界”。我在思考空间智能的前景时，如果回到 1880 年，那时候有马车、泥土路——你会觉得那真是个截然不同的世界。可如果只回到 1980 年，人们虽然开的车不一样，但住房还是同样的房子，人们依旧在开车，总体来说物理世界的“运作机制”并没有发生翻天覆地的变化。你觉得我们所说的这“另一半的智能”会不会在未来几十年真正带来像过去几年数字世界所经历的那种“大变革”，并进而改变现实世界？

李飞飞：我觉得会。而且我认为现实与数字之间的界限将开始变得模糊。举个例子，我会想象自己在高速公路上开车，如果车胎爆了，我虽然是个技术从业者，但我还是会觉得这会是个棘手的问题。可要是我能戴上一副眼镜，或者仅仅用手机对着我的车、对着那个爆胎，通过某个应用来协助我更换轮胎，无论是通过视觉指引、还是对话形式，或者二者结合——我觉得这就是一个最日常不过的生活场景，却可以突破物理三维世界和数字三维世界的边界。我脑中浮现出这样的科技图景：它能帮助人们做任何事，从最简单的换轮胎，到最复杂的心脏手术。这种想象真的让我兴奋不已。

大模型和“世界”模型

主持人：你还说过，你经常用 LLM（大型语言模型）来学习各种东西。我觉得这是个很鼓舞人的例子——我家孩子总是觉得自己数学不错，就不想再学了，我就可以跟他们说：“看，F.F. 李飞飞都在用大型语言模型来学习，你们是不是还可以再努力一点？”不过，说到大型“世界”模型（Large World Models）和大型语言模型（LLMs），当你向别人解释它们的区别时，你会怎么讲？你觉得它们未来会如何发展？

李飞飞：从根本上说，就像我之前提到的，一种是“说话的智能”，另一种是“看”和“做”的智能。它们在模态上有非常根本的区别。大型语言模型所处理的基本单位是词汇——不管是字母也好，单词也好。而在我们所说的“世界模型”（World Models）中，基本单位则是像素（pixels）或者体素（voxels）。两者几乎可以说是不同的“语言”：语言模型对应的是“人类语言”，而三维世界对应的是“大自然的语言”。我们的目标是让 AI 算法能让人去和“像素世界”进行交互，不管这个像素世界是虚拟的还是物理的。

主持人：你刚才的回答让我想起你引用过的一句名言：社会生物学家爱德华·威尔森（Edward O. Wilson）曾说，“我们拥有旧石器时代的情感、中世纪的制度以及神一样的科技，这实在是危险至极。” 那在这样一个拥有自然语言思维、又需要教育大众的情况下，你觉得要怎样“反转”这个说法？或者说，在 AI 时代，人类有哪些机遇？

李飞飞：我依然相信威尔森的那句话，也正因为如此，你、我以及朋友们才一起创办了“以人为本的人工智能研究院（HAI）”。如果要说“反转”那句话，我可能会这么讲：“人类能够创造近似‘神一样’的技术，从而改进我们所处的‘中世纪’式制度，并超越、或引导我们那‘旧石器时代’的情感，让它们变成创造力、生产力和善意。”

主持人：那你觉得我们应该怎么“构建”这种技术，来帮助人类实现这些美好的目标？重点是放在“同情心”上吗？还是说更加注重人本身与技术之间的共生关系？如果想让科技和 AI 帮助我们成为更好的人，你觉得下一步最该做的是什么？

李飞飞：我知道你主修过哲学与技术之类的专业（笑），能看出来你对此很感兴趣。我也同意你的观点。提到那句话，我们常常把“旧石器时代”看作负面的东西，但其实它并不是一个贬义词，而是个中性的概念。人类的情感、我们对自身形象的认知，都深深地植根于我们的进化和 DNA 中，这是不会轻易改变的。我们的世界也正因为如此而既美丽又混乱。因此，当我们在探讨技术，以及技术和人类未来的关系时，就要去尊重这些最根本、真正在“旧石器时代”就扎下来的东西。有几件事是技术发展必须尊重的，尊重得越好，对我们就越有益。

第一，要尊重人类的自主性（human agency）。

我觉得 AI 在公众层面上的沟通问题之一，就是大家经常在语句里把“AI”当成主语，好像它替代了人的自主权。比如说，“AI 会治愈癌症”，我有时也不小心这么说过。可事实是，人类会“使用 AI”去治愈癌症，而不是“AI 自己”去治愈癌症；“AI 会攻克核聚变”，其实是人类科学家和工程师“使用 AI 工具”去攻克。更危险的说法是“AI 会抢走你的工作”之类的。我觉得我们应该看到，这项技术其实有更多机会去创造新的岗位、带来更多的可能性，赋能人类的自主性。这是我非常看重的一个基本原则。

第二，要尊重人本身。

每个人都希望自己健康、有成就感，并在社会中受到尊重。不管我们怎样研发和使用 AI，都不能忽视这一点。忽视它是危险的，也会适得其反。我觉得光是这两条原则，就足以在技术开发的过程中起到指引作用。我之所以会这样讨论，背后的深层信念是：任何技术、任何创新的意义，最终都应该是“造福人类”。这也是人类文明的走向：我们发明每一种工具，最初都是想把它往好的方向用。但这就像一把双刃剑，总会有人滥用它，所以我们也不得不更加努力地去让它变得更好，更加“以人为本”。这也是我们在斯坦福一起创办“以人为本的人工智能研究院”（HAI）的根本原因。我们把 AI 视为一种极其强大的工具——它是一种“文明性”工具，因此越早就把一个“以人为本并服务于人类福祉”的框架搭建起来，就越能让我们在未来走得更稳。

对于“以人为本的 AI”这一理念，我认为最关键的部分之一，就是“赋能人类”。我希望每一家企业、每一个开发者都能遵循这个理念。

当下 AI 发展现状

主持人：你在人工智能领域做了这么多年，担任过各种角色。我感觉很多人现在才开始慢慢了解 AI。你对当下 AI 创新的现状怎么看？包括我们现在所处的位置、开发者所面临的挑战等。你觉得要想解决这些问题、再上一个台阶，我们当下该做些什么？

李飞飞：这是一个非同凡响的时刻。我觉得这真的是一个重大“拐点”，因为 AI 的应用现在可以落到普通人和普通企业的实际使用当中。我们这些早期的 AI 先驱，曾在职业生涯初期所期待的很多愿景，如今已经变成现实或即将成为现实。比如，公众常常说起“图灵测试”，而如今这几乎已经是一个被攻克的难题了。虽然图灵测试并不是衡量智能的终极标准，但它曾经被视为一道极难的门槛，如今也可以说是被突破了。自动驾驶也是一样，虽然还没做到百分之百完美，但和 2006 年相比已经取得了巨大进展。所以，我觉得随着这些强大的模型被真正用于生产环境，提供给普通人和企业使用，我们现在正处在一个令人振奋的 AI 革新时代。不过我也非常清楚，我们身处硅谷这个“泡泡”之中吧。

主持人：我觉得，全球大部分人其实都还在努力跟上 AI 的发展步伐。我们当然能看到未来，也知道未来会走向何方。所以我相信很多 Possible 的听众也会对你所说的那些想法产生共鸣：AI 可能极大地提升人类能力，也可能带来巨大的积极影响，但我们确实需要担心那些负面后果，并希望能在正确的轨道上引导 AI。那从开发的角度看，你觉得我们需要怎么做才能确保 AI 走向积极的方向？如果你认为政府或者跨行业的合作是必要的，也请谈谈这方面的想法。

李飞飞：坦白说，我们确实能做很多事情，而且我们就应该尽快去做，早就该做了，但现在开始也不算晚，只要我们真心实意地去行动。

第一点，我觉得我们应该用“科学”而不是“科幻”来指导一切。过去对 AI 的宣传和言论有很多夸张，比如“AI 会导致人类灭绝”或者“AI 会带来世界和平”——两种说法都更像科幻而非科学。所以，谈到 AI 政策或治理时，我们需要基于数据、基于科学事实和科学方法，这一点非常重要。

第二点，我真的相信，就像其他很多技术和工具一样，我们需要给 AI 的应用场景加上“约束措施”，即在真正对人类产生影响的地方去管控，而不是去阻断其上游研发。想想汽车刚出现的时候，其实并不怎么安全——最开始甚至没有安全带，没有车门，也没有限速等等。后来我们确实付出了一些代价，包括人员伤亡，但随后人们并没有要求福特或通用“关停工厂”，而是通过立法和监管，要求配备安全带、制定速度限制等。今天的 AI 也一样：它是一种极具赋能潜力的技术，但它会带来某些风险，所以我们应该关注它在实际应用中的监管，比如当 AI 被用于医疗时，我们如何更新 FDA（美国食品药品监督管理局）的相应法规；当 AI 被用于金融时，怎样设置监管护栏来保证安全。所以，应用层面的监管才是治理重心所在。

第三点（但并非不重要）是要认识到：要让 AI 的未来变得积极，需要有一个“积极的生态系统”。这个生态系统既需要私营部门，也需要公共部门。

私营部门既包括大型公司，也包括初创企业，它们都非常重要。公共部门则关乎“公共产品”（public goods）的生产。我认为公共产品可以分两类：

基于好奇心的创新和新知识，比如说用 AI 做聚变研究、用 AI 治病、用 AI 赋能教师等等。很多这样的想法和研究往往来自公共部门——就像 ImageNet 当年就是源自公共部门支持的研究。

人才（people）。我们需要让更多年轻人、更多公众了解这项技术，而公共部门在从 K12（基础教育）到高等教育的领域，承担着主要的社会教育责任。所以这些就是我非常关心的几个 AI 治理与政策方面的要点。

AI 在医疗服务的应用

主持人：你刚才说的这些，我也想补充一点“AI for all”（让所有人都能接触并使用 AI）的话题。因为你一直都在推动这件事，不希望 AI 只属于那些顶尖教授、从加州理工拿到物理学博士又在斯坦福任教的精英，而是让所有人都有机会接触它。能跟我们谈谈 “AI for all” 这个项目的使命和贡献吗？

李飞飞：AI For All 是一个非营利组织，我与以前的学生和同事共同创办的。它的使命就是给来自不同背景的 K12 学生提供机会，让他们通过大学暑期项目或实习项目接触 AI。这样做的想法就是为了实现“公共产品”中的教育部分。我们都知道，AI 会改变世界，但“谁来改变 AI”？我们希望让更多多元化的人群加入到 AI 的开发和使用当中，把这项技术应用到各种美好的用途上。

在这个项目里，我们主要面向女性、农村地区或城市贫困社区的学生，以及那些在历史上被低估或代表性不足的族群。让他们来参加这些暑期课程后，也确实看到很多年轻人用 AI 去改进救护车调度算法，或者用 AI 去检测农村地区的水质问题。虽然我们的努力目前还比较小，但我希望它能不断发展。我真的认为，让更多、多元化的群体参与到 AI 里，是一项非常重要的目标。

主持人：你在医疗领域也做了很多工作，大家应该也留意到 AI 在改善人类健康和生活方面大有潜力。能谈谈你在医疗领域的研究，以及你对 AI 在医疗保健（health care）未来发展的期望吗？

李飞飞：是的，我在我的书里也写到过，我对 AI 在医疗领域的应用充满热情。原因有很多，其中最核心的是：医疗本身就是“以人为本”（human-centered）的核心领域。整个医疗行业非常广阔，涵盖从药物研发或体外诊断（bioscience diagnostics）到临床诊断与治疗、到医疗服务（healthcare delivery）和公共卫生。这一庞大的体系中，AI 在每一个环节都有可能发挥巨大作用。

我本人非常关注的一个领域是“医疗服务”，也就是人与人之间的实际照护场景。比如说，在美国，我们的护士数量远远无法满足病患需求，而且护士的工作负荷非常大，流失率也很高。还有一些惊人的统计数据，比如有的护士在一个班次里平均要走四英里的路，只是用来取药或拿设备；或者一个班次里要处理 150 到 180 项任务。同时呢，医院里也出现了很多安全问题，比如患者因为缺乏足够照顾而从病床上跌落；对于严重的败血症（sepsis）病患如何进行分诊也是个难题。再加上人口老龄化问题，比如有些老人在家中独居，存在跌倒风险或老年痴呆的恶化……所以，在过去十多年里，我一直致力于研究如何使用“智能摄像头”（smart cameras）——一种非侵入式、非接触式的摄像头——来帮助护理人员更好地关注病人的状况。例如，监测病人是否会从病床上摔下来；如果是在家，可以监测他们的行为、情绪或营养摄入；在手术室里，可以监测手术器械的使用情况，让护士不用不断地清点器械，避免把物品遗留在病人体内。我们称这类技术为“嵌入式智能”（ambient intelligence），目的是帮助医生和医护人员更加全面地照顾患者，进而提升整体护理质量。

AI Agent 的前景

主持人：现在大家也经常提到“AGI”（通用人工智能），但我记得你曾经说过：其实你都不确定“AGI”到底指的是什么，因为不同人给它的定义都不一样，像是各自的“罗夏测验”（Rorschach Test）。能不能谈谈你对“AGI”这场讨论的看法？或者说，我们该如何更理性地看待它，而不是要么觉得“它太棒了”要么觉得“它太可怕”，仿佛要毁掉所有工作或拯救整个人类？

李飞飞：这确实既有趣又令我沮丧。我真心不知道“AGI”到底意味着什么，因为我觉得这个词最初是来自商业领域，差不多十年前 AI 逐渐成熟后，商业界就开始更频繁地讨论它。其实，它最初的用意可能是为了强调未来的 AI 需要“通用化能力”，而不是特别狭窄的任务。比如说，现在的自动驾驶汽车已经比过去那些只能识别“树木”的单一视觉模型要“通用”得多。狭窄的 AI 只能完成一个非常特定的任务，而更“通用”的 AI 能应对多种任务，这的确是个实实在在的区别。

我一直觉得困惑的一点是，如果回顾 AI 的起源，约翰·麦卡锡（John McCarthy）和马文·明斯基（Marvin Minsky）这些早期奠基者在 1956 年那场著名的夏季研讨会上，所怀抱的梦想一直都是“让机器能思考，能帮助人类决策，甚至能做到一些人类做不到的事”。他们从来没有说“我们只想做一个只能识别树木的窄领域 AI”。从一开始，“人工智能”这个领域诞生时就伴随着“思考机器”的理想。所以从这个角度看，我不知道自己该叫它“AI”还是“AGI”，对我来说，这其实就是一回事。

主持人：我也在想，就像你说的那种 AI 能够“做事情”——最近随着语音和对话式 AI 的进步，感觉就离那种“我能和 AI 像普通人一样对话，然后它去执行各种任务”的场景越来越近了。你现在生活中有没有在用类似的“AI Agent”工具？或者你觉得在未来几年里，这种有“行动力”的 AI Agent 和语音交互会如何改变我们的生活？

李飞飞：我确实觉得，靠自然语言来分享知识，或者让人们通过自然语言去搜索、构思、学习，是一个非常强大的方式。我自己也会用一些大型语言模型去理解某个概念、读一篇论文，或者提出一些我不太懂的问题。最让我兴奋的是看到别人，尤其是孩子们，也在用它来学习和提高自己。不过我还是想强调一点：不管怎么样，都要确保人们保留自己的“自主性”（agency），并且给他们好的工具去学习、去赋能自己。随着这类强大工具的不断进化——我本人也在参与其中——我们会看到越来越多的协作能力，让人们能更个性化地使用这些工具，我对此很期待。

主持人：我也觉得，强调这一点非常重要：我们并不是为了替代人类或消灭人类交互。因为有时候人们会说，“那些做 AI 的人想把人替换掉，把我们都绑在屏幕前盯上 10 个小时。” 其实没有人想一天到晚对着屏幕，我们都知道人类交往有多重要，它对教学、对社区、对共情都意义重大。你在那本美丽的自传《世界我来过》（The World"s I See）里提到过你高中的数学老师 Sabella 先生，他就体现了“人与人互动”的重要性。能不能说说那段经历，以及他给你留下的宝贵建议？

李飞飞：我在书里记录了我早年的经历。那时我是一个 15 岁的移民女孩，刚到新泽西的公立高中就读，英语也不会讲，可以说是我的人生起点之一。非常幸运的是，我很快就遇到了数学老师 Sabella，他对我非常尊重，总是无条件地支持我。后来他不仅是我的数学老师，也成了我在那段艰难青春岁月里最好的朋友，一直到他去世都一直保持联系。他教给我的，并不是坐下来对我说，“F.F.，让我告诉你，AI 会主宰世界，你要记得以人为本哦。”——当时根本就没有 AI 这个说法，也没人会聊这些。他更像是通过日常的行动让我体会到：对社会、对生活而言，最重要的是我们如何彼此做出积极的事情，怀抱怎样的信念，以及我们追求的“光”在哪里。通过他的行动，我学会了“尊重并帮助其他人”是件多么美好的事情。哪怕这个人只是一位懵懵懂懂、不会说英语的移民小孩。对我来说，他所教给我的最大启示就是要“把人放在中心”。

主持人：真美好，谢谢你分享。

原文链接：https://www.youtube.com/watch?v=0jMgskLxw3st=1251sab_channel=ReidHoffman

END

华夏基石AI战略领导力特训营2025年第四期开始报名！

抓住数字智能时代的机遇，团报即可享受优惠！

机会难得，名额有限，别错过！

报名及咨询：柳老师15202171854

喜欢这篇文章

请为我点赞和在看