作者|AI工作坊
来源 |AI深度研究员 管理智慧
咨询合作| 13699120588
文章仅代表作者本人
2025年,被众多硅谷科技领袖称为"AI Agent元年
2025年,随着Claude 、ChatGPT、Gemini Pro等大模型能力的跃升,AI Agent成为科技领域最炙手可热的话题。这些Agent不再只是被动回应,而是展现出惊人的主动性:它们能理解复杂指令、分解任务目标、持续追踪进度,甚至在完成任务时像人类助手一样主动提供建议。
采访中,李飞飞表示:"我自己也会用一些大型语言模型去理解某个概念、读一篇论文,或者提出一些我不太懂的问题。"作为斯坦福"以人为本的人工智能研究院"的创办者,她对AI Agent的理解更加务实,"最让我兴奋的是看到别人,尤其是孩子们,也在用它来学习和提高自己。""我认为,靠自然语言来分享知识,或者让人们通过自然语言去搜索、构思、学习,是一个非常强大的方式。"但她同时提醒:不管AI多么强大,都要确保人们保留自己的"自主性"(agency)。在她看来,AI Agent的根本定位应该是工具而非主导者,是赋能者而非替代者。这种观点在当下显得尤为重要:我们既要拥抱AI带来的改变,又要保持清醒的认知。
那么,在2025年这个被称为"AI Agent元年"的时刻,我们究竟需要什么样的AI Agent?又该如何把握机遇?在这次深度对话中,这位计算机视觉领域的先驱者给出了她的答案。
主持人:F.F.,很高兴见到你,欢迎来到 Possible。
李飞飞:同样,也很高兴在这里见到你。
01
主持人:我想问一下,你当初是怎么想到 ImageNet 这个主意的?那个让你觉得“啊,我们需要做这个”的契机是什么?
李飞飞:要说清楚具体的那个“关键时刻”其实不太容易,但大约是在 2006 年前后。当时我非常投入地在做研究,使用机器学习算法来尝试理解物体和图像。无论我怎么做、怎么看,都无法逃避一个数学概念:那就是机器学习中的“过拟合”(overfitting)。所谓过拟合,就是模型的复杂度和模型所用数据之间不匹配。尤其当数据——不仅仅是数据量,还有数据的复杂度——并不能有效驱动模型的时候,这个问题就会非常突出。
当然,并不是所有模型都生而平等。我们现在知道所谓“NE 网络模型”(注:此处原文中出现“NE Network models”,可能指的是神经网络模型)具有更高的容量和表征能力。但撇开这些术语不谈,数据和模型之间一定是存在相互作用的。然而我当时发现,大家只关注模型,却不关注数据,或者说只关注模型却以错误的方式看待数据。这正是当时我产生灵感的原因——我觉得我们不仅要关注模型,或者说不能只用一种方式关注模型,而是要关注数据,让数据来驱动模型。那时我刚好到了早期职业生涯的下一阶段,去普林斯顿大学任教。我在那里接触到了一个叫做“WordNet” 的项目。WordNet 与计算机视觉本身没有直接关系,但它是一种很好的方式来组织世界上的各种概念,而且我也很喜欢“WordNet”这个名字。然后,一件事情推动着另一件事的发展,ImageNet 就这样诞生了。它其实源自我对“大规模数据以及对视觉世界多样化表征”的强烈信念。
主持人:你在 AI 职业生涯的中段,创建了这个了不起的 ImageNet。现在你们还有一个 World Labs(世界实验室),我想把这条线从 ImageNet 一直延伸到 World Labs。能不能和我们谈谈 World Labs 的想法是什么?你正在构建什么,这对我们理解 AI 的未来以及对 World Labs 本身,都具有怎样的关键意义呢?
李飞飞:确实如此。我整个人的研究生涯——尤其是在 ImageNet 之后——一直在非常专注地思考一个问题:什么是“智能”?我们如何在机器中实现智能?归根结底,对我来说,它可以分解为两个非常简单的方面:如果我们观察人类智能,一方面,我们会“说话”。我们使用语言来沟通,来组织我们的知识,来交流信息。但是,智能还有另一个“半边”,对我们来说同样深远,那就是我们会“做事”。我们会去做各种事情,比如做早餐煎蛋饼,或者去远足;又或者跟朋友们一起玩耍,享受彼此的陪伴。这些行为远远超越了我们说出的任何语言。比如我们可以舒适地坐在对方面前,手里拿着啤酒罐,这些都属于“智能”的一部分。
这一部分智能,实际上是建立在我们对三维世界的理解之上——我们能够感知这个三维世界,并把它转化为一套理解、推理以及预测的过程,从而让我们能够在世界里行动。在我看来,这种能力就叫做“空间智能”(spatial intelligence)。它是具有实体躯体的智慧生物(比如人类)所固有的、最根本的本能——去处理三维空间的能力。ImageNet 之所以会出现,是因为我想要给二维图像中的像素贴上标签,而对于人类而言,二维图像是三维世界的投影。所以,从某种程度来说,ImageNet 是我们去理解所处的完整可视世界的“起步阶段”。这个起步阶段非常关键,因为无论对人、动物还是机器来说,理解并给这些图像和物体打标签,都是很重要的第一步。
但是现在,天啊,已经过去 15 年甚至 14 年了吧?我觉得我们已经准备好去做一个更宏大的目标了,几乎可以说是一个“全垒打”式的目标:去解锁智能的另一半——也就是“空间智能”这个问题。让空间智能如此有意思的一点在于,它实际上有两个层面:一个是物理的三维世界,另一个则是数字化的三维世界。而我们过去一直都无法“生活”在这两者之间。
主持人:但是现在来看,空间智能可以成为一种统一的技术,既能理解与感知“以三维为基础的物理世界”,也能理解“数字化的三维世界”。我在思考空间智能的前景时,如果回到 1880 年,那时候有马车、泥土路——你会觉得那真是个截然不同的世界。可如果只回到 1980 年,人们虽然开的车不一样,但住房还是同样的房子,人们依旧在开车,总体来说物理世界的“运作机制”并没有发生翻天覆地的变化。你觉得我们所说的这“另一半的智能”会不会在未来几十年真正带来像过去几年数字世界所经历的那种“大变革”,并进而改变现实世界?
李飞飞:我觉得会。而且我认为现实与数字之间的界限将开始变得模糊。举个例子,我会想象自己在高速公路上开车,如果车胎爆了,我虽然是个技术从业者,但我还是会觉得这会是个棘手的问题。可要是我能戴上一副眼镜,或者仅仅用手机对着我的车、对着那个爆胎,通过某个应用来协助我更换轮胎,无论是通过视觉指引、还是对话形式,或者二者结合——我觉得这就是一个最日常不过的生活场景,却可以突破物理三维世界和数字三维世界的边界。我脑中浮现出这样的科技图景:它能帮助人们做任何事,从最简单的换轮胎,到最复杂的心脏手术。这种想象真的让我兴奋不已。
02
主持人:你还说过,你经常用 LLM(大型语言模型)来学习各种东西。我觉得这是个很鼓舞人的例子——我家孩子总是觉得自己数学不错,就不想再学了,我就可以跟他们说:“看,F.F. 李飞飞都在用大型语言模型来学习,你们是不是还可以再努力一点?”不过,说到大型“世界”模型(Large World Models)和大型语言模型(LLMs),当你向别人解释它们的区别时,你会怎么讲?你觉得它们未来会如何发展?
李飞飞:从根本上说,就像我之前提到的,一种是“说话的智能”,另一种是“看”和“做”的智能。它们在模态上有非常根本的区别。大型语言模型所处理的基本单位是词汇——不管是字母也好,单词也好。而在我们所说的“世界模型”(World Models)中,基本单位则是像素(pixels)或者体素(voxels)。两者几乎可以说是不同的“语言”:语言模型对应的是“人类语言”,而三维世界对应的是“大自然的语言”。我们的目标是让 AI 算法能让人去和“像素世界”进行交互,不管这个像素世界是虚拟的还是物理的。
主持人:你刚才的回答让我想起你引用过的一句名言:社会生物学家爱德华·威尔森(Edward O. Wilson)曾说,“我们拥有旧石器时代的情感、中世纪的制度以及神一样的科技,这实在是危险至极。” 那在这样一个拥有自然语言思维、又需要教育大众的情况下,你觉得要怎样“反转”这个说法?或者说,在 AI 时代,人类有哪些机遇?
李飞飞:我依然相信威尔森的那句话,也正因为如此,你、我以及朋友们才一起创办了“以人为本的人工智能研究院(HAI)”。如果要说“反转”那句话,我可能会这么讲:“人类能够创造近似‘神一样’的技术,从而改进我们所处的‘中世纪’式制度,并超越、或引导我们那‘旧石器时代’的情感,让它们变成创造力、生产力和善意。”
主持人:那你觉得我们应该怎么“构建”这种技术,来帮助人类实现这些美好的目标?重点是放在“同情心”上吗?还是说更加注重人本身与技术之间的共生关系?如果想让科技和 AI 帮助我们成为更好的人,你觉得下一步最该做的是什么?
李飞飞:我知道你主修过哲学与技术之类的专业(笑),能看出来你对此很感兴趣。我也同意你的观点。提到那句话,我们常常把“旧石器时代”看作负面的东西,但其实它并不是一个贬义词,而是个中性的概念。人类的情感、我们对自身形象的认知,都深深地植根于我们的进化和 DNA 中,这是不会轻易改变的。我们的世界也正因为如此而既美丽又混乱。因此,当我们在探讨技术,以及技术和人类未来的关系时,就要去尊重这些最根本、真正在“旧石器时代”就扎下来的东西。有几件事是技术发展必须尊重的,尊重得越好,对我们就越有益。
第一,要尊重人类的自主性(human agency)。
我觉得 AI 在公众层面上的沟通问题之一,就是大家经常在语句里把“AI”当成主语,好像它替代了人的自主权。比如说,“AI 会治愈癌症”,我有时也不小心这么说过。可事实是,人类会“使用 AI”去治愈癌症,而不是“AI 自己”去治愈癌症;“AI 会攻克核聚变”,其实是人类科学家和工程师“使用 AI 工具”去攻克。更危险的说法是“AI 会抢走你的工作”之类的。我觉得我们应该看到,这项技术其实有更多机会去创造新的岗位、带来更多的可能性,赋能人类的自主性。这是我非常看重的一个基本原则。
第二,要尊重人本身。
每个人都希望自己健康、有成就感,并在社会中受到尊重。不管我们怎样研发和使用 AI,都不能忽视这一点。忽视它是危险的,也会适得其反。我觉得光是这两条原则,就足以在技术开发的过程中起到指引作用。我之所以会这样讨论,背后的深层信念是:任何技术、任何创新的意义,最终都应该是“造福人类”。这也是人类文明的走向:我们发明每一种工具,最初都是想把它往好的方向用。但这就像一把双刃剑,总会有人滥用它,所以我们也不得不更加努力地去让它变得更好,更加“以人为本”。这也是我们在斯坦福一起创办“以人为本的人工智能研究院”(HAI)的根本原因。我们把 AI 视为一种极其强大的工具——它是一种“文明性”工具,因此越早就把一个“以人为本并服务于人类福祉”的框架搭建起来,就越能让我们在未来走得更稳。
对于“以人为本的 AI”这一理念,我认为最关键的部分之一,就是“赋能人类”。我希望每一家企业、每一个开发者都能遵循这个理念。
03
当下 AI 发展现状
主持人:你在人工智能领域做了这么多年,担任过各种角色。我感觉很多人现在才开始慢慢了解 AI。你对当下 AI 创新的现状怎么看?包括我们现在所处的位置、开发者所面临的挑战等。你觉得要想解决这些问题、再上一个台阶,我们当下该做些什么?
李飞飞:这是一个非同凡响的时刻。我觉得这真的是一个重大“拐点”,因为 AI 的应用现在可以落到普通人和普通企业的实际使用当中。我们这些早期的 AI 先驱,曾在职业生涯初期所期待的很多愿景,如今已经变成现实或即将成为现实。比如,公众常常说起“图灵测试”,而如今这几乎已经是一个被攻克的难题了。虽然图灵测试并不是衡量智能的终极标准,但它曾经被视为一道极难的门槛,如今也可以说是被突破了。自动驾驶也是一样,虽然还没做到百分之百完美,但和 2006 年相比已经取得了巨大进展。所以,我觉得随着这些强大的模型被真正用于生产环境,提供给普通人和企业使用,我们现在正处在一个令人振奋的 AI 革新时代。不过我也非常清楚,我们身处硅谷这个“泡泡”之中吧。
主持人:我觉得,全球大部分人其实都还在努力跟上 AI 的发展步伐。我们当然能看到未来,也知道未来会走向何方。所以我相信很多 Possible 的听众也会对你所说的那些想法产生共鸣:AI 可能极大地提升人类能力,也可能带来巨大的积极影响,但我们确实需要担心那些负面后果,并希望能在正确的轨道上引导 AI。那从开发的角度看,你觉得我们需要怎么做才能确保 AI 走向积极的方向?如果你认为政府或者跨行业的合作是必要的,也请谈谈这方面的想法。
李飞飞:坦白说,我们确实能做很多事情,而且我们就应该尽快去做,早就该做了,但现在开始也不算晚,只要我们真心实意地去行动。
第一点,我觉得我们应该用“科学”而不是“科幻”来指导一切。过去对 AI 的宣传和言论有很多夸张,比如“AI 会导致人类灭绝”或者“AI 会带来世界和平”——两种说法都更像科幻而非科学。所以,谈到 AI 政策或治理时,我们需要基于数据、基于科学事实和科学方法,这一点非常重要。
第二点,我真的相信,就像其他很多技术和工具一样,我们需要给 AI 的应用场景加上“约束措施”,即在真正对人类产生影响的地方去管控,而不是去阻断其上游研发。想想汽车刚出现的时候,其实并不怎么安全——最开始甚至没有安全带,没有车门,也没有限速等等。后来我们确实付出了一些代价,包括人员伤亡,但随后人们并没有要求福特或通用“关停工厂”,而是通过立法和监管,要求配备安全带、制定速度限制等。今天的 AI 也一样:它是一种极具赋能潜力的技术,但它会带来某些风险,所以我们应该关注它在实际应用中的监管,比如当 AI 被用于医疗时,我们如何更新 FDA(美国食品药品监督管理局)的相应法规;当 AI 被用于金融时,怎样设置监管护栏来保证安全。所以,应用层面的监管才是治理重心所在。
第三点(但并非不重要)是要认识到:要让 AI 的未来变得积极,需要有一个“积极的生态系统”。这个生态系统既需要私营部门,也需要公共部门。
私营部门既包括大型公司,也包括初创企业,它们都非常重要。公共部门则关乎“公共产品”(public goods)的生产。我认为公共产品可以分两类:
基于好奇心的创新和新知识,比如说用 AI 做聚变研究、用 AI 治病、用 AI 赋能教师等等。很多这样的想法和研究往往来自公共部门——就像 ImageNet 当年就是源自公共部门支持的研究。
人才(people)。我们需要让更多年轻人、更多公众了解这项技术,而公共部门在从 K12(基础教育)到高等教育的领域,承担着主要的社会教育责任。所以这些就是我非常关心的几个 AI 治理与政策方面的要点。
04
主持人: 你刚才说的这些,我也想补充一点“AI for all”(让所有人都能接触并使用 AI)的话题。因为你一直都在推动这件事,不希望 AI 只属于那些顶尖教授、从加州理工拿到物理学博士又在斯坦福任教的精英,而是让所有人都有机会接触它。能跟我们谈谈 “AI for all” 这个项目的使命和贡献吗?
李飞飞:AI For All 是一个非营利组织,我与以前的学生和同事共同创办的。它的使命就是给来自不同背景的 K12 学生提供机会,让他们通过大学暑期项目或实习项目接触 AI。这样做的想法就是为了实现“公共产品”中的教育部分。我们都知道,AI 会改变世界,但“谁来改变 AI”?我们希望让更多多元化的人群加入到 AI 的开发和使用当中,把这项技术应用到各种美好的用途上。
在这个项目里,我们主要面向女性、农村地区或城市贫困社区的学生,以及那些在历史上被低估或代表性不足的族群。让他们来参加这些暑期课程后,也确实看到很多年轻人用 AI 去改进救护车调度算法,或者用 AI 去检测农村地区的水质问题。虽然我们的努力目前还比较小,但我希望它能不断发展。我真的认为,让更多、多元化的群体参与到 AI 里,是一项非常重要的目标。
主持人: 你在医疗领域也做了很多工作,大家应该也留意到 AI 在改善人类健康和生活方面大有潜力。能谈谈你在医疗领域的研究,以及你对 AI 在医疗保健(health care)未来发展的期望吗?
李飞飞:是的,我在我的书里也写到过,我对 AI 在医疗领域的应用充满热情。原因有很多,其中最核心的是:医疗本身就是“以人为本”(human-centered)的核心领域。整个医疗行业非常广阔,涵盖从药物研发或体外诊断(bioscience diagnostics)到临床诊断与治疗、到医疗服务(healthcare delivery)和公共卫生。这一庞大的体系中,AI 在每一个环节都有可能发挥巨大作用。
我本人非常关注的一个领域是“医疗服务”,也就是人与人之间的实际照护场景。比如说,在美国,我们的护士数量远远无法满足病患需求,而且护士的工作负荷非常大,流失率也很高。还有一些惊人的统计数据,比如有的护士在一个班次里平均要走四英里的路,只是用来取药或拿设备;或者一个班次里要处理 150 到 180 项任务。同时呢,医院里也出现了很多安全问题,比如患者因为缺乏足够照顾而从病床上跌落;对于严重的败血症(sepsis)病患如何进行分诊也是个难题。再加上人口老龄化问题,比如有些老人在家中独居,存在跌倒风险或老年痴呆的恶化……所以,在过去十多年里,我一直致力于研究如何使用“智能摄像头”(smart cameras)——一种非侵入式、非接触式的摄像头——来帮助护理人员更好地关注病人的状况。例如,监测病人是否会从病床上摔下来;如果是在家,可以监测他们的行为、情绪或营养摄入;在手术室里,可以监测手术器械的使用情况,让护士不用不断地清点器械,避免把物品遗留在病人体内。我们称这类技术为“嵌入式智能”(ambient intelligence),目的是帮助医生和医护人员更加全面地照顾患者,进而提升整体护理质量。
05
AI Agent 的前景
主持人: 现在大家也经常提到“AGI”(通用人工智能),但我记得你曾经说过:其实你都不确定“AGI”到底指的是什么,因为不同人给它的定义都不一样,像是各自的“罗夏测验”(Rorschach Test)。能不能谈谈你对“AGI”这场讨论的看法?或者说,我们该如何更理性地看待它,而不是要么觉得“它太棒了”要么觉得“它太可怕”,仿佛要毁掉所有工作或拯救整个人类?
李飞飞:这确实既有趣又令我沮丧。我真心不知道“AGI”到底意味着什么,因为我觉得这个词最初是来自商业领域,差不多十年前 AI 逐渐成熟后,商业界就开始更频繁地讨论它。其实,它最初的用意可能是为了强调未来的 AI 需要“通用化能力”,而不是特别狭窄的任务。比如说,现在的自动驾驶汽车已经比过去那些只能识别“树木”的单一视觉模型要“通用”得多。狭窄的 AI 只能完成一个非常特定的任务,而更“通用”的 AI 能应对多种任务,这的确是个实实在在的区别。
我一直觉得困惑的一点是,如果回顾 AI 的起源,约翰·麦卡锡(John McCarthy)和马文·明斯基(Marvin Minsky)这些早期奠基者在 1956 年那场著名的夏季研讨会上,所怀抱的梦想一直都是“让机器能思考,能帮助人类决策,甚至能做到一些人类做不到的事”。他们从来没有说“我们只想做一个只能识别树木的窄领域 AI”。从一开始,“人工智能”这个领域诞生时就伴随着“思考机器”的理想。所以从这个角度看,我不知道自己该叫它“AI”还是“AGI”,对我来说,这其实就是一回事。
主持人: 我也在想,就像你说的那种 AI 能够“做事情”——最近随着语音和对话式 AI 的进步,感觉就离那种“我能和 AI 像普通人一样对话,然后它去执行各种任务”的场景越来越近了。你现在生活中有没有在用类似的“AI Agent”工具?或者你觉得在未来几年里,这种有“行动力”的 AI Agent 和语音交互会如何改变我们的生活?
李飞飞:我确实觉得,靠自然语言来分享知识,或者让人们通过自然语言去搜索、构思、学习,是一个非常强大的方式。我自己也会用一些大型语言模型去理解某个概念、读一篇论文,或者提出一些我不太懂的问题。最让我兴奋的是看到别人,尤其是孩子们,也在用它来学习和提高自己。不过我还是想强调一点:不管怎么样,都要确保人们保留自己的“自主性”(agency),并且给他们好的工具去学习、去赋能自己。随着这类强大工具的不断进化——我本人也在参与其中——我们会看到越来越多的协作能力,让人们能更个性化地使用这些工具,我对此很期待。
主持人: 我也觉得,强调这一点非常重要:我们并不是为了替代人类或消灭人类交互。因为有时候人们会说,“那些做 AI 的人想把人替换掉,把我们都绑在屏幕前盯上 10 个小时。” 其实没有人想一天到晚对着屏幕,我们都知道人类交往有多重要,它对教学、对社区、对共情都意义重大。你在那本美丽的自传《世界我来过》(The World"s I See)里提到过你高中的数学老师 Sabella 先生,他就体现了“人与人互动”的重要性。能不能说说那段经历,以及他给你留下的宝贵建议?
李飞飞:我在书里记录了我早年的经历。那时我是一个 15 岁的移民女孩,刚到新泽西的公立高中就读,英语也不会讲,可以说是我的人生起点之一。非常幸运的是,我很快就遇到了数学老师 Sabella,他对我非常尊重,总是无条件地支持我。后来他不仅是我的数学老师,也成了我在那段艰难青春岁月里最好的朋友,一直到他去世都一直保持联系。他教给我的,并不是坐下来对我说,“F.F.,让我告诉你,AI 会主宰世界,你要记得以人为本哦。”——当时根本就没有 AI 这个说法,也没人会聊这些。他更像是通过日常的行动让我体会到:对社会、对生活而言,最重要的是我们如何彼此做出积极的事情,怀抱怎样的信念,以及我们追求的“光”在哪里。通过他的行动,我学会了“尊重并帮助其他人”是件多么美好的事情。哪怕这个人只是一位懵懵懂懂、不会说英语的移民小孩。对我来说,他所教给我的最大启示就是要“把人放在中心”。
主持人: 真美好,谢谢你分享。
原文链接:https://www.youtube.com/watch?v=0jMgskLxw3st=1251sab_channel=ReidHoffman
END
华夏基石AI战略领导力特训营2025年第四期开始报名!
抓住数字智能时代的机遇,团报即可享受优惠!
机会难得,名额有限,别错过!
报名及咨询:柳老师15202171854
喜欢这篇文章
请为我点赞和在看
作者|AI工作坊
来源 |AI深度研究员 管理智慧
咨询合作| 13699120588
文章仅代表作者本人
2025年,被众多硅谷科技领袖称为"AI Agent元年
2025年,随着Claude 、ChatGPT、Gemini Pro等大模型能力的跃升,AI Agent成为科技领域最炙手可热的话题。这些Agent不再只是被动回应,而是展现出惊人的主动性:它们能理解复杂指令、分解任务目标、持续追踪进度,甚至在完成任务时像人类助手一样主动提供建议。
采访中,李飞飞表示:"我自己也会用一些大型语言模型去理解某个概念、读一篇论文,或者提出一些我不太懂的问题。"作为斯坦福"以人为本的人工智能研究院"的创办者,她对AI Agent的理解更加务实,"最让我兴奋的是看到别人,尤其是孩子们,也在用它来学习和提高自己。""我认为,靠自然语言来分享知识,或者让人们通过自然语言去搜索、构思、学习,是一个非常强大的方式。"但她同时提醒:不管AI多么强大,都要确保人们保留自己的"自主性"(agency)。在她看来,AI Agent的根本定位应该是工具而非主导者,是赋能者而非替代者。这种观点在当下显得尤为重要:我们既要拥抱AI带来的改变,又要保持清醒的认知。
那么,在2025年这个被称为"AI Agent元年"的时刻,我们究竟需要什么样的AI Agent?又该如何把握机遇?在这次深度对话中,这位计算机视觉领域的先驱者给出了她的答案。
主持人:F.F.,很高兴见到你,欢迎来到 Possible。
李飞飞:同样,也很高兴在这里见到你。
01
主持人:我想问一下,你当初是怎么想到 ImageNet 这个主意的?那个让你觉得“啊,我们需要做这个”的契机是什么?
李飞飞:要说清楚具体的那个“关键时刻”其实不太容易,但大约是在 2006 年前后。当时我非常投入地在做研究,使用机器学习算法来尝试理解物体和图像。无论我怎么做、怎么看,都无法逃避一个数学概念:那就是机器学习中的“过拟合”(overfitting)。所谓过拟合,就是模型的复杂度和模型所用数据之间不匹配。尤其当数据——不仅仅是数据量,还有数据的复杂度——并不能有效驱动模型的时候,这个问题就会非常突出。
当然,并不是所有模型都生而平等。我们现在知道所谓“NE 网络模型”(注:此处原文中出现“NE Network models”,可能指的是神经网络模型)具有更高的容量和表征能力。但撇开这些术语不谈,数据和模型之间一定是存在相互作用的。然而我当时发现,大家只关注模型,却不关注数据,或者说只关注模型却以错误的方式看待数据。这正是当时我产生灵感的原因——我觉得我们不仅要关注模型,或者说不能只用一种方式关注模型,而是要关注数据,让数据来驱动模型。那时我刚好到了早期职业生涯的下一阶段,去普林斯顿大学任教。我在那里接触到了一个叫做“WordNet” 的项目。WordNet 与计算机视觉本身没有直接关系,但它是一种很好的方式来组织世界上的各种概念,而且我也很喜欢“WordNet”这个名字。然后,一件事情推动着另一件事的发展,ImageNet 就这样诞生了。它其实源自我对“大规模数据以及对视觉世界多样化表征”的强烈信念。
主持人:你在 AI 职业生涯的中段,创建了这个了不起的 ImageNet。现在你们还有一个 World Labs(世界实验室),我想把这条线从 ImageNet 一直延伸到 World Labs。能不能和我们谈谈 World Labs 的想法是什么?你正在构建什么,这对我们理解 AI 的未来以及对 World Labs 本身,都具有怎样的关键意义呢?
李飞飞:确实如此。我整个人的研究生涯——尤其是在 ImageNet 之后——一直在非常专注地思考一个问题:什么是“智能”?我们如何在机器中实现智能?归根结底,对我来说,它可以分解为两个非常简单的方面:如果我们观察人类智能,一方面,我们会“说话”。我们使用语言来沟通,来组织我们的知识,来交流信息。但是,智能还有另一个“半边”,对我们来说同样深远,那就是我们会“做事”。我们会去做各种事情,比如做早餐煎蛋饼,或者去远足;又或者跟朋友们一起玩耍,享受彼此的陪伴。这些行为远远超越了我们说出的任何语言。比如我们可以舒适地坐在对方面前,手里拿着啤酒罐,这些都属于“智能”的一部分。
这一部分智能,实际上是建立在我们对三维世界的理解之上——我们能够感知这个三维世界,并把它转化为一套理解、推理以及预测的过程,从而让我们能够在世界里行动。在我看来,这种能力就叫做“空间智能”(spatial intelligence)。它是具有实体躯体的智慧生物(比如人类)所固有的、最根本的本能——去处理三维空间的能力。ImageNet 之所以会出现,是因为我想要给二维图像中的像素贴上标签,而对于人类而言,二维图像是三维世界的投影。所以,从某种程度来说,ImageNet 是我们去理解所处的完整可视世界的“起步阶段”。这个起步阶段非常关键,因为无论对人、动物还是机器来说,理解并给这些图像和物体打标签,都是很重要的第一步。
但是现在,天啊,已经过去 15 年甚至 14 年了吧?我觉得我们已经准备好去做一个更宏大的目标了,几乎可以说是一个“全垒打”式的目标:去解锁智能的另一半——也就是“空间智能”这个问题。让空间智能如此有意思的一点在于,它实际上有两个层面:一个是物理的三维世界,另一个则是数字化的三维世界。而我们过去一直都无法“生活”在这两者之间。
主持人:但是现在来看,空间智能可以成为一种统一的技术,既能理解与感知“以三维为基础的物理世界”,也能理解“数字化的三维世界”。我在思考空间智能的前景时,如果回到 1880 年,那时候有马车、泥土路——你会觉得那真是个截然不同的世界。可如果只回到 1980 年,人们虽然开的车不一样,但住房还是同样的房子,人们依旧在开车,总体来说物理世界的“运作机制”并没有发生翻天覆地的变化。你觉得我们所说的这“另一半的智能”会不会在未来几十年真正带来像过去几年数字世界所经历的那种“大变革”,并进而改变现实世界?
李飞飞:我觉得会。而且我认为现实与数字之间的界限将开始变得模糊。举个例子,我会想象自己在高速公路上开车,如果车胎爆了,我虽然是个技术从业者,但我还是会觉得这会是个棘手的问题。可要是我能戴上一副眼镜,或者仅仅用手机对着我的车、对着那个爆胎,通过某个应用来协助我更换轮胎,无论是通过视觉指引、还是对话形式,或者二者结合——我觉得这就是一个最日常不过的生活场景,却可以突破物理三维世界和数字三维世界的边界。我脑中浮现出这样的科技图景:它能帮助人们做任何事,从最简单的换轮胎,到最复杂的心脏手术。这种想象真的让我兴奋不已。
02
主持人:你还说过,你经常用 LLM(大型语言模型)来学习各种东西。我觉得这是个很鼓舞人的例子——我家孩子总是觉得自己数学不错,就不想再学了,我就可以跟他们说:“看,F.F. 李飞飞都在用大型语言模型来学习,你们是不是还可以再努力一点?”不过,说到大型“世界”模型(Large World Models)和大型语言模型(LLMs),当你向别人解释它们的区别时,你会怎么讲?你觉得它们未来会如何发展?
李飞飞:从根本上说,就像我之前提到的,一种是“说话的智能”,另一种是“看”和“做”的智能。它们在模态上有非常根本的区别。大型语言模型所处理的基本单位是词汇——不管是字母也好,单词也好。而在我们所说的“世界模型”(World Models)中,基本单位则是像素(pixels)或者体素(voxels)。两者几乎可以说是不同的“语言”:语言模型对应的是“人类语言”,而三维世界对应的是“大自然的语言”。我们的目标是让 AI 算法能让人去和“像素世界”进行交互,不管这个像素世界是虚拟的还是物理的。
主持人:你刚才的回答让我想起你引用过的一句名言:社会生物学家爱德华·威尔森(Edward O. Wilson)曾说,“我们拥有旧石器时代的情感、中世纪的制度以及神一样的科技,这实在是危险至极。” 那在这样一个拥有自然语言思维、又需要教育大众的情况下,你觉得要怎样“反转”这个说法?或者说,在 AI 时代,人类有哪些机遇?
李飞飞:我依然相信威尔森的那句话,也正因为如此,你、我以及朋友们才一起创办了“以人为本的人工智能研究院(HAI)”。如果要说“反转”那句话,我可能会这么讲:“人类能够创造近似‘神一样’的技术,从而改进我们所处的‘中世纪’式制度,并超越、或引导我们那‘旧石器时代’的情感,让它们变成创造力、生产力和善意。”
主持人:那你觉得我们应该怎么“构建”这种技术,来帮助人类实现这些美好的目标?重点是放在“同情心”上吗?还是说更加注重人本身与技术之间的共生关系?如果想让科技和 AI 帮助我们成为更好的人,你觉得下一步最该做的是什么?
李飞飞:我知道你主修过哲学与技术之类的专业(笑),能看出来你对此很感兴趣。我也同意你的观点。提到那句话,我们常常把“旧石器时代”看作负面的东西,但其实它并不是一个贬义词,而是个中性的概念。人类的情感、我们对自身形象的认知,都深深地植根于我们的进化和 DNA 中,这是不会轻易改变的。我们的世界也正因为如此而既美丽又混乱。因此,当我们在探讨技术,以及技术和人类未来的关系时,就要去尊重这些最根本、真正在“旧石器时代”就扎下来的东西。有几件事是技术发展必须尊重的,尊重得越好,对我们就越有益。
第一,要尊重人类的自主性(human agency)。
我觉得 AI 在公众层面上的沟通问题之一,就是大家经常在语句里把“AI”当成主语,好像它替代了人的自主权。比如说,“AI 会治愈癌症”,我有时也不小心这么说过。可事实是,人类会“使用 AI”去治愈癌症,而不是“AI 自己”去治愈癌症;“AI 会攻克核聚变”,其实是人类科学家和工程师“使用 AI 工具”去攻克。更危险的说法是“AI 会抢走你的工作”之类的。我觉得我们应该看到,这项技术其实有更多机会去创造新的岗位、带来更多的可能性,赋能人类的自主性。这是我非常看重的一个基本原则。
第二,要尊重人本身。
每个人都希望自己健康、有成就感,并在社会中受到尊重。不管我们怎样研发和使用 AI,都不能忽视这一点。忽视它是危险的,也会适得其反。我觉得光是这两条原则,就足以在技术开发的过程中起到指引作用。我之所以会这样讨论,背后的深层信念是:任何技术、任何创新的意义,最终都应该是“造福人类”。这也是人类文明的走向:我们发明每一种工具,最初都是想把它往好的方向用。但这就像一把双刃剑,总会有人滥用它,所以我们也不得不更加努力地去让它变得更好,更加“以人为本”。这也是我们在斯坦福一起创办“以人为本的人工智能研究院”(HAI)的根本原因。我们把 AI 视为一种极其强大的工具——它是一种“文明性”工具,因此越早就把一个“以人为本并服务于人类福祉”的框架搭建起来,就越能让我们在未来走得更稳。
对于“以人为本的 AI”这一理念,我认为最关键的部分之一,就是“赋能人类”。我希望每一家企业、每一个开发者都能遵循这个理念。
03
当下 AI 发展现状
主持人:你在人工智能领域做了这么多年,担任过各种角色。我感觉很多人现在才开始慢慢了解 AI。你对当下 AI 创新的现状怎么看?包括我们现在所处的位置、开发者所面临的挑战等。你觉得要想解决这些问题、再上一个台阶,我们当下该做些什么?
李飞飞:这是一个非同凡响的时刻。我觉得这真的是一个重大“拐点”,因为 AI 的应用现在可以落到普通人和普通企业的实际使用当中。我们这些早期的 AI 先驱,曾在职业生涯初期所期待的很多愿景,如今已经变成现实或即将成为现实。比如,公众常常说起“图灵测试”,而如今这几乎已经是一个被攻克的难题了。虽然图灵测试并不是衡量智能的终极标准,但它曾经被视为一道极难的门槛,如今也可以说是被突破了。自动驾驶也是一样,虽然还没做到百分之百完美,但和 2006 年相比已经取得了巨大进展。所以,我觉得随着这些强大的模型被真正用于生产环境,提供给普通人和企业使用,我们现在正处在一个令人振奋的 AI 革新时代。不过我也非常清楚,我们身处硅谷这个“泡泡”之中吧。
主持人:我觉得,全球大部分人其实都还在努力跟上 AI 的发展步伐。我们当然能看到未来,也知道未来会走向何方。所以我相信很多 Possible 的听众也会对你所说的那些想法产生共鸣:AI 可能极大地提升人类能力,也可能带来巨大的积极影响,但我们确实需要担心那些负面后果,并希望能在正确的轨道上引导 AI。那从开发的角度看,你觉得我们需要怎么做才能确保 AI 走向积极的方向?如果你认为政府或者跨行业的合作是必要的,也请谈谈这方面的想法。
李飞飞:坦白说,我们确实能做很多事情,而且我们就应该尽快去做,早就该做了,但现在开始也不算晚,只要我们真心实意地去行动。
第一点,我觉得我们应该用“科学”而不是“科幻”来指导一切。过去对 AI 的宣传和言论有很多夸张,比如“AI 会导致人类灭绝”或者“AI 会带来世界和平”——两种说法都更像科幻而非科学。所以,谈到 AI 政策或治理时,我们需要基于数据、基于科学事实和科学方法,这一点非常重要。
第二点,我真的相信,就像其他很多技术和工具一样,我们需要给 AI 的应用场景加上“约束措施”,即在真正对人类产生影响的地方去管控,而不是去阻断其上游研发。想想汽车刚出现的时候,其实并不怎么安全——最开始甚至没有安全带,没有车门,也没有限速等等。后来我们确实付出了一些代价,包括人员伤亡,但随后人们并没有要求福特或通用“关停工厂”,而是通过立法和监管,要求配备安全带、制定速度限制等。今天的 AI 也一样:它是一种极具赋能潜力的技术,但它会带来某些风险,所以我们应该关注它在实际应用中的监管,比如当 AI 被用于医疗时,我们如何更新 FDA(美国食品药品监督管理局)的相应法规;当 AI 被用于金融时,怎样设置监管护栏来保证安全。所以,应用层面的监管才是治理重心所在。
第三点(但并非不重要)是要认识到:要让 AI 的未来变得积极,需要有一个“积极的生态系统”。这个生态系统既需要私营部门,也需要公共部门。
私营部门既包括大型公司,也包括初创企业,它们都非常重要。公共部门则关乎“公共产品”(public goods)的生产。我认为公共产品可以分两类:
基于好奇心的创新和新知识,比如说用 AI 做聚变研究、用 AI 治病、用 AI 赋能教师等等。很多这样的想法和研究往往来自公共部门——就像 ImageNet 当年就是源自公共部门支持的研究。
人才(people)。我们需要让更多年轻人、更多公众了解这项技术,而公共部门在从 K12(基础教育)到高等教育的领域,承担着主要的社会教育责任。所以这些就是我非常关心的几个 AI 治理与政策方面的要点。
04
主持人: 你刚才说的这些,我也想补充一点“AI for all”(让所有人都能接触并使用 AI)的话题。因为你一直都在推动这件事,不希望 AI 只属于那些顶尖教授、从加州理工拿到物理学博士又在斯坦福任教的精英,而是让所有人都有机会接触它。能跟我们谈谈 “AI for all” 这个项目的使命和贡献吗?
李飞飞:AI For All 是一个非营利组织,我与以前的学生和同事共同创办的。它的使命就是给来自不同背景的 K12 学生提供机会,让他们通过大学暑期项目或实习项目接触 AI。这样做的想法就是为了实现“公共产品”中的教育部分。我们都知道,AI 会改变世界,但“谁来改变 AI”?我们希望让更多多元化的人群加入到 AI 的开发和使用当中,把这项技术应用到各种美好的用途上。
在这个项目里,我们主要面向女性、农村地区或城市贫困社区的学生,以及那些在历史上被低估或代表性不足的族群。让他们来参加这些暑期课程后,也确实看到很多年轻人用 AI 去改进救护车调度算法,或者用 AI 去检测农村地区的水质问题。虽然我们的努力目前还比较小,但我希望它能不断发展。我真的认为,让更多、多元化的群体参与到 AI 里,是一项非常重要的目标。
主持人: 你在医疗领域也做了很多工作,大家应该也留意到 AI 在改善人类健康和生活方面大有潜力。能谈谈你在医疗领域的研究,以及你对 AI 在医疗保健(health care)未来发展的期望吗?
李飞飞:是的,我在我的书里也写到过,我对 AI 在医疗领域的应用充满热情。原因有很多,其中最核心的是:医疗本身就是“以人为本”(human-centered)的核心领域。整个医疗行业非常广阔,涵盖从药物研发或体外诊断(bioscience diagnostics)到临床诊断与治疗、到医疗服务(healthcare delivery)和公共卫生。这一庞大的体系中,AI 在每一个环节都有可能发挥巨大作用。
我本人非常关注的一个领域是“医疗服务”,也就是人与人之间的实际照护场景。比如说,在美国,我们的护士数量远远无法满足病患需求,而且护士的工作负荷非常大,流失率也很高。还有一些惊人的统计数据,比如有的护士在一个班次里平均要走四英里的路,只是用来取药或拿设备;或者一个班次里要处理 150 到 180 项任务。同时呢,医院里也出现了很多安全问题,比如患者因为缺乏足够照顾而从病床上跌落;对于严重的败血症(sepsis)病患如何进行分诊也是个难题。再加上人口老龄化问题,比如有些老人在家中独居,存在跌倒风险或老年痴呆的恶化……所以,在过去十多年里,我一直致力于研究如何使用“智能摄像头”(smart cameras)——一种非侵入式、非接触式的摄像头——来帮助护理人员更好地关注病人的状况。例如,监测病人是否会从病床上摔下来;如果是在家,可以监测他们的行为、情绪或营养摄入;在手术室里,可以监测手术器械的使用情况,让护士不用不断地清点器械,避免把物品遗留在病人体内。我们称这类技术为“嵌入式智能”(ambient intelligence),目的是帮助医生和医护人员更加全面地照顾患者,进而提升整体护理质量。
05
AI Agent 的前景
主持人: 现在大家也经常提到“AGI”(通用人工智能),但我记得你曾经说过:其实你都不确定“AGI”到底指的是什么,因为不同人给它的定义都不一样,像是各自的“罗夏测验”(Rorschach Test)。能不能谈谈你对“AGI”这场讨论的看法?或者说,我们该如何更理性地看待它,而不是要么觉得“它太棒了”要么觉得“它太可怕”,仿佛要毁掉所有工作或拯救整个人类?
李飞飞:这确实既有趣又令我沮丧。我真心不知道“AGI”到底意味着什么,因为我觉得这个词最初是来自商业领域,差不多十年前 AI 逐渐成熟后,商业界就开始更频繁地讨论它。其实,它最初的用意可能是为了强调未来的 AI 需要“通用化能力”,而不是特别狭窄的任务。比如说,现在的自动驾驶汽车已经比过去那些只能识别“树木”的单一视觉模型要“通用”得多。狭窄的 AI 只能完成一个非常特定的任务,而更“通用”的 AI 能应对多种任务,这的确是个实实在在的区别。
我一直觉得困惑的一点是,如果回顾 AI 的起源,约翰·麦卡锡(John McCarthy)和马文·明斯基(Marvin Minsky)这些早期奠基者在 1956 年那场著名的夏季研讨会上,所怀抱的梦想一直都是“让机器能思考,能帮助人类决策,甚至能做到一些人类做不到的事”。他们从来没有说“我们只想做一个只能识别树木的窄领域 AI”。从一开始,“人工智能”这个领域诞生时就伴随着“思考机器”的理想。所以从这个角度看,我不知道自己该叫它“AI”还是“AGI”,对我来说,这其实就是一回事。
主持人: 我也在想,就像你说的那种 AI 能够“做事情”——最近随着语音和对话式 AI 的进步,感觉就离那种“我能和 AI 像普通人一样对话,然后它去执行各种任务”的场景越来越近了。你现在生活中有没有在用类似的“AI Agent”工具?或者你觉得在未来几年里,这种有“行动力”的 AI Agent 和语音交互会如何改变我们的生活?
李飞飞:我确实觉得,靠自然语言来分享知识,或者让人们通过自然语言去搜索、构思、学习,是一个非常强大的方式。我自己也会用一些大型语言模型去理解某个概念、读一篇论文,或者提出一些我不太懂的问题。最让我兴奋的是看到别人,尤其是孩子们,也在用它来学习和提高自己。不过我还是想强调一点:不管怎么样,都要确保人们保留自己的“自主性”(agency),并且给他们好的工具去学习、去赋能自己。随着这类强大工具的不断进化——我本人也在参与其中——我们会看到越来越多的协作能力,让人们能更个性化地使用这些工具,我对此很期待。
主持人: 我也觉得,强调这一点非常重要:我们并不是为了替代人类或消灭人类交互。因为有时候人们会说,“那些做 AI 的人想把人替换掉,把我们都绑在屏幕前盯上 10 个小时。” 其实没有人想一天到晚对着屏幕,我们都知道人类交往有多重要,它对教学、对社区、对共情都意义重大。你在那本美丽的自传《世界我来过》(The World"s I See)里提到过你高中的数学老师 Sabella 先生,他就体现了“人与人互动”的重要性。能不能说说那段经历,以及他给你留下的宝贵建议?
李飞飞:我在书里记录了我早年的经历。那时我是一个 15 岁的移民女孩,刚到新泽西的公立高中就读,英语也不会讲,可以说是我的人生起点之一。非常幸运的是,我很快就遇到了数学老师 Sabella,他对我非常尊重,总是无条件地支持我。后来他不仅是我的数学老师,也成了我在那段艰难青春岁月里最好的朋友,一直到他去世都一直保持联系。他教给我的,并不是坐下来对我说,“F.F.,让我告诉你,AI 会主宰世界,你要记得以人为本哦。”——当时根本就没有 AI 这个说法,也没人会聊这些。他更像是通过日常的行动让我体会到:对社会、对生活而言,最重要的是我们如何彼此做出积极的事情,怀抱怎样的信念,以及我们追求的“光”在哪里。通过他的行动,我学会了“尊重并帮助其他人”是件多么美好的事情。哪怕这个人只是一位懵懵懂懂、不会说英语的移民小孩。对我来说,他所教给我的最大启示就是要“把人放在中心”。
主持人: 真美好,谢谢你分享。
原文链接:https://www.youtube.com/watch?v=0jMgskLxw3st=1251sab_channel=ReidHoffman
END
华夏基石AI战略领导力特训营2025年第四期开始报名!
抓住数字智能时代的机遇,团报即可享受优惠!
机会难得,名额有限,别错过!
报名及咨询:柳老师15202171854
喜欢这篇文章
请为我点赞和在看