1)速览本次大会发布十余款新品:
基础模型:
Gemini 2.5 Flash 新版:毫秒级推理、稀疏 MoE 路由,性能更强。
Gemini 2.5 Pro + Deep Think :“多链自审”推理模式,思考更深入,效果提高
Imagen 4 :新版图像模型,4 K画质、1.2 s 文生图,文字排版零失真
Veo 3 + Flow应用:最新版视频生成模型,支持1080p,60帧输出,首个支持原生对话、音效同步生成的视频模型。Flow可用于剪辑
Stitch:自然语言直接转化为前端UI
搜索侧:
AI Mode :更高级的AI搜索模式,可以应对复杂问题,并可以继续追问
Shopping Graph 2.0:AI搜索购物推荐引擎,包含5000亿 SKU、支持虚拟试衣
Deep Search:类似OpenAI的深度研究功能,能提供更复杂、系统化的信息
Search Live:可通过实时摄像头进行问答、搜索,物体标注
安卓+硬件:
Android XR与智能眼镜:谷歌与Xreal合作推出了支持Android XR的智能眼镜,具备实时导航、翻译和摄像功能
Agent:
Project Mariner:谷歌版的计算机应用Agent,可以浏览网页,网页自动填表、订票 / 订位“一键代办”
其它小工具:
Google Meet实时翻译:新增了实时AI翻译功能,支持多语言交流,提升会议效率
Google Beam:原Project Starline项目更名为Google Beam,提供基于AI的3D视频通话体验,计划与HP合作推出相关设备
Gmail智能回复:引入了AI个性化回复功能,使回复内容更贴近用户语气
2)本次 I/O 大会最值得关注的部分:
谷歌搜索主动求变,全新的 AI Mode 上线,今起在美国市场推出
Gemini 2.5 Flash轻量级模型发布,2.5 Pro随后将至
Veo3、Imagen 4这两个多模态模型,让谷歌有了挑战OpenAI的另一个支柱
Android XR正式版亮相,谷歌重新下场做智能眼镜,试图挑战AR眼镜的终极形态
谷歌终于找回了自己的节奏感。
北京时间2025年5月21日凌晨,Google I/O 2025大会如期开幕。与往年充满未来愿景的"畅想"风格不同,本届大会更像一场自信而务实的技术展示。
在大会上,一共发布了十余款新产品,轻量级的Gemini 2.5 Flash模型不仅速度惊人,更兼具强大的推理能力;Veo 3视频生成系统首次实现了画面与声音的一体化生成,比Sora更进一步;而Android XR 则证明谷歌不满足于当下,已经在为下一代计算平台布局。
在被OpenAI压制了近两年后,谷歌终于找回了节奏,不再满足于被动追赶,而是选择主动颠覆。它正在主动摧毁那个为其贡献每年1750亿美元收入的搜索引擎帝国,试图在废墟上重建一个AI驱动的新王国。
本次发布会最重要的一个章节,就是AI搜索引擎的全面上线。它几乎占了发布会一半时间的。当 AI Mode 从屏幕上出现开始,谷歌最赚钱、也最脆弱的业务宣布进入“自我革命”模式。
截至今天,Perplexity AI已经存在了五百多天,ChatGPT的搜索功能也已推出超过两百天。尽管谷歌在去年五月就推出了AI摘要功能,但那只是浅尝辄止,仅能处理简单问题。而这次的AI Mode则是一场全面的改革,将聊天机器人的对话能力直接嵌入到搜索体验中,能够回应复杂问询并支持连续对话。
这一层转化,相当于用AI机器人替代掉谷歌搜索,革了自己的命。
但为什么今天谷歌要进行这场革命?
首先是技术成熟度。以Gemini 2.5 Pro为底层模型,谷歌引入的"query fan-out"技术——将复杂问题分解为数十个子查询并行处理,并行访问知识图谱、实时排行和 Gmail 语料等,再汇编成一段多模态长答复。
从技术路径来看,这一策略与OpenAI的DeepResearch思路高度重合。虽然称不上颠覆性创新,但作为行业领军者,谷歌选择跟进这一技术方向显然是必要的战略布局。
虽然技术基本成熟,但华盛顿邮报的记者在现场实验时也发现了一些小问题。他询问 AI Mode在旧金山某家餐厅点什么菜好,AI给出了一份分点列出的答案并祝他用餐愉快,却未提及该餐厅已永久停业——这一事实在谷歌地图上明确标注。
尽管这一功能仍不完美,但相比2024年I/O大会上基于Gemini 1.5 Pro推出的AI Overview初版——那个曾闹出"吃石头补钙"等离谱错误的阶段,如今的准确性和可靠性已显著提升。
第二个主要原因在于,如果再不主动“革自己的命”,搜索入口就会被竞争对手改写。
传统"关键词+链接列表"模式,正被"自然语言对话+结构化答案"取代。Perplexity用户平均每次搜索进行3.2轮追问,这种深度交互正在培养新的用户习惯。而微软通过Copilot已实现Windows系统级搜索入口替代,直接截流谷歌搜索请求。
根据Semrush报道,Perplexity 2024年4月访问量达到1.2亿。本月初,苹果高管在反垄断案中作证称,AI产品导致Safari浏览器搜索量首次下降,随后,Alphabet市值蒸发1500亿美元。分析师们开始重新评估谷歌的市场地位。投研机构伯恩斯坦认为,若将AI聊天机器人纳入考量,谷歌的搜索市场份额可能已降至65%至70%。富国银行甚至预测,这一数字可能在五年内跌破50%。
在搜索市场份额被AI聊天机器人蚕食的危机下,谷歌选择了最激进的道路——革自己的命,而不是等着被别人革命。
第三点原因,就是谷歌准备好了对应的商业模式。
相比于搜索技术本身,谷歌的AI广告技术仍领先于同行。
搜索业务贡献了Alphabet超过半数的收入,仅2024年就产生约1750亿美元,因此谷歌不仅要改变,还要确保改变依然能创造收益。AI Mode巧妙地将"Sponsored"标记的广告内容嵌入对话右侧或结尾,内部数据显示,被AI回答引用的网页点击率高于传统蓝色链接。
如果说贴片广告策略是续命,那么 这次I/O大会上发布的Shopping Graph 2.0 则像一场主动进攻。它包含种草、推荐、下单三个环节。
在种草上,谷歌宣称,新图谱拥有 500 亿 商品节点,每小时刷新 20 亿 条价格与库存信息。比如在 AI Mode 里,用户输入「七月去云南的防水双肩包」,系统会启动二次 fan-out——先爬雨季耐磨面料,再调历史价格,组合成视觉瀑布流。这看起来和小红书相当像了,小红书靠算法掌握你的喜好给你推荐,谷歌则靠你在它生态中的数据。
而在购物环节,Shopping Graph 2.0则能帮用户进行实时比价,结合用户的个人爱好和品味推荐最优选择,相当于直接变身成“什么值得买”。
Shopping Graph 2.0还提供了虚拟试衣:上传全身照,AI 用专门的服装扩散模型模拟布料折痕与光影,支持「扫一扫就穿上」的效果。淘宝这么多年一直努力的AI化方向,也让谷歌学会了。
买单环节则交给 Agentic Checkout:用户设定心仪价格,谷歌在后台监控降价并可“一键代购”,手续费区间 1.5~2 %,与 Apple IAP(苹果公司为 iOS/macOS 生态系统提供的应用内购买服务) 异曲同工。
这么看来,谷歌不光是想用AI把原有的搜索广告业务延续下去,而是甚至要把整个购物链条中除了商品供应的部分都吃进去。
野心很大, 但效果却不能保证。《每日邮报》的SEO经理曾在WAN-IFRA 世界新闻媒体大会上拿出反证:当 AI Overview 出现时,MailOnline 的桌面 CTR 从 13 % 掉到 5 % 以下,换言之,谷歌要在“用户无需点击”与“广告仍需曝光”之间再走一次钢丝。
除了这个最核心的AI Mode升级外,谷歌还把Deep Search补齐了。相对于对手GPT而言,可用摄像头实时捕捉画面进行的Search Live功能显得更有吸引力。
而能够更好地呈现赛事、商务数据图表的Data Lens则需要等到夏季才上线。
未来,加了AI Mode的谷歌搜索和 Gemini 到底有什么不同呢?一是产品化,在搜索中,谷歌可能会更明确的规范回答模式,比Gemini要严谨。另外就是双赛道,把 Search 当高速公路,而 Gemini App 是试车场。
比如复杂图表、财务曲线先在 Gemini 折腾,等错误率压低到可接受,再到 Search 上 Data Lens。毕, Search 是 35 % 利润率的现金奶牛,谷歌不愿冒“一次崩溃毁口碑”的风险。
Gemini有赢的机会
但订阅模式可能是个坎
基础LLM模型方面,Gemini 在本次大会上的升级并不特别亮眼。当前的AI行业已进入"周更"节奏——就在I/O大会前一周,Alpha Evolve突然发布新架构;而Pro版本的最新迭代也早在5月6日便抢先上线。这种按月甚至按周计时的模型军备竞赛,正在消解传统发布会"憋大招"的营销价值。
但这次基础模型也带来了一些小更新。比如,Gemini 2.5 Flash的升级版,按DeepMind 负责人 Demis Hassabis 所说,“在几乎所有维度上都更出色”,而效率还提升了 22%。它还提供了一个原声功能,能捕捉用户说话时的微妙差别,以更具表现力的方式模拟话语。
另一个更有意思的模型是Gemini Diffusion,它用Diffision架构做出了一个语言模型,与标准的Transformer模型不同,它不直接预测文本,而是通过学习逐步细化噪声来生成输出。其能力与Gemini 2.5 Flash相近,但速度极快。
根据谷歌的现场演示,你几乎看不清它的处理过程。这可以说是一个范式级的尝试,但发布页提供的信息非常稀少,颇有神秘感。
还有一个是Gemini 2.5 Pro的 Deep Think 模式,会悄悄生成多条推理链,让它们互相交叉审稿,再把投票最高的一条递给你。这能帮助Gemini 在学术与推理基准上平均再抬 3-6 分。
如果说语言模型的升级仍只是“后台换引擎”,那这次Gemini更新的升级版 Canvas 联合画布则让其前台呈现能力也大幅加强。它能直接产出漂亮的 Markdown、CSV、PSD,甚至纯手绘草图。看演示比Claude 的Artifact还好,更强于在这方面一直比较蹩脚的GPT。
谷歌还在其上更进一步推出了自己开发的前端模型产品Stitch——输入一句「做一张暗色系新闻卡片,能自适应移动」,Stitch 就能给你三张预览,还奉上完整 React+Tailwind 代码,并自带 ESLint、Playwright 测试,保证点开即跑。
这意味着一个人就能完成过去 UI 设计师、前端工程师、测试工程师的流水线;也意味着在“可视化”与“可运行”之间,谷歌搭起了其他模型厂商尚未闭合的那截索桥。
这次更新中,明显可以谷歌找到了自己真正赢过其他竞对的“银弹”之一——多模态。
前一阵OpenAI 用 GPT-4o 的生图功能为OpenAI带来了相当大的流量。谷歌这次就用心的Imagen 4补齐,画面够精致,而且生成速度还是Imagen 3的十倍。
而更激进的是Veo 3 的发布,这个模型相当惊艳。除了AI视频生成更加逼真、统一外,它能一次性产出 1080p@60fps 画面与原生对白和音效,第一次以单一模型的形式给了画面声音。
这对于仍需“视频+后配音”的其他AI视频阵营而言,这是一次降维打击。
围绕 Veo 3,谷歌还推出 Flow,一个让创作者把 8 秒 AI 片段拖进时间线、即时拼接的“故事机器”。它可以把不同的素材(视频、图片等)组合进行编排、生成。用户可以控制镜头、一致性、还可以延展生成。这比起Sora的Story Board而言,更接近一套实用的剪辑工具。这套工具把AI后期剪辑的门槛从 Premiere 降到了普通用户可以使用的水平。
可以看到,现在基本上所有的AI流行视频都是有台词和声音的,但在这之前,需要用户掌握多种AI工具的混合使用能力。但现在,Gemini App里就可以直接用上Veo 3,生成带声音的视频,再加上Flow的简单剪辑,一下子门槛拉到底,很有可能能再现GPT-4o生图带来的全民创作热潮。
然而普及的关键瓶颈在于谷歌的订阅策略设计。在本次I/O大会上公布的Ultra订阅方案中,用户需支付高达249美元/月的费用才能解锁Veo 3全功能、完整版Flow剪辑、Deep Think及Mariner 10多任务并发能力。相比之下:
14.9美元/月的Pro订阅仅提供Veo 2基础版和Flow简化剪辑
免费用户则完全无法使用视频生成功能
即便是Pro用户,也只能访问Gemini 2.5 Pro基础模型和Deep Research功能
这种将最具破圈潜力的视频生成能力严格限制在高阶订阅的策略,与OpenAI逐步开放GPT-4o多模态能力的做法形成鲜明对比。
至于大家都很关注的Agent能力,谷歌这次I/O并没有特别激进的布局。
去年 I/O 还在做“认桌角橡皮擦”实验的 Project Astra,今年学会了给修车铺打电话。一段现场视频里,用户把爆胎的自行车推到摄像头前,Gemini 标出破洞、调用 Astra 拨号附近车行询价,并完成下单购买。
这是谷歌为“最终AI私人助手”画的饼。它的其中一部分能力会逐步通过Gemini Live实现。
当前实际落地的是谷歌版的Computer Use / Operator——Project Mariner。除了可以浏览网页,完成一些基础工作外,它还可以帮用户购买棒球比赛门票或在线购买杂货,而无需访问第三方网站——他们只需与谷歌的 AI 代理聊天,它就会访问网站并为他们采取行动。
不过在这次发布会上,谷歌倒是明确了自己的to C Agent战略,它把这一切概括成三个 P:Personal(个性化),Proactive(预测性),Powerful(能力)。
个性化靠谷歌生态中的 Gmail 、Docs、地图、及Gemini和搜索的私域记忆。预测性则是建立在个性化的数据之上,通过你的日程和既往习惯去预测你未来可能需要被提醒、或许要做的事情。能力则由 Deep Think 与Gemini 2.5 Pro这种顶尖模型支撑。
这个战略无疑是最适合谷歌的,因为除了谷歌和苹果之外,可能没有任何人能够联合如此多的生态部件去构筑用户的个性化信息。缺乏这些信息,预测性就无从谈起。而能力,现在Apple Intelligence是没有的,只有谷歌有。
因此,在实现终极个人化智能助理(Agent)的竞赛中,谷歌凭借其生态优势,将成为最具竞争力的玩家之一。
谷歌要挑战AR眼镜的终极形态
Meta和雷朋在第二代智能眼镜上合作的成功,将虚拟现实世界从Apple Vision Pro那虚假的繁荣中拉了回来。
日本著名漫画家鸟山明曾说过,AR眼镜才是虚拟现实和人工智能结合的终极,于是在今年的I/O大会上,Google决定亲自下场,手把手地教苹果做AI时代的穿戴设备。
而这一次的下场,也是继2024年12月Android XR操作系统亮相至今,Google首次在正式场合谈论并展示这套「面向未来」的穿戴系统。
在Google看来,智能眼镜(包括头戴式的头显设备)是Gemini的绝佳载体,借助智能眼镜上摄像头,麦克风等的多媒体输入,配合Gemini多模态大模型生成式的能力,Google希望智能眼镜的未来是所见即所得的。
Android XR的出现,意味着Google给第三方设备厂商搭建好了软件平台,让自己和合作伙伴都可以做自己最擅长的事情,就像他们在过去20年时间里,在智能手机上做的事情一样。
这种合作分为两种形式,包括了Google第一方的产品,就像竞争对手Meta和雷朋所做的事情一样。Google在主题演讲中宣布将与三星、Gentle Monster 和 Warby Parker 合作,打造人们真正想戴的智能眼镜。
三星Project Moohan
另外,第三方厂商还可以根据自己的需求打造个性化的产品,Google提供系统级的平台支持。Google也对外展示了两款Android XR的第三方设备,包括对标Apple Vision Pro的三星 Project Moohan和Xreal的Project Aura。
Google现场演示了结合Gemini后的智能眼镜的功能。比如,它可以帮助佩戴者完成实时的翻译对话、图像记忆、地图导航、拍照、信息撰写发送等等。
在这之中,Gemini展示了它和2012年Google推出第一款智能眼镜Google Glass时最大的不同,AI本身具有的学习能力帮助现场演示的使用者在给咖啡拍照的瞬间记住了咖啡的品牌,这种能力在人工智能时代,将会成为AI穿戴设备的基础。
对于Google而言,这一次Android XR的正式发布,标志着Gemini的业务范围从手机、电视和汽车扩展到头戴式显示器设备上。很显然这家公司受到了Meta在智能眼镜设备上成功经验的启发,Android XR的出现有可能加速AI智能眼镜的普及。
愿景是好的,但实现的过程还需要继续努力。Google在演示AI眼镜实时对话翻译的时候,不出意外的翻车了,Gemini卡住造成了眼镜实时窗口的「死机」。
演示的失败将人们拉回到了现实,目睹这一幕的观众礼貌性地鼓了掌,可能在他们看来,距离Google给用户构筑的AI虚拟现实世界成型还为时尚早,问题的出现是意料之中的事。
这很契合当下AI所面临的处境,几乎所有参与其中的人都认为AI是「未来」,但「未来何时能来」,将会成为AI发展过程中,无时无刻都需要直面的问题。
2024年决定推出Android XR时,很显然Google就已经想好了重新下场打造智能眼镜。如今AI的出现,让Google距离智能眼镜的「终极」又近了一步。
这次它们能成功吗?
这场I/O大会或许会被载入谷歌的公司史册,作为它从搜索巨头向AI时代转型的关键节点。就像乔布斯在2007年的iPhone发布会改变了移动计算的轨迹一样,皮查伊在2025年的这场演讲可能同样改变了信息获取的未来方向。
谷歌正在押注一个大胆的命题:AI不仅能增强搜索,而是将彻底重塑搜索的本质。这既要让AI提供足够有价值的直接答案,又不能完全消除用户点击广告和第三方网站的动力。它必须在"AI回答一切"和"保留搜索广告生态"之间找到微妙平衡。
随着AI Mode在美国正式上线,这场实验即将接受最严苛的市场检验。谷歌能否在这场自我革命中既守住现有业务,又成功转型为AI时代的领导者,将在未来几个季度内揭晓答案。
无论结果如何,有一点已经清晰无疑:信息获取的黄金时代已经结束,AI驱动的新范式正在形成。在这个转折点上,谷歌选择了主动拥抱变革,而不是固守过去的辉煌。
正如历史反复证明的那样,能够成功自我革命的公司,往往能在下一个时代继续领跑。
1)速览本次大会发布十余款新品:
基础模型:
Gemini 2.5 Flash 新版:毫秒级推理、稀疏 MoE 路由,性能更强。
Gemini 2.5 Pro + Deep Think :“多链自审”推理模式,思考更深入,效果提高
Imagen 4 :新版图像模型,4 K画质、1.2 s 文生图,文字排版零失真
Veo 3 + Flow应用:最新版视频生成模型,支持1080p,60帧输出,首个支持原生对话、音效同步生成的视频模型。Flow可用于剪辑
Stitch:自然语言直接转化为前端UI
搜索侧:
AI Mode :更高级的AI搜索模式,可以应对复杂问题,并可以继续追问
Shopping Graph 2.0:AI搜索购物推荐引擎,包含5000亿 SKU、支持虚拟试衣
Deep Search:类似OpenAI的深度研究功能,能提供更复杂、系统化的信息
Search Live:可通过实时摄像头进行问答、搜索,物体标注
安卓+硬件:
Android XR与智能眼镜:谷歌与Xreal合作推出了支持Android XR的智能眼镜,具备实时导航、翻译和摄像功能
Agent:
Project Mariner:谷歌版的计算机应用Agent,可以浏览网页,网页自动填表、订票 / 订位“一键代办”
其它小工具:
Google Meet实时翻译:新增了实时AI翻译功能,支持多语言交流,提升会议效率
Google Beam:原Project Starline项目更名为Google Beam,提供基于AI的3D视频通话体验,计划与HP合作推出相关设备
Gmail智能回复:引入了AI个性化回复功能,使回复内容更贴近用户语气
2)本次 I/O 大会最值得关注的部分:
谷歌搜索主动求变,全新的 AI Mode 上线,今起在美国市场推出
Gemini 2.5 Flash轻量级模型发布,2.5 Pro随后将至
Veo3、Imagen 4这两个多模态模型,让谷歌有了挑战OpenAI的另一个支柱
Android XR正式版亮相,谷歌重新下场做智能眼镜,试图挑战AR眼镜的终极形态
谷歌终于找回了自己的节奏感。
北京时间2025年5月21日凌晨,Google I/O 2025大会如期开幕。与往年充满未来愿景的"畅想"风格不同,本届大会更像一场自信而务实的技术展示。
在大会上,一共发布了十余款新产品,轻量级的Gemini 2.5 Flash模型不仅速度惊人,更兼具强大的推理能力;Veo 3视频生成系统首次实现了画面与声音的一体化生成,比Sora更进一步;而Android XR 则证明谷歌不满足于当下,已经在为下一代计算平台布局。
在被OpenAI压制了近两年后,谷歌终于找回了节奏,不再满足于被动追赶,而是选择主动颠覆。它正在主动摧毁那个为其贡献每年1750亿美元收入的搜索引擎帝国,试图在废墟上重建一个AI驱动的新王国。
本次发布会最重要的一个章节,就是AI搜索引擎的全面上线。它几乎占了发布会一半时间的。当 AI Mode 从屏幕上出现开始,谷歌最赚钱、也最脆弱的业务宣布进入“自我革命”模式。
截至今天,Perplexity AI已经存在了五百多天,ChatGPT的搜索功能也已推出超过两百天。尽管谷歌在去年五月就推出了AI摘要功能,但那只是浅尝辄止,仅能处理简单问题。而这次的AI Mode则是一场全面的改革,将聊天机器人的对话能力直接嵌入到搜索体验中,能够回应复杂问询并支持连续对话。
这一层转化,相当于用AI机器人替代掉谷歌搜索,革了自己的命。
但为什么今天谷歌要进行这场革命?
首先是技术成熟度。以Gemini 2.5 Pro为底层模型,谷歌引入的"query fan-out"技术——将复杂问题分解为数十个子查询并行处理,并行访问知识图谱、实时排行和 Gmail 语料等,再汇编成一段多模态长答复。
从技术路径来看,这一策略与OpenAI的DeepResearch思路高度重合。虽然称不上颠覆性创新,但作为行业领军者,谷歌选择跟进这一技术方向显然是必要的战略布局。
虽然技术基本成熟,但华盛顿邮报的记者在现场实验时也发现了一些小问题。他询问 AI Mode在旧金山某家餐厅点什么菜好,AI给出了一份分点列出的答案并祝他用餐愉快,却未提及该餐厅已永久停业——这一事实在谷歌地图上明确标注。
尽管这一功能仍不完美,但相比2024年I/O大会上基于Gemini 1.5 Pro推出的AI Overview初版——那个曾闹出"吃石头补钙"等离谱错误的阶段,如今的准确性和可靠性已显著提升。
第二个主要原因在于,如果再不主动“革自己的命”,搜索入口就会被竞争对手改写。
传统"关键词+链接列表"模式,正被"自然语言对话+结构化答案"取代。Perplexity用户平均每次搜索进行3.2轮追问,这种深度交互正在培养新的用户习惯。而微软通过Copilot已实现Windows系统级搜索入口替代,直接截流谷歌搜索请求。
根据Semrush报道,Perplexity 2024年4月访问量达到1.2亿。本月初,苹果高管在反垄断案中作证称,AI产品导致Safari浏览器搜索量首次下降,随后,Alphabet市值蒸发1500亿美元。分析师们开始重新评估谷歌的市场地位。投研机构伯恩斯坦认为,若将AI聊天机器人纳入考量,谷歌的搜索市场份额可能已降至65%至70%。富国银行甚至预测,这一数字可能在五年内跌破50%。
在搜索市场份额被AI聊天机器人蚕食的危机下,谷歌选择了最激进的道路——革自己的命,而不是等着被别人革命。
第三点原因,就是谷歌准备好了对应的商业模式。
相比于搜索技术本身,谷歌的AI广告技术仍领先于同行。
搜索业务贡献了Alphabet超过半数的收入,仅2024年就产生约1750亿美元,因此谷歌不仅要改变,还要确保改变依然能创造收益。AI Mode巧妙地将"Sponsored"标记的广告内容嵌入对话右侧或结尾,内部数据显示,被AI回答引用的网页点击率高于传统蓝色链接。
如果说贴片广告策略是续命,那么 这次I/O大会上发布的Shopping Graph 2.0 则像一场主动进攻。它包含种草、推荐、下单三个环节。
在种草上,谷歌宣称,新图谱拥有 500 亿 商品节点,每小时刷新 20 亿 条价格与库存信息。比如在 AI Mode 里,用户输入「七月去云南的防水双肩包」,系统会启动二次 fan-out——先爬雨季耐磨面料,再调历史价格,组合成视觉瀑布流。这看起来和小红书相当像了,小红书靠算法掌握你的喜好给你推荐,谷歌则靠你在它生态中的数据。
而在购物环节,Shopping Graph 2.0则能帮用户进行实时比价,结合用户的个人爱好和品味推荐最优选择,相当于直接变身成“什么值得买”。
Shopping Graph 2.0还提供了虚拟试衣:上传全身照,AI 用专门的服装扩散模型模拟布料折痕与光影,支持「扫一扫就穿上」的效果。淘宝这么多年一直努力的AI化方向,也让谷歌学会了。
买单环节则交给 Agentic Checkout:用户设定心仪价格,谷歌在后台监控降价并可“一键代购”,手续费区间 1.5~2 %,与 Apple IAP(苹果公司为 iOS/macOS 生态系统提供的应用内购买服务) 异曲同工。
这么看来,谷歌不光是想用AI把原有的搜索广告业务延续下去,而是甚至要把整个购物链条中除了商品供应的部分都吃进去。
野心很大, 但效果却不能保证。《每日邮报》的SEO经理曾在WAN-IFRA 世界新闻媒体大会上拿出反证:当 AI Overview 出现时,MailOnline 的桌面 CTR 从 13 % 掉到 5 % 以下,换言之,谷歌要在“用户无需点击”与“广告仍需曝光”之间再走一次钢丝。
除了这个最核心的AI Mode升级外,谷歌还把Deep Search补齐了。相对于对手GPT而言,可用摄像头实时捕捉画面进行的Search Live功能显得更有吸引力。
而能够更好地呈现赛事、商务数据图表的Data Lens则需要等到夏季才上线。
未来,加了AI Mode的谷歌搜索和 Gemini 到底有什么不同呢?一是产品化,在搜索中,谷歌可能会更明确的规范回答模式,比Gemini要严谨。另外就是双赛道,把 Search 当高速公路,而 Gemini App 是试车场。
比如复杂图表、财务曲线先在 Gemini 折腾,等错误率压低到可接受,再到 Search 上 Data Lens。毕, Search 是 35 % 利润率的现金奶牛,谷歌不愿冒“一次崩溃毁口碑”的风险。
Gemini有赢的机会
但订阅模式可能是个坎
基础LLM模型方面,Gemini 在本次大会上的升级并不特别亮眼。当前的AI行业已进入"周更"节奏——就在I/O大会前一周,Alpha Evolve突然发布新架构;而Pro版本的最新迭代也早在5月6日便抢先上线。这种按月甚至按周计时的模型军备竞赛,正在消解传统发布会"憋大招"的营销价值。
但这次基础模型也带来了一些小更新。比如,Gemini 2.5 Flash的升级版,按DeepMind 负责人 Demis Hassabis 所说,“在几乎所有维度上都更出色”,而效率还提升了 22%。它还提供了一个原声功能,能捕捉用户说话时的微妙差别,以更具表现力的方式模拟话语。
另一个更有意思的模型是Gemini Diffusion,它用Diffision架构做出了一个语言模型,与标准的Transformer模型不同,它不直接预测文本,而是通过学习逐步细化噪声来生成输出。其能力与Gemini 2.5 Flash相近,但速度极快。
根据谷歌的现场演示,你几乎看不清它的处理过程。这可以说是一个范式级的尝试,但发布页提供的信息非常稀少,颇有神秘感。
还有一个是Gemini 2.5 Pro的 Deep Think 模式,会悄悄生成多条推理链,让它们互相交叉审稿,再把投票最高的一条递给你。这能帮助Gemini 在学术与推理基准上平均再抬 3-6 分。
如果说语言模型的升级仍只是“后台换引擎”,那这次Gemini更新的升级版 Canvas 联合画布则让其前台呈现能力也大幅加强。它能直接产出漂亮的 Markdown、CSV、PSD,甚至纯手绘草图。看演示比Claude 的Artifact还好,更强于在这方面一直比较蹩脚的GPT。
谷歌还在其上更进一步推出了自己开发的前端模型产品Stitch——输入一句「做一张暗色系新闻卡片,能自适应移动」,Stitch 就能给你三张预览,还奉上完整 React+Tailwind 代码,并自带 ESLint、Playwright 测试,保证点开即跑。
这意味着一个人就能完成过去 UI 设计师、前端工程师、测试工程师的流水线;也意味着在“可视化”与“可运行”之间,谷歌搭起了其他模型厂商尚未闭合的那截索桥。
这次更新中,明显可以谷歌找到了自己真正赢过其他竞对的“银弹”之一——多模态。
前一阵OpenAI 用 GPT-4o 的生图功能为OpenAI带来了相当大的流量。谷歌这次就用心的Imagen 4补齐,画面够精致,而且生成速度还是Imagen 3的十倍。
而更激进的是Veo 3 的发布,这个模型相当惊艳。除了AI视频生成更加逼真、统一外,它能一次性产出 1080p@60fps 画面与原生对白和音效,第一次以单一模型的形式给了画面声音。
这对于仍需“视频+后配音”的其他AI视频阵营而言,这是一次降维打击。
围绕 Veo 3,谷歌还推出 Flow,一个让创作者把 8 秒 AI 片段拖进时间线、即时拼接的“故事机器”。它可以把不同的素材(视频、图片等)组合进行编排、生成。用户可以控制镜头、一致性、还可以延展生成。这比起Sora的Story Board而言,更接近一套实用的剪辑工具。这套工具把AI后期剪辑的门槛从 Premiere 降到了普通用户可以使用的水平。
可以看到,现在基本上所有的AI流行视频都是有台词和声音的,但在这之前,需要用户掌握多种AI工具的混合使用能力。但现在,Gemini App里就可以直接用上Veo 3,生成带声音的视频,再加上Flow的简单剪辑,一下子门槛拉到底,很有可能能再现GPT-4o生图带来的全民创作热潮。
然而普及的关键瓶颈在于谷歌的订阅策略设计。在本次I/O大会上公布的Ultra订阅方案中,用户需支付高达249美元/月的费用才能解锁Veo 3全功能、完整版Flow剪辑、Deep Think及Mariner 10多任务并发能力。相比之下:
14.9美元/月的Pro订阅仅提供Veo 2基础版和Flow简化剪辑
免费用户则完全无法使用视频生成功能
即便是Pro用户,也只能访问Gemini 2.5 Pro基础模型和Deep Research功能
这种将最具破圈潜力的视频生成能力严格限制在高阶订阅的策略,与OpenAI逐步开放GPT-4o多模态能力的做法形成鲜明对比。
至于大家都很关注的Agent能力,谷歌这次I/O并没有特别激进的布局。
去年 I/O 还在做“认桌角橡皮擦”实验的 Project Astra,今年学会了给修车铺打电话。一段现场视频里,用户把爆胎的自行车推到摄像头前,Gemini 标出破洞、调用 Astra 拨号附近车行询价,并完成下单购买。
这是谷歌为“最终AI私人助手”画的饼。它的其中一部分能力会逐步通过Gemini Live实现。
当前实际落地的是谷歌版的Computer Use / Operator——Project Mariner。除了可以浏览网页,完成一些基础工作外,它还可以帮用户购买棒球比赛门票或在线购买杂货,而无需访问第三方网站——他们只需与谷歌的 AI 代理聊天,它就会访问网站并为他们采取行动。
不过在这次发布会上,谷歌倒是明确了自己的to C Agent战略,它把这一切概括成三个 P:Personal(个性化),Proactive(预测性),Powerful(能力)。
个性化靠谷歌生态中的 Gmail 、Docs、地图、及Gemini和搜索的私域记忆。预测性则是建立在个性化的数据之上,通过你的日程和既往习惯去预测你未来可能需要被提醒、或许要做的事情。能力则由 Deep Think 与Gemini 2.5 Pro这种顶尖模型支撑。
这个战略无疑是最适合谷歌的,因为除了谷歌和苹果之外,可能没有任何人能够联合如此多的生态部件去构筑用户的个性化信息。缺乏这些信息,预测性就无从谈起。而能力,现在Apple Intelligence是没有的,只有谷歌有。
因此,在实现终极个人化智能助理(Agent)的竞赛中,谷歌凭借其生态优势,将成为最具竞争力的玩家之一。
谷歌要挑战AR眼镜的终极形态
Meta和雷朋在第二代智能眼镜上合作的成功,将虚拟现实世界从Apple Vision Pro那虚假的繁荣中拉了回来。
日本著名漫画家鸟山明曾说过,AR眼镜才是虚拟现实和人工智能结合的终极,于是在今年的I/O大会上,Google决定亲自下场,手把手地教苹果做AI时代的穿戴设备。
而这一次的下场,也是继2024年12月Android XR操作系统亮相至今,Google首次在正式场合谈论并展示这套「面向未来」的穿戴系统。
在Google看来,智能眼镜(包括头戴式的头显设备)是Gemini的绝佳载体,借助智能眼镜上摄像头,麦克风等的多媒体输入,配合Gemini多模态大模型生成式的能力,Google希望智能眼镜的未来是所见即所得的。
Android XR的出现,意味着Google给第三方设备厂商搭建好了软件平台,让自己和合作伙伴都可以做自己最擅长的事情,就像他们在过去20年时间里,在智能手机上做的事情一样。
这种合作分为两种形式,包括了Google第一方的产品,就像竞争对手Meta和雷朋所做的事情一样。Google在主题演讲中宣布将与三星、Gentle Monster 和 Warby Parker 合作,打造人们真正想戴的智能眼镜。
三星Project Moohan
另外,第三方厂商还可以根据自己的需求打造个性化的产品,Google提供系统级的平台支持。Google也对外展示了两款Android XR的第三方设备,包括对标Apple Vision Pro的三星 Project Moohan和Xreal的Project Aura。
Google现场演示了结合Gemini后的智能眼镜的功能。比如,它可以帮助佩戴者完成实时的翻译对话、图像记忆、地图导航、拍照、信息撰写发送等等。
在这之中,Gemini展示了它和2012年Google推出第一款智能眼镜Google Glass时最大的不同,AI本身具有的学习能力帮助现场演示的使用者在给咖啡拍照的瞬间记住了咖啡的品牌,这种能力在人工智能时代,将会成为AI穿戴设备的基础。
对于Google而言,这一次Android XR的正式发布,标志着Gemini的业务范围从手机、电视和汽车扩展到头戴式显示器设备上。很显然这家公司受到了Meta在智能眼镜设备上成功经验的启发,Android XR的出现有可能加速AI智能眼镜的普及。
愿景是好的,但实现的过程还需要继续努力。Google在演示AI眼镜实时对话翻译的时候,不出意外的翻车了,Gemini卡住造成了眼镜实时窗口的「死机」。
演示的失败将人们拉回到了现实,目睹这一幕的观众礼貌性地鼓了掌,可能在他们看来,距离Google给用户构筑的AI虚拟现实世界成型还为时尚早,问题的出现是意料之中的事。
这很契合当下AI所面临的处境,几乎所有参与其中的人都认为AI是「未来」,但「未来何时能来」,将会成为AI发展过程中,无时无刻都需要直面的问题。
2024年决定推出Android XR时,很显然Google就已经想好了重新下场打造智能眼镜。如今AI的出现,让Google距离智能眼镜的「终极」又近了一步。
这次它们能成功吗?
这场I/O大会或许会被载入谷歌的公司史册,作为它从搜索巨头向AI时代转型的关键节点。就像乔布斯在2007年的iPhone发布会改变了移动计算的轨迹一样,皮查伊在2025年的这场演讲可能同样改变了信息获取的未来方向。
谷歌正在押注一个大胆的命题:AI不仅能增强搜索,而是将彻底重塑搜索的本质。这既要让AI提供足够有价值的直接答案,又不能完全消除用户点击广告和第三方网站的动力。它必须在"AI回答一切"和"保留搜索广告生态"之间找到微妙平衡。
随着AI Mode在美国正式上线,这场实验即将接受最严苛的市场检验。谷歌能否在这场自我革命中既守住现有业务,又成功转型为AI时代的领导者,将在未来几个季度内揭晓答案。
无论结果如何,有一点已经清晰无疑:信息获取的黄金时代已经结束,AI驱动的新范式正在形成。在这个转折点上,谷歌选择了主动拥抱变革,而不是固守过去的辉煌。
正如历史反复证明的那样,能够成功自我革命的公司,往往能在下一个时代继续领跑。