先来梳理一下现阶段用AI点咖啡和发红包的流程:1、自然语言理解:用户通过语音或文字向手机助手发出指令;2、读懂手机界面:手机智能体通过识别手机界面,模拟人类进行点按操作。3、跨应用协调执行:手机智能体能够在不同应用之间跳转,以完成复杂的多步骤任务。张鹏在介绍Auto GLM时曾说,“它的应用展现了大模型从对话(Chat)走向操作(Act),从生成式AI(GenAI)迈向代理式AI(Agentic AI)的演进趋势。”这些操作的背后,具体应用了什么关键技术?2023年12月,智谱AI曾发表过一篇论文,名为CogAgent: A Visual Language Model for GUI Agents(《CogAgent:GUI 代理的可视化语言模型》)。这篇论文提出了CogAgent模型,这是一种专注于GUI理解和导航的180亿参数视觉语言模型。它希望解决的问题是如何让大型视觉语言模型(VLM)更好地理解和导航图形用户界面(GUI),从而提高自动化水平。可以说,Auto GLM是基于这项研究的产品化体现,让手机、PC等端侧设备,通过视觉语言模型,读懂手机界面,实现多步骤的连续和跨App的操作。2024年2月,阿里巴巴也曾发布过一篇主题为Mobile- Agent的论文。主要解决如何在移动设备上实现自主的多模态代理,能够通过视觉感知和语义理解完成复杂的操作任务,并自主完成多步任务,且可以跨越多个App。国外科技巨头也发布过类似的研究成果。2024年4月,苹果发表了一篇论文Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs(《Ferret-UI: 基于多模态LLMs的移动UI理解模型》),其中介绍了名叫Ferret UI的模型。Ferret UI其实是建立在苹果于2023年10月就已经发布的Ferret模型之上,这个模型仅有7B和13B两个大小,是一个多模态模型。和动辄上千亿参数规模的主流多模态大模型相比,他们实在是太小了,但是他们的专长是识别图像具体区域和定位点,这项能力甚至超过了当时最强大的多模态大模型GPT-4V。苹果 AI / ML 研究科学家 Zhe Gan,当时在X上发布了一条推文称,Ferret可以“在一个图像中的任何地方、任何粒度上引用和定位任何事物”,它还可以使用图像中任何形状的区域来实现这一点。通俗来讲,这意味着Ferret模型能够识别图像中指定区域的元素,并将其精确框选。例如,如果用户在图像中圈出一个物体并询问其种类,Ferret不仅能够识别出该物种,还能理解用户所指的特定动物或植物。讲到这里,是不是立刻就能联想到今年各大手机厂商纷纷推出的“圈搜”功能。用户可以通过圈选屏幕上的内容,快速获取相关信息,支持跨应用服务,方便用户直接跳转到所需的应用或功能,比如荣耀手机支持“一圈即搜”功能的YOYO智能体;vivo提供了“小V圈搜”功能;OPPO的“小布助手”也具备相似的圈选功能。而Ferret UI模型,就是将Ferret模型的能力应用在手机、PC等端侧交互界面,用户用自然语言下达命令,模型能够直接“读懂”屏幕上的内容——包括App图标、屏幕上的文字。Bechmark测试表明,在iPhone环境下,Ferret UI在初级UI任务中超越了GPT4-V,在包含高级任务的全任务平均得分非常相近,在安卓环境下表现略差。在2024年10月,苹果又发布了新的Ferret- UI 2模型,这次的升级点主要是跨平台的用户界面(UI)理解,实验结果表明,无论是在iPhone、Android、iPad、Webpage还是AppleTV上,Ferret-UI 2都能有效地理解和响应用户意图,处理高分辨率的UI截图,并在多样化的设备生态系统中无缝扩展。而苹果在操作系统上的最大对手谷歌,甚者更早就曾发布过相关的研究成果。2023年2月24日,谷歌的一篇论文主要提出了Spotlight——一种基于视觉语言的移动端UI理解方法。它是一个纯视觉的移动UI理解模型,不依赖于视图层次结构数据,而是直接从原始像素中理解UI屏幕。采用了焦点区域抽取器(Focus Region Extractor)和区域总结器(Region Summarizer),使模型能够聚焦于屏幕上的特定区域,并生成基于ViT编码的屏幕区域的潜在表征。在3月19日,谷歌又发布了一个新的模型Screen AI,模型的大小还不到5B。它能够识别和理解UI元素和信息图表的内容,包括它们的类型、位置和相互之间的关系,并能生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。Spotlight+Screen AI拼出了谷歌在端侧AI上的技术路线。Screen AI用来理解屏幕上的按钮和文字,而Spotlight专注于屏幕上特定区域的细节,即使只给它看一小部分屏幕截图,也能告诉你那部分是干什么用的。2023年10月,谷歌在自己的pixel 8系列手机上也推出了circle to search功能。同时,作为深度绑定的合作伙伴,“圈搜”功能也成为了三星手机AI功能的主打宣传点。从荣耀、Vivo、智谱AI、阿里,到苹果和谷歌,端侧AI在现阶段的实现路径上似乎达成了一个共识,那就是基于视觉理解大模型的技术基础,让手机直接“看懂”屏幕上的内容,并做出后续的类似于手机智能体的动作。
先来梳理一下现阶段用AI点咖啡和发红包的流程:1、自然语言理解:用户通过语音或文字向手机助手发出指令;2、读懂手机界面:手机智能体通过识别手机界面,模拟人类进行点按操作。3、跨应用协调执行:手机智能体能够在不同应用之间跳转,以完成复杂的多步骤任务。张鹏在介绍Auto GLM时曾说,“它的应用展现了大模型从对话(Chat)走向操作(Act),从生成式AI(GenAI)迈向代理式AI(Agentic AI)的演进趋势。”这些操作的背后,具体应用了什么关键技术?2023年12月,智谱AI曾发表过一篇论文,名为CogAgent: A Visual Language Model for GUI Agents(《CogAgent:GUI 代理的可视化语言模型》)。这篇论文提出了CogAgent模型,这是一种专注于GUI理解和导航的180亿参数视觉语言模型。它希望解决的问题是如何让大型视觉语言模型(VLM)更好地理解和导航图形用户界面(GUI),从而提高自动化水平。可以说,Auto GLM是基于这项研究的产品化体现,让手机、PC等端侧设备,通过视觉语言模型,读懂手机界面,实现多步骤的连续和跨App的操作。2024年2月,阿里巴巴也曾发布过一篇主题为Mobile- Agent的论文。主要解决如何在移动设备上实现自主的多模态代理,能够通过视觉感知和语义理解完成复杂的操作任务,并自主完成多步任务,且可以跨越多个App。国外科技巨头也发布过类似的研究成果。2024年4月,苹果发表了一篇论文Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs(《Ferret-UI: 基于多模态LLMs的移动UI理解模型》),其中介绍了名叫Ferret UI的模型。Ferret UI其实是建立在苹果于2023年10月就已经发布的Ferret模型之上,这个模型仅有7B和13B两个大小,是一个多模态模型。和动辄上千亿参数规模的主流多模态大模型相比,他们实在是太小了,但是他们的专长是识别图像具体区域和定位点,这项能力甚至超过了当时最强大的多模态大模型GPT-4V。苹果 AI / ML 研究科学家 Zhe Gan,当时在X上发布了一条推文称,Ferret可以“在一个图像中的任何地方、任何粒度上引用和定位任何事物”,它还可以使用图像中任何形状的区域来实现这一点。通俗来讲,这意味着Ferret模型能够识别图像中指定区域的元素,并将其精确框选。例如,如果用户在图像中圈出一个物体并询问其种类,Ferret不仅能够识别出该物种,还能理解用户所指的特定动物或植物。讲到这里,是不是立刻就能联想到今年各大手机厂商纷纷推出的“圈搜”功能。用户可以通过圈选屏幕上的内容,快速获取相关信息,支持跨应用服务,方便用户直接跳转到所需的应用或功能,比如荣耀手机支持“一圈即搜”功能的YOYO智能体;vivo提供了“小V圈搜”功能;OPPO的“小布助手”也具备相似的圈选功能。而Ferret UI模型,就是将Ferret模型的能力应用在手机、PC等端侧交互界面,用户用自然语言下达命令,模型能够直接“读懂”屏幕上的内容——包括App图标、屏幕上的文字。Bechmark测试表明,在iPhone环境下,Ferret UI在初级UI任务中超越了GPT4-V,在包含高级任务的全任务平均得分非常相近,在安卓环境下表现略差。在2024年10月,苹果又发布了新的Ferret- UI 2模型,这次的升级点主要是跨平台的用户界面(UI)理解,实验结果表明,无论是在iPhone、Android、iPad、Webpage还是AppleTV上,Ferret-UI 2都能有效地理解和响应用户意图,处理高分辨率的UI截图,并在多样化的设备生态系统中无缝扩展。而苹果在操作系统上的最大对手谷歌,甚者更早就曾发布过相关的研究成果。2023年2月24日,谷歌的一篇论文主要提出了Spotlight——一种基于视觉语言的移动端UI理解方法。它是一个纯视觉的移动UI理解模型,不依赖于视图层次结构数据,而是直接从原始像素中理解UI屏幕。采用了焦点区域抽取器(Focus Region Extractor)和区域总结器(Region Summarizer),使模型能够聚焦于屏幕上的特定区域,并生成基于ViT编码的屏幕区域的潜在表征。在3月19日,谷歌又发布了一个新的模型Screen AI,模型的大小还不到5B。它能够识别和理解UI元素和信息图表的内容,包括它们的类型、位置和相互之间的关系,并能生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。Spotlight+Screen AI拼出了谷歌在端侧AI上的技术路线。Screen AI用来理解屏幕上的按钮和文字,而Spotlight专注于屏幕上特定区域的细节,即使只给它看一小部分屏幕截图,也能告诉你那部分是干什么用的。2023年10月,谷歌在自己的pixel 8系列手机上也推出了circle to search功能。同时,作为深度绑定的合作伙伴,“圈搜”功能也成为了三星手机AI功能的主打宣传点。从荣耀、Vivo、智谱AI、阿里,到苹果和谷歌,端侧AI在现阶段的实现路径上似乎达成了一个共识,那就是基于视觉理解大模型的技术基础,让手机直接“看懂”屏幕上的内容,并做出后续的类似于手机智能体的动作。