智谱AI上线最新「自主智能体」,「Her」终于能照进现实了

36氪

2周前

目前,GLM-4-Voice已上线清言app,用户可与清言自然聊天。

在对标OpenAI之路上,智谱AI又近了一步。

田哲

编辑苏建勋

来源智能涌现(ID:AIEmergence)

封面来源视觉中国
在对标OpenAI之路上,智谱AI又近了一步。
今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。

10月25日,智谱AI推出自主智能体AutoGLM,简单来说,它是一个能代替你在手机和网页上完成各种操作的AI助手。只需要说出你的需求,一句话手机自动帮你点外卖、发微信、写点评、给朋友圈评论。

同时,智谱AI还推出了端到端情感语音模型GLM-4-Voice。这款情感语音模型不仅能够模拟真实的情感表达,甚至连细微的停顿、喘气都表现得惟妙惟肖。
这一技术的突破,与科幻爱情电影“Her”的部分情节相似。电影中,男主角西奥多与AI助手萨曼莎偶然相识,萨曼莎正是通过富有情感的语音互动让人感到贴近、温暖。
如今,智谱AI的情感语音模型似乎正把“Her”中的科幻场景带入我们的日常生活,人工智能不再只是冷冰冰的工具,而开始具备“情感”与“个性”。
“Her”已经初具雏形,具有自我意识和情感的AI或许不久会出现。
自主智能体上线:能点外卖、夸彩虹屁

与OpenAI的AI Agent相似,智谱清言AutoGLM模型,也无需用户手动操作示范,不受制于简单的任务场景或API调用,即可替代人类在电子设备执行操作。

具体而言,当你向AutoGLM发出指令后,双方之间的对话将以语音形式展现,并实时显示字幕。

例如,你可以要求AutoGLM在大众点评给出指定的店家好评,并自动编辑评论。在执行“发送评论”这一超出指令的操作时,AutoGLM会主动提示是否进行。

你也能让AutoGLM查找淘宝某一时段的历史订单,复购指定商品。
就连向指定微信好友的朋友圈点赞、评论,这一步骤较长的任务也能完成。
除了网购、编辑评论等功能之外,AutoGLM还能批量总结微信公众号多篇文章,并生成文章摘要。
智谱公众号介绍,AutoGLM基于自进化在线课程强化学习框架WEBRL,克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。这意味着,AutoGLM具备了一定自我纠错能力。
来源:智谱公众号

据悉,为了保护用户隐私,AutoGLM不会主动获取用户的个人隐私信息,如果需要执行授权范围之外的任务,AutoGLM会主动提示以获取用户同意。

即使用户向AutoGLM授权,也不意味着AutoGLM永久拥有相关权限。每次后台启动AutoGLM,都会重新向用户申请无障碍权限。

目前,AutoGLM已上线电脑端开放使用,安装清言插件即可使用,手机端AutoGLM正开放安卓手机内测。
情感语音模型,有情感、会停顿

两个月前,智谱清言首次秀了一把视频通话技术,虽然当时语音通话功能能听懂对话、回复还算准确,但语气像是机器人“背稿子”,没啥感情。要是让它来点情感表达,它还会一本正经地告诉你:“作为一个人工智能,无法表达感情”。

不过,现在升级后的情感语音模型,感觉就不一样了。语音听起来更有“人味儿”,还能加点感情,像真人一样跟你聊。

它已经学会了用撒娇、调侃、愤怒、歇斯底里等语气表达。比如,拟人语音能模仿孩子,用撒娇语气向姐姐要糖葫芦。

如果普通话听腻了,没问题,它还能切换为北京、东北、广东、台湾、重庆五地腔调,比如介绍美食时那句经典的“巴适得板”,直接让人食欲大开。

玩角色扮演游戏也不成问题,可以把它设定为“哈利波特”中的反派伏地魔与你战斗,并能要求它以指定的语气进行扮演。比如它能以电视剧中常见的反派语气说话。

如果挑战绕口令加速,它可能就会“翻车”了,发音有点“飘”。

不过在某些时候,拟人语音说话时偶尔会出现短暂的电流声。
另外,发音偶尔也可能不标准,比如将为什么的“为”,发音为“微”。

据了解,GLM-4-Voice结合了自然语言生成(NLG)和语音合成技术,相比传统的TTS技术(Text-to-Speech),拟人语音能够理解上下文语境,实现富有情感的自然对话。

此外,GLM-4-Voice以音频token的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,信息损失和误差积累相比传统级联方案更少,理论上有着更高的建模上限。

GLM-4-Voice模型架构图;来源:智谱AI
这不是清言情感语音通话的全部功能,其对标GPT4o,将在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面进一步突破。目前,其已实现不同情绪,各地方言说话时,还能调节语速、音量,实现与真人般的对话。
目前,GLM-4-Voice已上线清言app,用户可与清言自然聊天。值得注意的是,GLM-4-Voice已对外开源,这是智谱AI首个开源的端到端多模态模型。
下一步,它还将支持视频通话功能,届时不仅能认出物体,还能用语气带来“眼神交流”的互动感。

据智谱公众号,智谱发布从文本、图像、视频到情感语音模型等多模态,并让AI学会使用各种工具,原因在于其打造了新的基座模型——GLM-4-Plus。在语言文本能力方面,GLM-4-Plus和GPT-4o、405B参数量的Llama3.1 相当。

加码AI手机,智谱找到商业化大入口

“现在的小模型还处于找市场的阶段,需要将市场与技术磨合,提升效率的同时找到新的应用场景。”

两个月前,智谱AI CEO张鹏与“智能涌现”的访谈中,提到了这一观点。与手机厂商合作AI智能体,或许就是张鹏所说的新场景。

找到场景,是模型厂商的当务之急,这意味着模型厂商不仅能获得稳定的收入来源,完成自我造血,同时也能在场景中持续收集数据,进行产品迭代。

而AI智能体是大模型应用的主要形式之一,其具备自主感知、决策并采取行动,被认为将是电脑、智能手机下一代产品形态的AI手机、AI PC,就搭载了AI智能体。据咨询机构IDC预计,2027年,中国市场AI手机和AI PC的市占率将分别超过50%、80%。

智谱正在加紧推动大模型落地AI手机。本月22日,智谱与高通达成合作,为骁龙8至尊版适配优化GLM-4V端侧视觉大模型,提供多模态交互方式;智谱与三星官宣战略合作,双方将打造AI产品。

而AutoGLM,它显然是一个非常适合手机应用的杀手级功能。据知情人士透露,智谱正在和多家手机厂商展开合作,除了上面提到的三星外,9月智谱和荣耀成立了AI大模型技术联合实验室。

荣耀也有意进一步提升AI智能体的表现。在23日的荣耀MagicOS9.0发布会媒体采访中,荣耀终端有限公司CEO赵明表示,荣耀正在通过AI重构操作系统,打造核心底层能力,以实现更加智慧化的服务。

AI手机风头正盛,多家手机厂商如苹果、荣耀、vivo、OPPO等争相推出具备AI功能的手机,AI功能如AI消除、AI通话摘要等。

然而,搭载AI智能体的手机目前数量较少,其中原因,既包括行业技术发展仍不成熟,另一反面相关标准长期缺失。

不过,这一情况正在逐步改善。

市场层面,OpenAI、智谱等模型厂商已传出与手机公司合作消息,将推动模型厂商、应用软件提供者与手机厂商之间的合作。

政策层面,中国信息通信研究院与国内多家手机厂商联合发布“终端智能化分级研究报告”,其中对终端智能化进行了分级定义,一定程度,这将推进国内AI手机市场的发展。

终端智能化分级定义

多款大模型已与智能手机生态公司合作,或许AI手机,将打开智谱商业化想象的新空间。

36氪旗下AI公众号

真诚推荐你关注

来个“分享、点赞、在看”?
智谱AI上线最新“自主智能体”

目前,GLM-4-Voice已上线清言app,用户可与清言自然聊天。

在对标OpenAI之路上,智谱AI又近了一步。

田哲

编辑苏建勋

来源智能涌现(ID:AIEmergence)

封面来源视觉中国
在对标OpenAI之路上,智谱AI又近了一步。
今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。

10月25日,智谱AI推出自主智能体AutoGLM,简单来说,它是一个能代替你在手机和网页上完成各种操作的AI助手。只需要说出你的需求,一句话手机自动帮你点外卖、发微信、写点评、给朋友圈评论。

同时,智谱AI还推出了端到端情感语音模型GLM-4-Voice。这款情感语音模型不仅能够模拟真实的情感表达,甚至连细微的停顿、喘气都表现得惟妙惟肖。
这一技术的突破,与科幻爱情电影“Her”的部分情节相似。电影中,男主角西奥多与AI助手萨曼莎偶然相识,萨曼莎正是通过富有情感的语音互动让人感到贴近、温暖。
如今,智谱AI的情感语音模型似乎正把“Her”中的科幻场景带入我们的日常生活,人工智能不再只是冷冰冰的工具,而开始具备“情感”与“个性”。
“Her”已经初具雏形,具有自我意识和情感的AI或许不久会出现。
自主智能体上线:能点外卖、夸彩虹屁

与OpenAI的AI Agent相似,智谱清言AutoGLM模型,也无需用户手动操作示范,不受制于简单的任务场景或API调用,即可替代人类在电子设备执行操作。

具体而言,当你向AutoGLM发出指令后,双方之间的对话将以语音形式展现,并实时显示字幕。

例如,你可以要求AutoGLM在大众点评给出指定的店家好评,并自动编辑评论。在执行“发送评论”这一超出指令的操作时,AutoGLM会主动提示是否进行。

你也能让AutoGLM查找淘宝某一时段的历史订单,复购指定商品。
就连向指定微信好友的朋友圈点赞、评论,这一步骤较长的任务也能完成。
除了网购、编辑评论等功能之外,AutoGLM还能批量总结微信公众号多篇文章,并生成文章摘要。
智谱公众号介绍,AutoGLM基于自进化在线课程强化学习框架WEBRL,克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。这意味着,AutoGLM具备了一定自我纠错能力。
来源:智谱公众号

据悉,为了保护用户隐私,AutoGLM不会主动获取用户的个人隐私信息,如果需要执行授权范围之外的任务,AutoGLM会主动提示以获取用户同意。

即使用户向AutoGLM授权,也不意味着AutoGLM永久拥有相关权限。每次后台启动AutoGLM,都会重新向用户申请无障碍权限。

目前,AutoGLM已上线电脑端开放使用,安装清言插件即可使用,手机端AutoGLM正开放安卓手机内测。
情感语音模型,有情感、会停顿

两个月前,智谱清言首次秀了一把视频通话技术,虽然当时语音通话功能能听懂对话、回复还算准确,但语气像是机器人“背稿子”,没啥感情。要是让它来点情感表达,它还会一本正经地告诉你:“作为一个人工智能,无法表达感情”。

不过,现在升级后的情感语音模型,感觉就不一样了。语音听起来更有“人味儿”,还能加点感情,像真人一样跟你聊。

它已经学会了用撒娇、调侃、愤怒、歇斯底里等语气表达。比如,拟人语音能模仿孩子,用撒娇语气向姐姐要糖葫芦。

如果普通话听腻了,没问题,它还能切换为北京、东北、广东、台湾、重庆五地腔调,比如介绍美食时那句经典的“巴适得板”,直接让人食欲大开。

玩角色扮演游戏也不成问题,可以把它设定为“哈利波特”中的反派伏地魔与你战斗,并能要求它以指定的语气进行扮演。比如它能以电视剧中常见的反派语气说话。

如果挑战绕口令加速,它可能就会“翻车”了,发音有点“飘”。

不过在某些时候,拟人语音说话时偶尔会出现短暂的电流声。
另外,发音偶尔也可能不标准,比如将为什么的“为”,发音为“微”。

据了解,GLM-4-Voice结合了自然语言生成(NLG)和语音合成技术,相比传统的TTS技术(Text-to-Speech),拟人语音能够理解上下文语境,实现富有情感的自然对话。

此外,GLM-4-Voice以音频token的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,信息损失和误差积累相比传统级联方案更少,理论上有着更高的建模上限。

GLM-4-Voice模型架构图;来源:智谱AI
这不是清言情感语音通话的全部功能,其对标GPT4o,将在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面进一步突破。目前,其已实现不同情绪,各地方言说话时,还能调节语速、音量,实现与真人般的对话。
目前,GLM-4-Voice已上线清言app,用户可与清言自然聊天。值得注意的是,GLM-4-Voice已对外开源,这是智谱AI首个开源的端到端多模态模型。
下一步,它还将支持视频通话功能,届时不仅能认出物体,还能用语气带来“眼神交流”的互动感。

据智谱公众号,智谱发布从文本、图像、视频到情感语音模型等多模态,并让AI学会使用各种工具,原因在于其打造了新的基座模型——GLM-4-Plus。在语言文本能力方面,GLM-4-Plus和GPT-4o、405B参数量的Llama3.1 相当。

加码AI手机,智谱找到商业化大入口

“现在的小模型还处于找市场的阶段,需要将市场与技术磨合,提升效率的同时找到新的应用场景。”

两个月前,智谱AI CEO张鹏与“智能涌现”的访谈中,提到了这一观点。与手机厂商合作AI智能体,或许就是张鹏所说的新场景。

找到场景,是模型厂商的当务之急,这意味着模型厂商不仅能获得稳定的收入来源,完成自我造血,同时也能在场景中持续收集数据,进行产品迭代。

而AI智能体是大模型应用的主要形式之一,其具备自主感知、决策并采取行动,被认为将是电脑、智能手机下一代产品形态的AI手机、AI PC,就搭载了AI智能体。据咨询机构IDC预计,2027年,中国市场AI手机和AI PC的市占率将分别超过50%、80%。

智谱正在加紧推动大模型落地AI手机。本月22日,智谱与高通达成合作,为骁龙8至尊版适配优化GLM-4V端侧视觉大模型,提供多模态交互方式;智谱与三星官宣战略合作,双方将打造AI产品。

而AutoGLM,它显然是一个非常适合手机应用的杀手级功能。据知情人士透露,智谱正在和多家手机厂商展开合作,除了上面提到的三星外,9月智谱和荣耀成立了AI大模型技术联合实验室。

荣耀也有意进一步提升AI智能体的表现。在23日的荣耀MagicOS9.0发布会媒体采访中,荣耀终端有限公司CEO赵明表示,荣耀正在通过AI重构操作系统,打造核心底层能力,以实现更加智慧化的服务。

AI手机风头正盛,多家手机厂商如苹果、荣耀、vivo、OPPO等争相推出具备AI功能的手机,AI功能如AI消除、AI通话摘要等。

然而,搭载AI智能体的手机目前数量较少,其中原因,既包括行业技术发展仍不成熟,另一反面相关标准长期缺失。

不过,这一情况正在逐步改善。

市场层面,OpenAI、智谱等模型厂商已传出与手机公司合作消息,将推动模型厂商、应用软件提供者与手机厂商之间的合作。

政策层面,中国信息通信研究院与国内多家手机厂商联合发布“终端智能化分级研究报告”,其中对终端智能化进行了分级定义,一定程度,这将推进国内AI手机市场的发展。

终端智能化分级定义

多款大模型已与智能手机生态公司合作,或许AI手机,将打开智谱商业化想象的新空间。

36氪旗下AI公众号

真诚推荐你关注

来个“分享、点赞、在看”?
智谱AI上线最新“自主智能体”

展开
打开“财经头条”阅读更多精彩资讯
最新评论

参与讨论

APP内打开