智谱上线GLM-4-Voice端到端情感语音模型:迈向AGI之路的最新一步

IPO早知道

2周前

GLM-4-Voice的出现是智谱在迈向AGI的道路上迈出的最新一步。
发布即开源,这也是智谱首个开源的端到端多模态模型。
本文为IPO早知道原创
作者|C叔
微信公众号|ipozaozhidao

据IPO早知道消息,智谱于10月25日上线了GLM-4-Voice 端到端情感语音模型。

GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。

作为端到端的语音模型,GLM-4-Voice 避免了传统的 “语音转文字再转语音” 级联方案过程中带来的信息损失和误差积累,也拥有理论上更高的建模上限。

整体而言,GLM-4-Voice 具备以下特点:1、情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。2、调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。3、随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容和风格,支持更灵活的对话互动。4、多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。5、结合视频通话,能看也能说:即将上线视频通话功能,打造真正能看又能说的AI助理。

在保持一贯发布即上线风格的同时,GLM-4-Voice 发布即开源,这是智谱首个开源的端到端多模态模型。

可以说,GLM-4-Voice 的出现是智谱在迈向 AGI 的道路上迈出的最新一步。

当然,从文本的一种模态,到包括图像、视频、情感语音模型在内的多模态,然后让AI学会使用各种工具,背后是智谱新的基座模型能力——GLM-4-Plus。在语言文本能力方面,GLM-4-Plus和GPT-4o及405B参数量的 Llama3.1 相当。

基于GLM-4-Plus,智谱过去几年在多模态领域探索取得了一些阶段性成果。智谱发布的GLM-4-Voice,让 GLM 多模态模型家族更加完整,为朝着原生多模态模型又迈出了一步。

本文由公众号IPO早知道(ID:ipozaozhidao)原创撰写,如需转载请联系C叔↓↓↓
锅圈十月稻田优必选货拉拉
节卡机器人爱科百发艾柯医疗北芯
知行科技一脉阳光瑞浦兰钧科伦博泰

GLM-4-Voice的出现是智谱在迈向AGI的道路上迈出的最新一步。
发布即开源,这也是智谱首个开源的端到端多模态模型。
本文为IPO早知道原创
作者|C叔
微信公众号|ipozaozhidao

据IPO早知道消息,智谱于10月25日上线了GLM-4-Voice 端到端情感语音模型。

GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。

作为端到端的语音模型,GLM-4-Voice 避免了传统的 “语音转文字再转语音” 级联方案过程中带来的信息损失和误差积累,也拥有理论上更高的建模上限。

整体而言,GLM-4-Voice 具备以下特点:1、情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。2、调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。3、随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容和风格,支持更灵活的对话互动。4、多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。5、结合视频通话,能看也能说:即将上线视频通话功能,打造真正能看又能说的AI助理。

在保持一贯发布即上线风格的同时,GLM-4-Voice 发布即开源,这是智谱首个开源的端到端多模态模型。

可以说,GLM-4-Voice 的出现是智谱在迈向 AGI 的道路上迈出的最新一步。

当然,从文本的一种模态,到包括图像、视频、情感语音模型在内的多模态,然后让AI学会使用各种工具,背后是智谱新的基座模型能力——GLM-4-Plus。在语言文本能力方面,GLM-4-Plus和GPT-4o及405B参数量的 Llama3.1 相当。

基于GLM-4-Plus,智谱过去几年在多模态领域探索取得了一些阶段性成果。智谱发布的GLM-4-Voice,让 GLM 多模态模型家族更加完整,为朝着原生多模态模型又迈出了一步。

本文由公众号IPO早知道(ID:ipozaozhidao)原创撰写,如需转载请联系C叔↓↓↓
锅圈十月稻田优必选货拉拉
节卡机器人爱科百发艾柯医疗北芯
知行科技一脉阳光瑞浦兰钧科伦博泰

展开
打开“财经头条”阅读更多精彩资讯
APP内打开