阿里巴巴(09988)发布通义千问系列的最新旗舰模型Qwen2.5-Omni

智通财经

5天前

相比传统单模态或分离式多模态模型,Qwen2.5-Omni-7B具备更强的跨模态融合能力,不仅能识别语音情绪,还能实现更智能、更自然的多感官交互,向AGI迈出关键一步。

智通财经APP获悉,今天凌晨,阿里巴巴(09988)发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。

阿里巴巴旗下通义千问正式发布并开源 Qwen2.5-Omni-7B——性能超强的端到端全模态大模型。

全模态,真正All-in-One

支持文本、图像、音频、视频输入,实时输出文本与自然语音,能够理解跨模态信息,打破模态壁垒。相比传统单模态或分离式多模态模型,Qwen2.5-Omni-7B 具备更强的跨模态融合能力,不仅能识别语音情绪,还能实现更智能、更自然的多感官交互,向 AGI 迈出关键一步。

创新技术,性能再突破

双核架构 Thinker-Talker:让语义理解与语音生成协同优化,大幅提升推理速度与响应能力。TMRoPE 位置编码算法:针对音视频任务优化,提升时序信息处理能力。 OmniBench、seed-tts-eval 领跑全球:全模态任务评测中多项指标刷新纪录,语音合成能力达到人类水平!

并且,Qwen2.5-Omni-7B 体量小,易部署,家用电脑即可运行,让全模态 AI 真正触手可及。

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com   

相比传统单模态或分离式多模态模型,Qwen2.5-Omni-7B具备更强的跨模态融合能力,不仅能识别语音情绪,还能实现更智能、更自然的多感官交互,向AGI迈出关键一步。

智通财经APP获悉,今天凌晨,阿里巴巴(09988)发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。

阿里巴巴旗下通义千问正式发布并开源 Qwen2.5-Omni-7B——性能超强的端到端全模态大模型。

全模态,真正All-in-One

支持文本、图像、音频、视频输入,实时输出文本与自然语音,能够理解跨模态信息,打破模态壁垒。相比传统单模态或分离式多模态模型,Qwen2.5-Omni-7B 具备更强的跨模态融合能力,不仅能识别语音情绪,还能实现更智能、更自然的多感官交互,向 AGI 迈出关键一步。

创新技术,性能再突破

双核架构 Thinker-Talker:让语义理解与语音生成协同优化,大幅提升推理速度与响应能力。TMRoPE 位置编码算法:针对音视频任务优化,提升时序信息处理能力。 OmniBench、seed-tts-eval 领跑全球:全模态任务评测中多项指标刷新纪录,语音合成能力达到人类水平!

并且,Qwen2.5-Omni-7B 体量小,易部署,家用电脑即可运行,让全模态 AI 真正触手可及。

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com   

展开
打开“财经头条”阅读更多精彩资讯
APP内打开