深夜,阿里重磅发布!

证券时报

4小时前

2月25日晚,阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型。据介绍,通义万相2.1模型基于Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。
大模型开源,“卷”到了视频领域。

2月25日晚,阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型。据介绍,通义万相2.1模型基于Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。

图片

通义万相是阿里云通义系列AI绘画创作大模型,可辅助人类进行图片创作,于2023年7月7日正式上线。在2024年9月19日的阿里云栖大会上,阿里发布了通义万相视频生成大模型。该模型可以生成影视级高清视频,而且更能听懂中国话,被外界称为“最懂中国风”的视频大模型。

值得注意的是,就在今年1月初,通义万相视频生成模型宣布重磅升级至2.1版,模型整体性能大幅提升,尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展。通义万相2.1推出后,凭借着优秀的表现,在权威评测榜单VBench中登上榜首。

图片

据了解,VBench是视频生成领域的权威评测集,它一共有16个评分维度,从整体一致性、动作流畅度、画面稳定性等方面对模型进行全方位评估。VBench榜单显示,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,并以总分84.7%的成绩斩获第一。这意味着,通义万相是国内乃至全球视频生成模型的领跑者。

具体阿里通义团队介绍,通义万相2.1模型在图像生成和视频生成两大能力上均有显著提升。在视频生成方面,通过自研的高效VAE和DiT架构,增强了时空上下文建模能力,可支持无限长1080P视频的高效编解码,并在文字视频生成上实现了突破,成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型,可满足广告设计、短视频等领域的创作需求。

根据阿里展示的案例,当用户输入:“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现‘福’字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感”的指令时,通义万相2.1模型可以根据要求,输出具有中国特色及浓郁的新年风格的视频素材,富有东方韵味。

图片

由于“最懂中国风”,通义万相模型在蛇年春晚上也发挥了重要作用。例如,在春晚每年的保留节目《难忘今宵》中,舞台背景中变身为绚丽花灯的城市地标,正是由通义万相图像编辑模型Wanx-ACE生成。另外,在莫文蔚与毛不易合唱的《岁月里的花》节目中,阿里通义万相利用图像风格化和首尾帧视频生成技术,生成了沉浸式的油画风舞美效果,为观众呈现了一场绚丽的视觉盛宴。

图片

业内人士分析称,2024年春节前后,OpenAI凭借Sora在视频生成领域引发热潮,让视频生成成为各大AI厂商竞相追逐的焦点。而2025年春节,阿里通义万相则展示了视频生成技术令人瞩目的显著进步,引领着视频大模型领域继续飞速向前发展。

当前,DeepSeek正以开放的姿态参与重构全球AI生态格局,并给大模型开源社区注入了极强的信心与动力。2月24日,DeepSeek正式启动“开源周”,连续5天每天开源一个代码库,吸引了全球开发者极大关注。在开源公告中,DeepSeek还表示,自己只是探索通用人工智能的小公司,作为开源社区的一部分,每分享一行代码,都会成为加速AI行业发展的集体动力。

在DeepSeek的带动下,越来越多的AI厂商开始拥抱开源。阿里巴巴此次开源旗下视频生成模型万相2.1模型,标志着开源的范围正从大语言模型领域扩展至图像、视频等多模态大模型领域,有助于打破技术壁垒,让更多的开发者和研究人员能够共同参与到AI创新的进程中来。

2月25日晚,阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型。据介绍,通义万相2.1模型基于Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。
大模型开源,“卷”到了视频领域。

2月25日晚,阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型。据介绍,通义万相2.1模型基于Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。

图片

通义万相是阿里云通义系列AI绘画创作大模型,可辅助人类进行图片创作,于2023年7月7日正式上线。在2024年9月19日的阿里云栖大会上,阿里发布了通义万相视频生成大模型。该模型可以生成影视级高清视频,而且更能听懂中国话,被外界称为“最懂中国风”的视频大模型。

值得注意的是,就在今年1月初,通义万相视频生成模型宣布重磅升级至2.1版,模型整体性能大幅提升,尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展。通义万相2.1推出后,凭借着优秀的表现,在权威评测榜单VBench中登上榜首。

图片

据了解,VBench是视频生成领域的权威评测集,它一共有16个评分维度,从整体一致性、动作流畅度、画面稳定性等方面对模型进行全方位评估。VBench榜单显示,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,并以总分84.7%的成绩斩获第一。这意味着,通义万相是国内乃至全球视频生成模型的领跑者。

具体阿里通义团队介绍,通义万相2.1模型在图像生成和视频生成两大能力上均有显著提升。在视频生成方面,通过自研的高效VAE和DiT架构,增强了时空上下文建模能力,可支持无限长1080P视频的高效编解码,并在文字视频生成上实现了突破,成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型,可满足广告设计、短视频等领域的创作需求。

根据阿里展示的案例,当用户输入:“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现‘福’字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感”的指令时,通义万相2.1模型可以根据要求,输出具有中国特色及浓郁的新年风格的视频素材,富有东方韵味。

图片

由于“最懂中国风”,通义万相模型在蛇年春晚上也发挥了重要作用。例如,在春晚每年的保留节目《难忘今宵》中,舞台背景中变身为绚丽花灯的城市地标,正是由通义万相图像编辑模型Wanx-ACE生成。另外,在莫文蔚与毛不易合唱的《岁月里的花》节目中,阿里通义万相利用图像风格化和首尾帧视频生成技术,生成了沉浸式的油画风舞美效果,为观众呈现了一场绚丽的视觉盛宴。

图片

业内人士分析称,2024年春节前后,OpenAI凭借Sora在视频生成领域引发热潮,让视频生成成为各大AI厂商竞相追逐的焦点。而2025年春节,阿里通义万相则展示了视频生成技术令人瞩目的显著进步,引领着视频大模型领域继续飞速向前发展。

当前,DeepSeek正以开放的姿态参与重构全球AI生态格局,并给大模型开源社区注入了极强的信心与动力。2月24日,DeepSeek正式启动“开源周”,连续5天每天开源一个代码库,吸引了全球开发者极大关注。在开源公告中,DeepSeek还表示,自己只是探索通用人工智能的小公司,作为开源社区的一部分,每分享一行代码,都会成为加速AI行业发展的集体动力。

在DeepSeek的带动下,越来越多的AI厂商开始拥抱开源。阿里巴巴此次开源旗下视频生成模型万相2.1模型,标志着开源的范围正从大语言模型领域扩展至图像、视频等多模态大模型领域,有助于打破技术壁垒,让更多的开发者和研究人员能够共同参与到AI创新的进程中来。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开