深夜，阿里重磅发布！

财经头条

提升一亿中产阶级阅读效率

打开

深夜，阿里重磅发布！

证券时报

4小时前

2月25日晚，阿里巴巴宣布全面开源旗下视频生成模型万相2.1模型。据介绍，通义万相2.1模型基于Apache2.0协议，14B和1.3B两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务，全球开发者可在Github、HuggingFace和魔搭社区下载体验。

大模型开源，“卷”到了视频领域。

通义万相是阿里云通义系列AI绘画创作大模型，可辅助人类进行图片创作，于2023年7月7日正式上线。在2024年9月19日的阿里云栖大会上，阿里发布了通义万相视频生成大模型。该模型可以生成影视级高清视频，而且更能听懂中国话，被外界称为“最懂中国风”的视频大模型。

值得注意的是，就在今年1月初，通义万相视频生成模型宣布重磅升级至2.1版，模型整体性能大幅提升，尤其是在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得了显著进展。通义万相2.1推出后，凭借着优秀的表现，在权威评测榜单VBench中登上榜首。

据了解，VBench是视频生成领域的权威评测集，它一共有16个评分维度，从整体一致性、动作流畅度、画面稳定性等方面对模型进行全方位评估。VBench榜单显示，通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分，并以总分84.7%的成绩斩获第一。这意味着，通义万相是国内乃至全球视频生成模型的领跑者。

具体阿里通义团队介绍，通义万相2.1模型在图像生成和视频生成两大能力上均有显著提升。在视频生成方面，通过自研的高效VAE和DiT架构，增强了时空上下文建模能力，可支持无限长1080P视频的高效编解码，并在文字视频生成上实现了突破，成为首个支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型，可满足广告设计、短视频等领域的创作需求。

根据阿里展示的案例，当用户输入：“以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然，随着晕染的进行，水墨在纸上呈现‘福’字，墨色从深到浅过渡，呈现出独特的东方韵味。背景高级简洁，杂志摄影感”的指令时，通义万相2.1模型可以根据要求，输出具有中国特色及浓郁的新年风格的视频素材，富有东方韵味。

由于“最懂中国风”，通义万相模型在蛇年春晚上也发挥了重要作用。例如，在春晚每年的保留节目《难忘今宵》中，舞台背景中变身为绚丽花灯的城市地标，正是由通义万相图像编辑模型Wanx-ACE生成。另外，在莫文蔚与毛不易合唱的《岁月里的花》节目中，阿里通义万相利用图像风格化和首尾帧视频生成技术，生成了沉浸式的油画风舞美效果，为观众呈现了一场绚丽的视觉盛宴。

业内人士分析称，2024年春节前后，OpenAI凭借Sora在视频生成领域引发热潮，让视频生成成为各大AI厂商竞相追逐的焦点。而2025年春节，阿里通义万相则展示了视频生成技术令人瞩目的显著进步，引领着视频大模型领域继续飞速向前发展。

当前，DeepSeek正以开放的姿态参与重构全球AI生态格局，并给大模型开源社区注入了极强的信心与动力。2月24日，DeepSeek正式启动“开源周”，连续5天每天开源一个代码库，吸引了全球开发者极大关注。在开源公告中，DeepSeek还表示，自己只是探索通用人工智能的小公司，作为开源社区的一部分，每分享一行代码，都会成为加速AI行业发展的集体动力。

在DeepSeek的带动下，越来越多的AI厂商开始拥抱开源。阿里巴巴此次开源旗下视频生成模型万相2.1模型，标志着开源的范围正从大语言模型领域扩展至图像、视频等多模态大模型领域，有助于打破技术壁垒，让更多的开发者和研究人员能够共同参与到AI创新的进程中来。

大模型开源，“卷”到了视频领域。

展开

打开“财经头条”阅读更多精彩资讯