中信建投：海内外视频模型密集发布 API打开商业化空间

东方财富网

3周前

MetaMovieGen包含最大参数130亿的音频生成模型，可以基于视频和可选的文本提示词生成最长45秒的高质量保真音频，包括环境声音、音效和背景音乐，音效将与视频内容同步。...二、应用落地：API接口密集发布，看好AI视频三大落地场景。

中信建投研报指出，1）AI视频模型密集发布。今年以来，Meta、谷歌、Runway、Pika，字节跳动、快手、阿里、Minimax均发布AI视频模型，都具备生成5秒以上视频的能力，色彩/动态/质量等水平普遍较高。以Meta为例，其AI视频功能将集成在Facebook、Instagram等社交平台，用户渗透率将进一步提升。目前国内模型公司中，Kimi、阶跃星辰等尚未发布视频模型，后续有望推出。

2）API逐步开放，商业化有望打开空间近期快手可灵、智谱、Runway等模型均开放视频模型API，平均生成一段5秒的视频收费在0.5元—2元不等。展望未来，随着AI视频在C端娱乐社交、B端影视内容制作等场景之下，应用渗透率提升，叠加API成本的持续下降，AI视频的商业化空间将打开。

中信建投| AI视频：海内外视频模型密集发布，API打开商业化空间

我们在7月份发布的AI视频报告系列（一）《国产AI视频：可用度强性价比高，快手可灵开启C端付费》中，率先提示国产视频模型在可用度、性价比等方面赶超海外。近期全球视频模型密集发布和迭代，无论是效果优化、功能创新还是应用落地，均有超预期表现。

6-10月海内外超10款视频模型更新。6月快手可灵1.0率先发布；7月智谱、PixVerse、Vidu推出；9月快手可灵更新1.5模型，阿里万相和字节豆包发布，海外Runway、Luma和国内快手可灵、Vidu发布API接口；10月海外Meta Movie Gen和Pika 1.5发布。

年内还有两家明星AI公司的视频模型有望发布。国产视频模型主要由大厂和AI创业公司研发，AI创业公司中，Minimax和智谱AI均已发布视频模型，我们认为整体性能位于国内第一梯队。据36氪等媒体报道，月之暗面、阶跃星辰有望在年内发布视频模型，叠加Minimax、智谱的视频模型持续迭代，我们预计国产视频模型的技术能力有望再上新台阶。

科技大厂的视频模型同样密集更新迭代。快手可灵自6月发布至今已完成10次迭代，其AI视频编辑功能也即将上线，增加可灵的实用性；字节的豆包视频模型已经在内测API和应用，国庆节后会放出更多公开API。此外，Meta深耕社交场景，用户规模大，期待Meta Movie Gen在25年全面开放，Instagram等应用有望集成AI视频能力，推动AI视频技术全球普及。

我们认为近期新模型发布，反映三大产业趋势：

1）性能迭代：动态效果提升，AI视频功能创新。视频动态和运镜效果持续提升，且在常规的文生和图生视频基础上，创新推出视频编辑、视频特效等功能，提高视频生成的可控性和趣味性。

2）应用落地：API接口密集发布，看好AI视频三大落地场景。海外Runway、Luma和国内快手可灵、Vidu等均已发布API接口，更多AI应用有望集成视频生成功能。我们预计应用将面向C端社交、创作者和B端影视三大场景加速落地。

3）技术创新：Meta提出全新技术路线，完整技术论文推动产业进步。2月初Sora验证了DiT架构在视频生成方面的可行性，后续海内外公司普遍沿用Sora的技术路径。近期Meta Movie Gen发布，创新采用区别于DiT的Transformer+Flow Matching架构，且发布92页技术报告详细披露训练方法、架构设计等，有望为其他厂商提供新的视频模型开发思路。

一、性能迭代：动态效果提升，AI视频功能创新

核心能力：动态效果更自然流畅，通过运镜增加画面动感。物体进行自然流畅的运动，并保持一致性和物理性是AI视频的主要难点之一。同时我们认为动态表现是AI视频能否大规模应用的主要影响因素之一，一方面，随着动态效果优化，AI视频内容可以从单纯的背景、转场拓展至物体运动，另一方面，动态效果在影视制作中成本高、耗时长，亟需AI技术进行降本增效。现有产品中，国内可灵、豆包和海外Meta Movie Gen在动态效果方面表现较好。

快手可灵：1.5模型的动态质量显著提升。对比1.5模型和1.0模型在可灵AI出圈案例“小男孩吃面”中的表现，1.5模型更逼真地展现面条从被夹起到入口的过程，弹性、垂坠感表现较好，同时小男孩手握筷子和咀嚼面条的动作，也相比1.0模型更加自然流畅，整体运动合理性增强。

字节豆包：动作连贯，运镜表现突出。根据Demo视频，人物可以完成“摘下墨镜、站起身、走向雕像”的连贯动作，且实现360度围绕主体环绕、前后景变焦、目标跟随、升降镜头等视角切换，提高物体动态的动感和沉浸式感受。

创新能力：AI视频功能创新，提高可控性和趣味性。除了常规的文生视频和图生视频能力，近期新产品增加了视频编辑、音效匹配、个性化视频和视频特效等一系列新功能，用户可以一站式完成视频生成和剪辑，提高工具的可用性。我们认为后续视频模型除了进一步优化视频生成核心能力，还会陆续在视频编辑、音效匹配等创新能力方面展开竞争，进一步提高AI视频的实用性、趣味性。

1）视频编辑：实现视频内容的高效调整。AI视频可控性较弱，仅靠提示词难以达到预期效果。Runway和爱诗科技分别在23年11月和24年6月发布运动笔刷功能，通过箭头、滑块等控制物体的运动方向和距离。近期发布的Meta Movie Gen可以通过文本提示词，对视频局部元素进行编辑，例如添加、移除和替换元素、修改背景、修改视频风格等，视频编辑的精准度、便利性显著提高。

2）音效匹配：AI视频告别“哑剧”。现有产品普遍只能生成静音的视频，主要是因为AI配音需要克服较多难点，包括物体和场景识别、声音模式检索、声音元素重组等。Pika在今年3月率先推出音效生成功能Sound Effects，支持根据Prompt或视频内容生成音效，例如车鸣声、广播声和欢呼声。今年9月发布的阿里万相同样带有音效，经我们实测，目前音效是自动生成的，无法通过提示词定制或修改。Meta Movie Gen包含最大参数130亿的音频生成模型，可以基于视频和可选的文本提示词生成最长45秒的高质量保真音频，包括环境声音、音效和背景音乐，音效将与视频内容同步。

3）个性化视频：多次生成的视频角色保持一致。当前公开可用的视频模型，生成视频的时长最长约10秒，如果想生成微短剧等影视作品，则需要将多个视频拼接到一起，并保证各个视频中的人物、风格是一致的。

PixVerse：视频一致性进展较快。24年4月就率先推出“角色”功能，基于用户输入的人物图像，生成该人物的视频；7月在V2版本中进一步升级一致性功能，支持一次性生成最多5段8秒视频，且片段之间会保持主体形象、画面风格和场景元素的一致。

Meta Movie Gen：同样支持个性化视频生成。该功能的应用过程与PixVerse的“角色”功能类似。随着这类功能普及，我们预计AI视频有望在短剧制作等对情节一致性要求较高的场景加速落地。

4）视频特效：增加AI视频趣味性和可玩性。Pika 1.5增加Pikaffects，包含压扁、融化、被切开、爆炸、挤压、膨胀等一系列物理特效功能，我们预计有望拓展趣味视频、表情包生成等C端场景，增加AI视频的趣味性。

二、应用落地：API接口密集发布，看好AI视频三大落地场景

视频模型API接口密集发布，更多AI应用有望集成视频生成能力。

7月：智谱推出基于视频模型CogVideoX的API接口，该模型即为智谱清影的底层模型，生成6秒视频的价格为0.5元。

9月中下旬：Runway和Luma AI同步推出视频生成模型的API接口，均已全面开放。Runway的API接口来自最新的Gen-3 Alpha Turbo模型，采用积分制的定价方式，生成5秒视频折合约0.25美元，价格比快手可灵的C端价格高40%。Luma AI的API接口已向所有用户开放，生成一段5秒钟720p分辨率的视频需支付约0.35美元。

9月底：国内Vidu和快手可灵相继推出API接口。另据火山引擎总裁谭待，豆包视频生成大模型也已经在内测API和应用，国庆节后会放出更多公开API。

在视频报告系列（一）中，我们详细展望AI对中短视频内容创作的影响。随着字节豆包、Meta、Pika等新模型发布和更新，以及Runway、快手可灵等产品与影视行业开展合作，我们预计AI视频有望率先落地C端社交娱乐、中短视频内容创作和专业级影视创作三大场景。

场景一：C端社交娱乐。去年至今出圈的妙鸭相机、Remini粘土特效、对嘴型唱歌等AI玩法，均验证用户对娱乐类AI多模态场景的高需求。对于普通用户而言，视频剪辑和生成都不是高频功能，且现有视频模型对prompt的要求仍比较高，C端产品需要聚焦具体且刚需的社交娱乐场景。我们预计字节豆包、Meta均有望在社交娱乐场景率先落地视频能力。

以Meta为例，旗下社交应用有望集成AI视频能力。当前Meta AI集成在公司旗下各个App中，提供资料搜索、文字和图像生成、图像理解等功能，Meta Connect大会披露当前Meta AI月活已超5亿，成为全球月活最高的AI应用，在Meta旗下应用的月活渗透率已超10%。据Meta官网，AI视频能力有望在25年集成至Instagram等社交应用中，用途包括制作生活日常短视频并在Reels上发布、定制生日问候并通过WhatsApp发送给朋友等。

以字节为例，AI硬件产品有望提供新的AI音视频应用体验。字节豆包首款AI智能体耳机Ola Friend已于24年10月发布，售价1199元。该产品接入豆包大模型，是字节旗下首款AI硬件设备。用户戴上耳机后，无需打开手机，就可以直接通过语音唤起豆包进行对话，成为豆包的人机交互新渠道。耳机的语音识别能力较强，我们预计在日常信息查询、旅游出行、英语学习等场景用途较大。据豆包官网、钛媒体，Ola Friend的AI功能在发售后仍会持续进行更新，且字节还有一款AI眼镜在研。随着豆包视频模型全面开放，我们预计AI硬件有望为豆包的AI技术提供新的落地方式，我们预计新AI玩法可能包括自动剪辑设备录制的音视频、实时AI虚拟人对话等。

场景二：中短视频内容创作。目前快手可灵和字节即梦已分别集成至快影和剪映两大视频剪辑App中，重构短视频创作工作流。AI短片产品落地也较快，美图公司的AI短片创作工具MOKI已全面开放，昆仑万维旗下AI短剧平台SkyReels已发布，我们预计近期将开启内测。过去动画短片、MV、网文短剧等短片制作需要经历剧本创作、分镜设计、角色挑选、视频拍摄、后期剪辑等多个流程，此类AI短片产品用AI工作流重构上述流程。

以美图的MOKI为例，用户只需经过三大步骤就可以完成AI短片制作：a）前期设定：设定好脚本、角色形象和视觉风格；b）生成视频素材：AI生成相应的分镜图，再生成视频片段；c）连接成完整的长视频：各个视频片段组合成完整的长视频，支持用户为特定篇端增加音效、驱动角色说话等。

场景三：专业级影视创作。专业的影视创作场景对AI工具需求高、付费意愿强。据动画艺术家工会（Animation Guild）今年上半年对美国55万名影视行业从业者进行的问卷调查，目前已经有69%的公司在使用生成式AI技术，其中约44%的公司将其应用于生成3D模型，39%的公司应用于设计角色和环境。因此Sora、Runway、Meta Movie Gen、快手可灵等头部视频模型均积极与影视行业开展合作。

9月Runway与狮门影业达成AI电影制作的合作。狮门影业将开放其丰富的影视资源库，包含超两万部影视作品，其中包括《饥饿游戏》系列和即将上映的《大都市》等影片。Runway将基于该影视数据，构建一个定制化的 AI 视频生成和编辑模型，旨在辅助狮门影业的创意团队提升制作效率。同期快手可灵携手李少红、贾樟柯等九位中国导演，共同启动了中国首个AIGC电影短片共创计划，智谱也与华策影视合作开发视频模型。我们认为AI 技术有望逐步渗透影视行业制作全流程，推动AI视频技术在影视行业加速落地。

三、技术创新：Meta提出视频生成新路线，加速全球AI视频产业进步

Meta Movie Gen提出新的AI视频技术路线。2月初Sora验证了DiT架构在视频生成方面相较扩散模型更具优势，此后全球主流模型普遍沿用Sora的技术路径，在DiT架构上进行微创新来研发视频生成模型。Meta Movie Gen则创新采用Transformer+流匹配（Flow Matching）的技术架构。具体而言：

Sora的DiT架构需要多步迭代，以靠近目标。扩散模型的生成过程通常是从随机噪声开始，通过去除噪声来生成样本，用大量的迭代步数逐步逼近目标分布；DiT架构是把Transformer的能力引入到这个扩散模型里，更好完成模型对全局上下文信息的捕捉能力，本质上还是扩散的思路，需要大量的迭代来接近目标。

Transformer+ Flow Matching新思路，视频生成效率更快。Transformer+ Flow Matching的思路，则是直接学习样本从噪声向目标数据分布转化的速度，模型只需通过估计如何在每个时间步中演化样本，即可生成高质量的结果，无需大量的逐步迭代，因此与扩散模型相比，新方法训练更加高效，计算成本更低，并且生成的结果在时间维度上具有更好的连续性和一致性。

Meta发布92页技术报告，详细披露架构和训练细节，为其他厂商提供更多参考。不同于OpenAI发布Sora时只进行产品演示和模型简要介绍，Meta对外展示了Meta Movie Gen的92页技术论文，包括架构、训练细节、测评方法和结果等，延续了Meta在大模型领域较为开放、共享的思路。根据技术论文，Movie Gen由两个模型组成，包括300亿参数的视频模型Movie Gen Video和130亿参数的音频模型Movie Gen Vide，沿用了较多Llama3的架构设计。在测评方面，由于视频模型涉及一致性、流畅度、色彩等大量主观评价标准，Meta主要采用人工比较的方式，对现有视频模型进行多维度的评估，结果显示Movie Gen的视频生成效果小幅度超越Sora和可灵1.5，显著超过Runway Gen-3和Luma。此外Meta还开源了多个基准测试数据集，包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench，为其他视频厂商和研究者提供了权威的评测工具和方法，有利于加速AI视频领域的进步。

版权保护力度不及预期，知识产权未划分明确的风险，IP影响力下降风险，与IP或明星合作中断的风险，大众审美取向发生转变的风险，竞争加剧的风险，用户付费意愿低的风险，消费习惯难以改变的风险，关联公司公司治理风险，内容上线表现不及预期的风险，生成式AI技术发展不及预期的风险，产品研发难度大的风险，产品上线延期的风险，营销买量成本上升风险，人才流失的风险，人力成本上升的风险，政策监管的风险，商业化能力不及预期的风险。

（文章来源：证券时报网）