快手可灵：横空出世的视频生成新王者

易简财经

2周前

可灵发布时即支持生成长达2分钟的30fps的超长视频，分辨率高达1080p，且支持多种宽高比，数据上已经超越了只能生成1分钟视频的Sora。...右旋推进、推进上移、下移拉远”4个大师运镜，帮助用户生成具有明显运镜效果的视频画面。

来源丨老胡看AI

7月24日，为了纪念中国摘取首枚奥运金牌和首次电视转播奥运会40周年，央视频全网上线微电影《百年前的那次出发》，影片根据第一手历史档案，讲述了百年前中国人第一次报名参加奥运会的真实过程，这是央视首部生成式AI微电影。

与之前的以AIGC为主要‌噱头的AI微电影不同，《百年前的那次出发》已实际将AI作为工具使用，依托历史人物照片生成真实自然的人物动作。

而这背后正式今年最火爆的AI视频大模型——可灵AI。

成立背景

相较火爆的AI文本、AI画图、AI音乐等AI大模型应用，AI视频一直相对不太显眼，早期的AI视频技术存在诸多限制，如视频长度有限（4秒，最长延长至16秒），场景逼真度不足，元素突然出现或消失，以及运动不连贯等问题，这些问题使得AI视频无法作为素材使用。

最早打破这局面的是OpenAI。

2024年2月，OpenAI发布的视频生成大模型Sora。

Sora生成的视频：几只巨大的猛犸象穿过一片白雪覆盖的草地，长毛在风中轻轻飘动，远处是白雪覆盖的树木和大山。

相较于之前的同类视频生成模型，Sora在视频时长、分辨率的精细化程度以及场景真实感再现方面均达到了全新高度。视频时长极限也由之前的16秒拓展到1分钟。

然而，虽然OpenAI一经发布便引起业内轰动，但至今未向公众开放。

公众对AI视频产品的需求已经被唤醒，但并无落地产品可用。快手的可灵AI正是第一款离开实验室阶段，对外开放的新一代视频生成模型。

6月6日，快手正式发布AI视频大模型可灵，并同时开始内测，接受用户申请使用。可灵发布时即支持生成长达2分钟的30fps的超长视频，分辨率高达1080p，且支持多种宽高比，数据上已经超越了只能生成1分钟视频的Sora。

很快作为唯一一款开放使用的新一代视频生成模型，可灵在全球互联网上得到追捧，国内外用户大量申请使用，光内测阶段就有百万用户进行申请。

截至目前，已有超过160万人使用过快手的视频生成大模型可灵AI，并累计生成超1600万条视频。

可灵AI介绍

可灵(Kling)是由快手大模型团队自研打造的视频生成大模型，现已支持文生视频、图生视频、视频续写、运镜控制、首尾帧等多个能力，让用户轻松高效地完成艺术视频创作。

自6月6日发布以来，可灵AI持续优化功能和服务，相继开放了图生视频、视频续写等能力。

在7月的世界人工智能大会上，正式发布了Web端及多项新功能，并将单次文本生成视频的时长扩展至10秒，视频最长长度也由2分钟提升至3分钟。

7月24日，可灵AI宣布基础模型再次升级，同时全面开放内测，并于国内率先上线了会员体系。

7月30日，可灵AI正式面向全球上线会员体系。

（1）AI视频

文生视频

文生视频功能是AI视频最主要的功能。根据输入的文字，可灵AI可以根据文本表达生成 5s 或10s 视频，将文字转变为视频画面。这得益于可灵AI对文本视频语义的深刻理解和Diffusion Transformer架构的强大能力。

此外，可灵AI还能够模拟真实世界的物理特性，生成符合物理规律的视频，如食物准备、自然景观变换等。

使用更加完善的描述能有助于视频内容细节更加完整，提高视频质感。

图生视频

图生视频是指上传任意一张图片，可灵AI就能够根据图片的信息生成5s 或10s 视频的视频，同时还支持添加文本提示词来管控图像的运动。

图生视频是AI视频的一条重要技术路线。通过提供基本图片，可以让画面保持连贯性、一致性，便于创作连续性的长视频，极大降低了专业视频的创作成本与门槛。

图片叠加文本描述能使模型更加理解指令，生成符合预期的视频。

视频延长

视频延长功能是新一代视频生成模型最重要的功能，之前的AI视频模型在视频延长上容易出现断续和信息丢失，同时延长极限只能做到16秒。

可灵AI的视频延长基本保持了在现有视频的基础上进行内容的延续和扩展，同时现在最长时间已拓展到3分钟。

运镜控制

运镜控制属于镜头语言的一种，为了满足视频创作的多元性，让模型更好响应创作者对镜头的控制，可灵AI增加运镜控制功能，以绝对命令控制视频画面的运镜行为，可以通过位移参数的调节进行运镜度的选择。

可灵AI的运镜控制现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”等 6 个基本运镜。

以及“左旋推进。右旋推进、推进上移、下移拉远”4个大师运镜，帮助用户生成具有明显运镜效果的视频画面。

首尾帧功能

首尾帧功能，即上传两张图片，模型将这两张图片作为首帧和尾帧生成视频，通过点击图生视频功能右上角的增加尾帧进行使用。

可灵AI的首尾帧功能可以实现对视频的更精细控制，现阶段主要应用于视频创作中对首帧尾帧有控制要求的视频生成，能够较好实现预期生成视频的动态过渡。

（2）AI图片

可灵AI的AI图片目前主要包含文生图和垫图两个功能。

文生图指大家可以通过输入文本生成符合文本描述的A图片。

垫图则是指在文生图的基础上，增加上传参考图/垫图作为新增参数，生成与参考图/垫图内容相关的图片结果。

小结

可灵AI无疑是今年备受瞩目的AI应用之一，它标志着国内企业在AI大模型领域的一大步。

虽然过去国内企业在基础模型方面与OpenAI、谷歌等国际领先企业相比还有一定的差距，但可灵AI的推出不仅实现了技术上的后发先至，还在AI视频领域取得了领先地位，率先推出了新一代的视频生成模型，快速占据了全球AI视频用户的市场。

此外，字节也快速推出即梦AI与可灵AI竞争，在AI领域，即使是头部企业也尚未建立起不可逾越的竞争优势。在数据和算力的支撑下，不同企业之间的技术追赶速度已经超出了先前的预期。AI大模型的竞争还未结束。

•END•

联系入群 | 加微信：xjjyj666

欢迎点击易简财经视频号，看最新视频~

↓↓↓