快手可灵:横空出世的视频生成新王者

易简财经

2个月前

可灵发布时即支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比,数据上已经超越了只能生成1分钟视频的Sora。...右旋推进、推进上移、下移拉远”4个大师运镜,帮助用户生成具有明显运镜效果的视频画面。

来源丨老胡看AI

7月24日,为了纪念中国摘取首枚奥运金牌和首次电视转播奥运会40周年,央视频全网上线微电影《百年前的那次出发》,影片根据第一手历史档案,讲述了百年前中国人第一次报名参加奥运会的真实过程,这是央视首部生成式AI微电影。

与之前的以AIGC为主要‌噱头的AI微电影不同,《百年前的那次出发》已实际将AI作为工具使用,依托历史人物照片生成真实自然的人物动作。

而这背后正式今年最火爆的AI视频大模型——可灵AI。

成立背景

相较火爆的AI文本、AI画图、AI音乐等AI大模型应用,AI视频一直相对不太显眼,早期的AI视频技术存在诸多限制,如视频长度有限(4秒,最长延长至16秒),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得AI视频无法作为素材使用。

最早打破这局面的是OpenAI。

2024年2月,OpenAI发布的视频生成大模型Sora。

Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。

相较于之前的同类视频生成模型,Sora在视频时长、分辨率的精细化程度以及场景真实感再现方面均达到了全新高度。视频时长极限也由之前的16秒拓展到1分钟。

然而,虽然OpenAI一经发布便引起业内轰动,但至今未向公众开放。

公众对AI视频产品的需求已经被唤醒,但并无落地产品可用。快手的可灵AI正是第一款离开实验室阶段,对外开放的新一代视频生成模型。

6月6日,快手正式发布AI视频大模型可灵,并同时开始内测,接受用户申请使用。可灵发布时即支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比,数据上已经超越了只能生成1分钟视频的Sora。

很快作为唯一一款开放使用的新一代视频生成模型,可灵在全球互联网上得到追捧,国内外用户大量申请使用,光内测阶段就有百万用户进行申请。

截至目前,已有超过160万人使用过快手的视频生成大模型可灵AI,并累计生成超1600万条视频。

可灵AI介绍

可灵(Kling)是由快手大模型团队自研打造的视频生成大模型,现已支持文生视频、图生视频、视频续写、运镜控制、首尾帧等多个能力,让用户轻松高效地完成艺术视频创作。

自6月6日发布以来,可灵AI持续优化功能和服务,相继开放了图生视频、视频续写等能力。

在7月的世界人工智能大会上,正式发布了Web端及多项新功能,并将单次文本生成视频的时长扩展至10秒,视频最长长度也由2分钟提升至3分钟。

7月24日,可灵AI宣布基础模型再次升级,同时全面开放内测,并于国内率先上线了会员体系。

7月30日,可灵AI正式面向全球上线会员体系。

(1)AI视频

文生视频

文生视频功能是AI视频最主要的功能。根据输入的文字,可灵AI可以根据文本表达生成 5s 或10s 视频,将文字转变为视频画面。这得益于可灵AI对文本视频语义的深刻理解和Diffusion Transformer架构的强大能力。

此外,可灵AI还能够模拟真实世界的物理特性,生成符合物理规律的视频,如食物准备、自然景观变换等。

使用更加完善的描述能有助于视频内容细节更加完整,提高视频质感。

图生视频

图生视频是指上传任意一张图片,可灵AI就能够根据图片的信息生成5s 或10s 视频的视频,同时还支持添加文本提示词来管控图像的运动。

图生视频是AI视频的一条重要技术路线。通过提供基本图片,可以让画面保持连贯性、一致性,便于创作连续性的长视频,极大降低了专业视频的创作成本与门槛。

图片叠加文本描述能使模型更加理解指令,生成符合预期的视频。

视频延长

视频延长功能是新一代视频生成模型最重要的功能,之前的AI视频模型在视频延长上容易出现断续和信息丢失,同时延长极限只能做到16秒。

可灵AI的视频延长基本保持了在现有视频的基础上进行内容的延续和扩展,同时现在最长时间已拓展到3分钟。

运镜控制

运镜控制属于镜头语言的一种,为了满足视频创作的多元性,让模型更好响应创作者对镜头的控制,可灵AI增加运镜控制功能,以绝对命令控制视频画面的运镜行为,可以通过位移参数的调节进行运镜度的选择。

可灵AI的运镜控制现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”等 6 个基本运镜。

以及“左旋推进。右旋推进、推进上移、下移拉远”4个大师运镜,帮助用户生成具有明显运镜效果的视频画面。

首尾帧功能

首尾帧功能,即上传两张图片,模型将这两张图片作为首帧和尾帧生成视频,通过点击图生视频功能右上角的增加尾帧进行使用。

可灵AI的首尾帧功能可以实现对视频的更精细控制,现阶段主要应用于视频创作中对首帧尾帧有控制要求的视频生成,能够较好实现预期生成视频的动态过渡。

(2)AI图片

可灵AI的AI图片目前主要包含文生图和垫图两个功能。

文生图指大家可以通过输入文本生成符合文本描述的A图片。

垫图则是指在文生图的基础上,增加上传参考图/垫图作为新增参数,生成与参考图/垫图内容相关的图片结果。

小结

可灵AI无疑是今年备受瞩目的AI应用之一,它标志着国内企业在AI大模型领域的一大步。

虽然过去国内企业在基础模型方面与OpenAI、谷歌等国际领先企业相比还有一定的差距,但可灵AI的推出不仅实现了技术上的后发先至,还在AI视频领域取得了领先地位,率先推出了新一代的视频生成模型,快速占据了全球AI视频用户的市场。

此外,字节也快速推出即梦AI与可灵AI竞争,在AI领域,即使是头部企业也尚未建立起不可逾越的竞争优势。在数据和算力的支撑下,不同企业之间的技术追赶速度已经超出了先前的预期。AI大模型的竞争还未结束。

•END•

联系入群 | 加微信:xjjyj666



欢迎点击易简财经视频号,看最新视频~

可灵发布时即支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比,数据上已经超越了只能生成1分钟视频的Sora。...右旋推进、推进上移、下移拉远”4个大师运镜,帮助用户生成具有明显运镜效果的视频画面。

来源丨老胡看AI

7月24日,为了纪念中国摘取首枚奥运金牌和首次电视转播奥运会40周年,央视频全网上线微电影《百年前的那次出发》,影片根据第一手历史档案,讲述了百年前中国人第一次报名参加奥运会的真实过程,这是央视首部生成式AI微电影。

与之前的以AIGC为主要‌噱头的AI微电影不同,《百年前的那次出发》已实际将AI作为工具使用,依托历史人物照片生成真实自然的人物动作。

而这背后正式今年最火爆的AI视频大模型——可灵AI。

成立背景

相较火爆的AI文本、AI画图、AI音乐等AI大模型应用,AI视频一直相对不太显眼,早期的AI视频技术存在诸多限制,如视频长度有限(4秒,最长延长至16秒),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得AI视频无法作为素材使用。

最早打破这局面的是OpenAI。

2024年2月,OpenAI发布的视频生成大模型Sora。

Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。

相较于之前的同类视频生成模型,Sora在视频时长、分辨率的精细化程度以及场景真实感再现方面均达到了全新高度。视频时长极限也由之前的16秒拓展到1分钟。

然而,虽然OpenAI一经发布便引起业内轰动,但至今未向公众开放。

公众对AI视频产品的需求已经被唤醒,但并无落地产品可用。快手的可灵AI正是第一款离开实验室阶段,对外开放的新一代视频生成模型。

6月6日,快手正式发布AI视频大模型可灵,并同时开始内测,接受用户申请使用。可灵发布时即支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比,数据上已经超越了只能生成1分钟视频的Sora。

很快作为唯一一款开放使用的新一代视频生成模型,可灵在全球互联网上得到追捧,国内外用户大量申请使用,光内测阶段就有百万用户进行申请。

截至目前,已有超过160万人使用过快手的视频生成大模型可灵AI,并累计生成超1600万条视频。

可灵AI介绍

可灵(Kling)是由快手大模型团队自研打造的视频生成大模型,现已支持文生视频、图生视频、视频续写、运镜控制、首尾帧等多个能力,让用户轻松高效地完成艺术视频创作。

自6月6日发布以来,可灵AI持续优化功能和服务,相继开放了图生视频、视频续写等能力。

在7月的世界人工智能大会上,正式发布了Web端及多项新功能,并将单次文本生成视频的时长扩展至10秒,视频最长长度也由2分钟提升至3分钟。

7月24日,可灵AI宣布基础模型再次升级,同时全面开放内测,并于国内率先上线了会员体系。

7月30日,可灵AI正式面向全球上线会员体系。

(1)AI视频

文生视频

文生视频功能是AI视频最主要的功能。根据输入的文字,可灵AI可以根据文本表达生成 5s 或10s 视频,将文字转变为视频画面。这得益于可灵AI对文本视频语义的深刻理解和Diffusion Transformer架构的强大能力。

此外,可灵AI还能够模拟真实世界的物理特性,生成符合物理规律的视频,如食物准备、自然景观变换等。

使用更加完善的描述能有助于视频内容细节更加完整,提高视频质感。

图生视频

图生视频是指上传任意一张图片,可灵AI就能够根据图片的信息生成5s 或10s 视频的视频,同时还支持添加文本提示词来管控图像的运动。

图生视频是AI视频的一条重要技术路线。通过提供基本图片,可以让画面保持连贯性、一致性,便于创作连续性的长视频,极大降低了专业视频的创作成本与门槛。

图片叠加文本描述能使模型更加理解指令,生成符合预期的视频。

视频延长

视频延长功能是新一代视频生成模型最重要的功能,之前的AI视频模型在视频延长上容易出现断续和信息丢失,同时延长极限只能做到16秒。

可灵AI的视频延长基本保持了在现有视频的基础上进行内容的延续和扩展,同时现在最长时间已拓展到3分钟。

运镜控制

运镜控制属于镜头语言的一种,为了满足视频创作的多元性,让模型更好响应创作者对镜头的控制,可灵AI增加运镜控制功能,以绝对命令控制视频画面的运镜行为,可以通过位移参数的调节进行运镜度的选择。

可灵AI的运镜控制现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”等 6 个基本运镜。

以及“左旋推进。右旋推进、推进上移、下移拉远”4个大师运镜,帮助用户生成具有明显运镜效果的视频画面。

首尾帧功能

首尾帧功能,即上传两张图片,模型将这两张图片作为首帧和尾帧生成视频,通过点击图生视频功能右上角的增加尾帧进行使用。

可灵AI的首尾帧功能可以实现对视频的更精细控制,现阶段主要应用于视频创作中对首帧尾帧有控制要求的视频生成,能够较好实现预期生成视频的动态过渡。

(2)AI图片

可灵AI的AI图片目前主要包含文生图和垫图两个功能。

文生图指大家可以通过输入文本生成符合文本描述的A图片。

垫图则是指在文生图的基础上,增加上传参考图/垫图作为新增参数,生成与参考图/垫图内容相关的图片结果。

小结

可灵AI无疑是今年备受瞩目的AI应用之一,它标志着国内企业在AI大模型领域的一大步。

虽然过去国内企业在基础模型方面与OpenAI、谷歌等国际领先企业相比还有一定的差距,但可灵AI的推出不仅实现了技术上的后发先至,还在AI视频领域取得了领先地位,率先推出了新一代的视频生成模型,快速占据了全球AI视频用户的市场。

此外,字节也快速推出即梦AI与可灵AI竞争,在AI领域,即使是头部企业也尚未建立起不可逾越的竞争优势。在数据和算力的支撑下,不同企业之间的技术追赶速度已经超出了先前的预期。AI大模型的竞争还未结束。

•END•

联系入群 | 加微信:xjjyj666



欢迎点击易简财经视频号,看最新视频~

展开
打开“财经头条”阅读更多精彩资讯
APP内打开