来源丨老胡看AI
与之前的以AIGC为主要噱头的AI微电影不同,《百年前的那次出发》已实际将AI作为工具使用,依托历史人物照片生成真实自然的人物动作。
而这背后正式今年最火爆的AI视频大模型——可灵AI。
相较火爆的AI文本、AI画图、AI音乐等AI大模型应用,AI视频一直相对不太显眼,早期的AI视频技术存在诸多限制,如视频长度有限(4秒,最长延长至16秒),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得AI视频无法作为素材使用。
最早打破这局面的是OpenAI。
2024年2月,OpenAI发布的视频生成大模型Sora。
Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。
相较于之前的同类视频生成模型,Sora在视频时长、分辨率的精细化程度以及场景真实感再现方面均达到了全新高度。视频时长极限也由之前的16秒拓展到1分钟。
然而,虽然OpenAI一经发布便引起业内轰动,但至今未向公众开放。
公众对AI视频产品的需求已经被唤醒,但并无落地产品可用。快手的可灵AI正是第一款离开实验室阶段,对外开放的新一代视频生成模型。
6月6日,快手正式发布AI视频大模型可灵,并同时开始内测,接受用户申请使用。可灵发布时即支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比,数据上已经超越了只能生成1分钟视频的Sora。
很快作为唯一一款开放使用的新一代视频生成模型,可灵在全球互联网上得到追捧,国内外用户大量申请使用,光内测阶段就有百万用户进行申请。
截至目前,已有超过160万人使用过快手的视频生成大模型可灵AI,并累计生成超1600万条视频。
可灵(Kling)是由快手大模型团队自研打造的视频生成大模型,现已支持文生视频、图生视频、视频续写、运镜控制、首尾帧等多个能力,让用户轻松高效地完成艺术视频创作。
自6月6日发布以来,可灵AI持续优化功能和服务,相继开放了图生视频、视频续写等能力。
在7月的世界人工智能大会上,正式发布了Web端及多项新功能,并将单次文本生成视频的时长扩展至10秒,视频最长长度也由2分钟提升至3分钟。
7月24日,可灵AI宣布基础模型再次升级,同时全面开放内测,并于国内率先上线了会员体系。
7月30日,可灵AI正式面向全球上线会员体系。
(1)AI视频
文生视频
文生视频功能是AI视频最主要的功能。根据输入的文字,可灵AI可以根据文本表达生成 5s 或10s 视频,将文字转变为视频画面。这得益于可灵AI对文本视频语义的深刻理解和Diffusion Transformer架构的强大能力。
此外,可灵AI还能够模拟真实世界的物理特性,生成符合物理规律的视频,如食物准备、自然景观变换等。
使用更加完善的描述能有助于视频内容细节更加完整,提高视频质感。
图生视频
图生视频是指上传任意一张图片,可灵AI就能够根据图片的信息生成5s 或10s 视频的视频,同时还支持添加文本提示词来管控图像的运动。
图生视频是AI视频的一条重要技术路线。通过提供基本图片,可以让画面保持连贯性、一致性,便于创作连续性的长视频,极大降低了专业视频的创作成本与门槛。
图片叠加文本描述能使模型更加理解指令,生成符合预期的视频。
视频延长
视频延长功能是新一代视频生成模型最重要的功能,之前的AI视频模型在视频延长上容易出现断续和信息丢失,同时延长极限只能做到16秒。
可灵AI的视频延长基本保持了在现有视频的基础上进行内容的延续和扩展,同时现在最长时间已拓展到3分钟。
运镜控制
运镜控制属于镜头语言的一种,为了满足视频创作的多元性,让模型更好响应创作者对镜头的控制,可灵AI增加运镜控制功能,以绝对命令控制视频画面的运镜行为,可以通过位移参数的调节进行运镜度的选择。
可灵AI的运镜控制现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”等 6 个基本运镜。
以及“左旋推进。右旋推进、推进上移、下移拉远”4个大师运镜,帮助用户生成具有明显运镜效果的视频画面。
首尾帧功能
首尾帧功能,即上传两张图片,模型将这两张图片作为首帧和尾帧生成视频,通过点击图生视频功能右上角的增加尾帧进行使用。
可灵AI的首尾帧功能可以实现对视频的更精细控制,现阶段主要应用于视频创作中对首帧尾帧有控制要求的视频生成,能够较好实现预期生成视频的动态过渡。
(2)AI图片
可灵AI的AI图片目前主要包含文生图和垫图两个功能。
文生图指大家可以通过输入文本生成符合文本描述的A图片。
垫图则是指在文生图的基础上,增加上传参考图/垫图作为新增参数,生成与参考图/垫图内容相关的图片结果。
可灵AI无疑是今年备受瞩目的AI应用之一,它标志着国内企业在AI大模型领域的一大步。
虽然过去国内企业在基础模型方面与OpenAI、谷歌等国际领先企业相比还有一定的差距,但可灵AI的推出不仅实现了技术上的后发先至,还在AI视频领域取得了领先地位,率先推出了新一代的视频生成模型,快速占据了全球AI视频用户的市场。
此外,字节也快速推出即梦AI与可灵AI竞争,在AI领域,即使是头部企业也尚未建立起不可逾越的竞争优势。在数据和算力的支撑下,不同企业之间的技术追赶速度已经超出了先前的预期。AI大模型的竞争还未结束。
来源丨老胡看AI
与之前的以AIGC为主要噱头的AI微电影不同,《百年前的那次出发》已实际将AI作为工具使用,依托历史人物照片生成真实自然的人物动作。
而这背后正式今年最火爆的AI视频大模型——可灵AI。
相较火爆的AI文本、AI画图、AI音乐等AI大模型应用,AI视频一直相对不太显眼,早期的AI视频技术存在诸多限制,如视频长度有限(4秒,最长延长至16秒),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得AI视频无法作为素材使用。
最早打破这局面的是OpenAI。
2024年2月,OpenAI发布的视频生成大模型Sora。
Sora生成的视频:几只巨大的猛犸象穿过一片白雪覆盖的草地,长毛在风中轻轻飘动,远处是白雪覆盖的树木和大山。
相较于之前的同类视频生成模型,Sora在视频时长、分辨率的精细化程度以及场景真实感再现方面均达到了全新高度。视频时长极限也由之前的16秒拓展到1分钟。
然而,虽然OpenAI一经发布便引起业内轰动,但至今未向公众开放。
公众对AI视频产品的需求已经被唤醒,但并无落地产品可用。快手的可灵AI正是第一款离开实验室阶段,对外开放的新一代视频生成模型。
6月6日,快手正式发布AI视频大模型可灵,并同时开始内测,接受用户申请使用。可灵发布时即支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比,数据上已经超越了只能生成1分钟视频的Sora。
很快作为唯一一款开放使用的新一代视频生成模型,可灵在全球互联网上得到追捧,国内外用户大量申请使用,光内测阶段就有百万用户进行申请。
截至目前,已有超过160万人使用过快手的视频生成大模型可灵AI,并累计生成超1600万条视频。
可灵(Kling)是由快手大模型团队自研打造的视频生成大模型,现已支持文生视频、图生视频、视频续写、运镜控制、首尾帧等多个能力,让用户轻松高效地完成艺术视频创作。
自6月6日发布以来,可灵AI持续优化功能和服务,相继开放了图生视频、视频续写等能力。
在7月的世界人工智能大会上,正式发布了Web端及多项新功能,并将单次文本生成视频的时长扩展至10秒,视频最长长度也由2分钟提升至3分钟。
7月24日,可灵AI宣布基础模型再次升级,同时全面开放内测,并于国内率先上线了会员体系。
7月30日,可灵AI正式面向全球上线会员体系。
(1)AI视频
文生视频
文生视频功能是AI视频最主要的功能。根据输入的文字,可灵AI可以根据文本表达生成 5s 或10s 视频,将文字转变为视频画面。这得益于可灵AI对文本视频语义的深刻理解和Diffusion Transformer架构的强大能力。
此外,可灵AI还能够模拟真实世界的物理特性,生成符合物理规律的视频,如食物准备、自然景观变换等。
使用更加完善的描述能有助于视频内容细节更加完整,提高视频质感。
图生视频
图生视频是指上传任意一张图片,可灵AI就能够根据图片的信息生成5s 或10s 视频的视频,同时还支持添加文本提示词来管控图像的运动。
图生视频是AI视频的一条重要技术路线。通过提供基本图片,可以让画面保持连贯性、一致性,便于创作连续性的长视频,极大降低了专业视频的创作成本与门槛。
图片叠加文本描述能使模型更加理解指令,生成符合预期的视频。
视频延长
视频延长功能是新一代视频生成模型最重要的功能,之前的AI视频模型在视频延长上容易出现断续和信息丢失,同时延长极限只能做到16秒。
可灵AI的视频延长基本保持了在现有视频的基础上进行内容的延续和扩展,同时现在最长时间已拓展到3分钟。
运镜控制
运镜控制属于镜头语言的一种,为了满足视频创作的多元性,让模型更好响应创作者对镜头的控制,可灵AI增加运镜控制功能,以绝对命令控制视频画面的运镜行为,可以通过位移参数的调节进行运镜度的选择。
可灵AI的运镜控制现已支持包括“水平运镜、垂直运镜、推进/拉远、垂直摇镜、旋转摇镜、水平摇镜”等 6 个基本运镜。
以及“左旋推进。右旋推进、推进上移、下移拉远”4个大师运镜,帮助用户生成具有明显运镜效果的视频画面。
首尾帧功能
首尾帧功能,即上传两张图片,模型将这两张图片作为首帧和尾帧生成视频,通过点击图生视频功能右上角的增加尾帧进行使用。
可灵AI的首尾帧功能可以实现对视频的更精细控制,现阶段主要应用于视频创作中对首帧尾帧有控制要求的视频生成,能够较好实现预期生成视频的动态过渡。
(2)AI图片
可灵AI的AI图片目前主要包含文生图和垫图两个功能。
文生图指大家可以通过输入文本生成符合文本描述的A图片。
垫图则是指在文生图的基础上,增加上传参考图/垫图作为新增参数,生成与参考图/垫图内容相关的图片结果。
可灵AI无疑是今年备受瞩目的AI应用之一,它标志着国内企业在AI大模型领域的一大步。
虽然过去国内企业在基础模型方面与OpenAI、谷歌等国际领先企业相比还有一定的差距,但可灵AI的推出不仅实现了技术上的后发先至,还在AI视频领域取得了领先地位,率先推出了新一代的视频生成模型,快速占据了全球AI视频用户的市场。
此外,字节也快速推出即梦AI与可灵AI竞争,在AI领域,即使是头部企业也尚未建立起不可逾越的竞争优势。在数据和算力的支撑下,不同企业之间的技术追赶速度已经超出了先前的预期。AI大模型的竞争还未结束。