“可灵持续领先!”
4月15日下午,快手宣布可灵AI全系模型进入2.0时代。
自从上一次可灵1.6更新已过去近3个月,这次基座模型升级,快手高级副总裁、社区科学线负责人盖坤在发布会上自信表示:“可图2.0现在是行业领先的图像模型……可灵2.0,特别在图生视频上持续全球大幅领先!”现场响起了一阵阵欢呼声和掌声。
“AI新榜”现场拍摄
升级后,可灵2.0视频生成模型(大师版)具备更强的语义响应、更优的动态质量、更美的画面质感。
可灵2.0图生视频,提示词:滑板运动,围绕滑板少年不断运动
并且新增“多模态编辑”功能,支持对视频增加、删除、或替换元素。
可图2.0图像模型则大幅提升语义遵循能力,新增“图片编辑”功能,支持局部重绘、多尺寸扩图;同时新增图片“风格转绘”功能,支持响应近60种风格,更具电影质感。
可图2.0生成,提示词:一张超现实的照片,一条河从客厅墙上的油画中漂浮出来,洒在沙发和木地板上,这幅画描绘了山间一条宁静的河流。一艘船在水中轻轻摇晃,进入客厅。河流的边缘洒在木地板上,将艺术世界与现实融为一体。客厅装饰着高雅的家具和温馨、温馨的氛围,电影、照片
可图2.0生成,提示词:工笔画,林黛玉,穿着唐代的服装,在咖啡店的角落,手里拿着一部智能手机,侧逆光,傍晚
难得的是,在许多AI产品“发布即等待”的当下,可灵AI这回依旧是“发布即可用”,目前2.0模型已在网页端和App端全量上线,可灵AI2.0灵感成真创作大赛也同步开启。
可灵AI官网:app.klingai.com
“AI新榜”在第一时间对可灵AI进行了实测,图生视频排队时间较久,可能要半小时以上,还没用上的朋友可以看看下面的测试案例。你觉得可灵2.0怎么样?欢迎在评论区和我们交流。
经常使用AI生成视频的创作者会发现,现在的AI模型远远达不到一键成片的程度,仍需要斟酌每个镜头的提示词或参考图,输出的视频质量不一定令人满意,需要多次尝试生成和修改。
比较常见的痛点包括提示词响应有限、理解有误;画面运动幅度不够,有明显的运动瑕疵;人物表情不自然,动作不准确等等。
针对这些问题,可灵2.0在语义遵循、画面质量、动态质量、真实度、美感等方面都进行了完善迭代。
据快手副总裁、可灵AI负责人张迪介绍,在可灵AI上,85%的视频创作是通过图生视频完成的。比如这个图生视频的例子,输入“男人先是开心的笑着,突然变得愤怒,手锤桌子起身”。
可灵1.6生成的表情变化不明显,手锤桌子起身的动作也没有展现出来,但可灵2.0就能准确完整地按照提示词生成。
可灵1.6(上)和2.0(下)
我们测试了包含更多人物动态和镜头运动的视频:
提示词:游乐场过山车极速俯冲镜头,第一人称视角抖动画面,中年男子的双手紧紧握着安全杆,前排少女马尾辫呈失重状悬浮,最后画面定格在男子的尖叫表情特写
提示词:慢动作雨巷追逐镜头,手持摄影机跟随湿发贴面的杀手,霓虹灯在雨伞旋转时拖曳出彩色光轨,香烟烟雾与雨滴同速飘移,王家卫电影色调
提示词:穿着蓝色建筑制服、戴着黄色安全帽的工人们,正在用小工具修理或制作巧克力蛋糕
可以看到,每一句提示词要求的镜头、视角、人物动作和表情等,可灵2.0都能准确响应,人物反应真实自然,复杂动作的运动也更合理,画面表现更具张力。
除了新模型,可灵2.0还上线了全新的多模态视频编辑功能,能灵活理解用户意图,支持对视频内容实现增、删、改。
没错,Pika和Viggle AI支持的视频角色替换、模特换衣、局部编辑等功能,现在可灵AI也能实现了。
1.替换元素
比如前阵子流行的“回答我”AI换脸视频,我们在可灵“多模态编辑”页面上传主播小明剑魔的视频片段,框选要编辑的区域,再上传要替换的角色图片。
在创意描述中,可灵AI更新了一种交互方式,如下图所示,原本难以描述清楚的需求,现在可灵结合图像参考、视频片段等信息,预设了提示词框架,我们可以更直观、更轻松地告诉AI要怎么编辑,这就是可灵AI新发布的交互理念MVL(Multi-modal Visual Language)。
MVL,一种更直观的人和AI沟通的方式
等待几分钟,我们看到人物替换的效果相比Viggle AI更真实,画面质量更高,甚至主播头上“加我粉丝团”的贴图也完美还原了,下一步进行对口型配音也可以在可灵AI完成。
不过人物动作还原一般,目前可编辑的视频时长仅限5s,希望后续可以支持更长的视频。
2.增加元素
在多模态编辑中,选择“增加元素”,上传需要的图片后,在下方文本输入框内,同样按照官方给定的模版“基于@ 参考视频中的内容,将@ 图片中的元素,融入到视频里”,明确需要添加的元素和位置。
我们觉得上面案例中的巧克力蛋糕太寡淡,需要加点装饰,把麦麦的标志P上去呢?来看看效果:
另外,我们还可以通过用涂抹的方式,圈出画面中的某个元素,一键删除。不过,这里需要注意的是,一定要将这些关键帧覆盖到整条时间轴,才能保证删得彻底。
选区一定要保证覆盖整个时间轴
可灵直接将蛋糕盘子秒变工地现场,甚至还为我多配置了几位现场工人:
更多案例可以参考可灵AI官方发布的演示视频——
除了视频模型外,图片模型可图2.0表现也可圈可点。
据快手介绍,在团队内部的多项胜负率评测中,相较于Midjourney V7、FLUX1.1[pro]以及Reve等行业领先的图像模型,可图2.0均保持明显优势,处于行业领先水平。
可图2.0在指令遵循、电影质感以及艺术风格表现等方面显著提升。比如我们让可图2.0生成了一组像素漫画,这里使用的提示词是:
尽管AI将提示词中的第3格和第4格内容合并了,但2.0版本在语义理解、风格转绘上都有大幅提升。
可图2.0(上)和1.5(下)版本有明显差异
当然,我们也可以让它生成之前很火的3D模型:
同时,可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图。
使用局部重绘功能,我们可以将图片中多余的元素删除、替换、重绘:
生成图片后,我们还可以点击“生成视频”,获得动态3D模型,跑完图生视频整个工作流。
使用可图2.0的扩图功能,我们可以随意拖拽原图位置,自由扩展想要的图片比例及尺寸,扩展后的部分与原图融合度较高。
在风格化响应上,可图2.0还支持60多种风格化的效果转绘。无论是爆火的吉卜力风格、毛绒玩具风格,还是插画风格、3D卡通等等,可图都可以实现。
初步实测来看,可灵2.0在模型技术和功能体验上都有不小的进步,从图片生成、视频生成到配音对口型等内容制作全流程都能覆盖,是目前国内创作者必备的AIGC产品。
不过最大的缺点可能是价格,目前2.0生成一条5秒钟的视频要100灵感值,黄金会员月费58元可获得660灵感值,只能生成6次,真是有点贵了。
在发布会现场,可灵AI超级创作者、《新世界加载中》总导演、异类Outliers创始人陈翔宇提到,可灵AI可全面融入剧集级创作流程,AIGC相较于实拍和动画,不仅是效率的提升,更是试错空间的革命性释放。
他认为AI不是代替创作者,而是帮助我们更好地表达。“AIGC并不是降级的内容形态,它也许是下一代内容结构的雏形。”
据快手数据,截至目前,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
除了C端订阅用户,可灵AI也面向B端商家提供API接入等服务。目前,可灵AI已与包括小米、亚马逊云科技、阿里云、Freepik、蓝色光标等在内的数千家国内外企业客户建立了合作关系。
盖坤披露,来自世界各地的超1.5万开发者,已将可灵的API应用于不同的行业场景中,累计生成的图像数量约1200万个,生成的视频素材超过4000万个。
未来快手可灵AI团队还将发布推理更快、价格更普惠的不同模型版本,“让每个人都能用AI讲出好故事”。
从创意到现实,AI正在改变内容创作的全链路,我们相信随着技术的创新进步,AI创作的门槛会变得更低,灵感成真只需片刻。
(举报)
“可灵持续领先!”
4月15日下午,快手宣布可灵AI全系模型进入2.0时代。
自从上一次可灵1.6更新已过去近3个月,这次基座模型升级,快手高级副总裁、社区科学线负责人盖坤在发布会上自信表示:“可图2.0现在是行业领先的图像模型……可灵2.0,特别在图生视频上持续全球大幅领先!”现场响起了一阵阵欢呼声和掌声。
“AI新榜”现场拍摄
升级后,可灵2.0视频生成模型(大师版)具备更强的语义响应、更优的动态质量、更美的画面质感。
可灵2.0图生视频,提示词:滑板运动,围绕滑板少年不断运动
并且新增“多模态编辑”功能,支持对视频增加、删除、或替换元素。
可图2.0图像模型则大幅提升语义遵循能力,新增“图片编辑”功能,支持局部重绘、多尺寸扩图;同时新增图片“风格转绘”功能,支持响应近60种风格,更具电影质感。
可图2.0生成,提示词:一张超现实的照片,一条河从客厅墙上的油画中漂浮出来,洒在沙发和木地板上,这幅画描绘了山间一条宁静的河流。一艘船在水中轻轻摇晃,进入客厅。河流的边缘洒在木地板上,将艺术世界与现实融为一体。客厅装饰着高雅的家具和温馨、温馨的氛围,电影、照片
可图2.0生成,提示词:工笔画,林黛玉,穿着唐代的服装,在咖啡店的角落,手里拿着一部智能手机,侧逆光,傍晚
难得的是,在许多AI产品“发布即等待”的当下,可灵AI这回依旧是“发布即可用”,目前2.0模型已在网页端和App端全量上线,可灵AI2.0灵感成真创作大赛也同步开启。
可灵AI官网:app.klingai.com
“AI新榜”在第一时间对可灵AI进行了实测,图生视频排队时间较久,可能要半小时以上,还没用上的朋友可以看看下面的测试案例。你觉得可灵2.0怎么样?欢迎在评论区和我们交流。
经常使用AI生成视频的创作者会发现,现在的AI模型远远达不到一键成片的程度,仍需要斟酌每个镜头的提示词或参考图,输出的视频质量不一定令人满意,需要多次尝试生成和修改。
比较常见的痛点包括提示词响应有限、理解有误;画面运动幅度不够,有明显的运动瑕疵;人物表情不自然,动作不准确等等。
针对这些问题,可灵2.0在语义遵循、画面质量、动态质量、真实度、美感等方面都进行了完善迭代。
据快手副总裁、可灵AI负责人张迪介绍,在可灵AI上,85%的视频创作是通过图生视频完成的。比如这个图生视频的例子,输入“男人先是开心的笑着,突然变得愤怒,手锤桌子起身”。
可灵1.6生成的表情变化不明显,手锤桌子起身的动作也没有展现出来,但可灵2.0就能准确完整地按照提示词生成。
可灵1.6(上)和2.0(下)
我们测试了包含更多人物动态和镜头运动的视频:
提示词:游乐场过山车极速俯冲镜头,第一人称视角抖动画面,中年男子的双手紧紧握着安全杆,前排少女马尾辫呈失重状悬浮,最后画面定格在男子的尖叫表情特写
提示词:慢动作雨巷追逐镜头,手持摄影机跟随湿发贴面的杀手,霓虹灯在雨伞旋转时拖曳出彩色光轨,香烟烟雾与雨滴同速飘移,王家卫电影色调
提示词:穿着蓝色建筑制服、戴着黄色安全帽的工人们,正在用小工具修理或制作巧克力蛋糕
可以看到,每一句提示词要求的镜头、视角、人物动作和表情等,可灵2.0都能准确响应,人物反应真实自然,复杂动作的运动也更合理,画面表现更具张力。
除了新模型,可灵2.0还上线了全新的多模态视频编辑功能,能灵活理解用户意图,支持对视频内容实现增、删、改。
没错,Pika和Viggle AI支持的视频角色替换、模特换衣、局部编辑等功能,现在可灵AI也能实现了。
1.替换元素
比如前阵子流行的“回答我”AI换脸视频,我们在可灵“多模态编辑”页面上传主播小明剑魔的视频片段,框选要编辑的区域,再上传要替换的角色图片。
在创意描述中,可灵AI更新了一种交互方式,如下图所示,原本难以描述清楚的需求,现在可灵结合图像参考、视频片段等信息,预设了提示词框架,我们可以更直观、更轻松地告诉AI要怎么编辑,这就是可灵AI新发布的交互理念MVL(Multi-modal Visual Language)。
MVL,一种更直观的人和AI沟通的方式
等待几分钟,我们看到人物替换的效果相比Viggle AI更真实,画面质量更高,甚至主播头上“加我粉丝团”的贴图也完美还原了,下一步进行对口型配音也可以在可灵AI完成。
不过人物动作还原一般,目前可编辑的视频时长仅限5s,希望后续可以支持更长的视频。
2.增加元素
在多模态编辑中,选择“增加元素”,上传需要的图片后,在下方文本输入框内,同样按照官方给定的模版“基于@ 参考视频中的内容,将@ 图片中的元素,融入到视频里”,明确需要添加的元素和位置。
我们觉得上面案例中的巧克力蛋糕太寡淡,需要加点装饰,把麦麦的标志P上去呢?来看看效果:
另外,我们还可以通过用涂抹的方式,圈出画面中的某个元素,一键删除。不过,这里需要注意的是,一定要将这些关键帧覆盖到整条时间轴,才能保证删得彻底。
选区一定要保证覆盖整个时间轴
可灵直接将蛋糕盘子秒变工地现场,甚至还为我多配置了几位现场工人:
更多案例可以参考可灵AI官方发布的演示视频——
除了视频模型外,图片模型可图2.0表现也可圈可点。
据快手介绍,在团队内部的多项胜负率评测中,相较于Midjourney V7、FLUX1.1[pro]以及Reve等行业领先的图像模型,可图2.0均保持明显优势,处于行业领先水平。
可图2.0在指令遵循、电影质感以及艺术风格表现等方面显著提升。比如我们让可图2.0生成了一组像素漫画,这里使用的提示词是:
尽管AI将提示词中的第3格和第4格内容合并了,但2.0版本在语义理解、风格转绘上都有大幅提升。
可图2.0(上)和1.5(下)版本有明显差异
当然,我们也可以让它生成之前很火的3D模型:
同时,可图2.0也上线了实用的图像可控编辑功能——局部重绘和扩图。
使用局部重绘功能,我们可以将图片中多余的元素删除、替换、重绘:
生成图片后,我们还可以点击“生成视频”,获得动态3D模型,跑完图生视频整个工作流。
使用可图2.0的扩图功能,我们可以随意拖拽原图位置,自由扩展想要的图片比例及尺寸,扩展后的部分与原图融合度较高。
在风格化响应上,可图2.0还支持60多种风格化的效果转绘。无论是爆火的吉卜力风格、毛绒玩具风格,还是插画风格、3D卡通等等,可图都可以实现。
初步实测来看,可灵2.0在模型技术和功能体验上都有不小的进步,从图片生成、视频生成到配音对口型等内容制作全流程都能覆盖,是目前国内创作者必备的AIGC产品。
不过最大的缺点可能是价格,目前2.0生成一条5秒钟的视频要100灵感值,黄金会员月费58元可获得660灵感值,只能生成6次,真是有点贵了。
在发布会现场,可灵AI超级创作者、《新世界加载中》总导演、异类Outliers创始人陈翔宇提到,可灵AI可全面融入剧集级创作流程,AIGC相较于实拍和动画,不仅是效率的提升,更是试错空间的革命性释放。
他认为AI不是代替创作者,而是帮助我们更好地表达。“AIGC并不是降级的内容形态,它也许是下一代内容结构的雏形。”
据快手数据,截至目前,可灵AI全球用户规模突破2200万,过去的10个月里,其月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
除了C端订阅用户,可灵AI也面向B端商家提供API接入等服务。目前,可灵AI已与包括小米、亚马逊云科技、阿里云、Freepik、蓝色光标等在内的数千家国内外企业客户建立了合作关系。
盖坤披露,来自世界各地的超1.5万开发者,已将可灵的API应用于不同的行业场景中,累计生成的图像数量约1200万个,生成的视频素材超过4000万个。
未来快手可灵AI团队还将发布推理更快、价格更普惠的不同模型版本,“让每个人都能用AI讲出好故事”。
从创意到现实,AI正在改变内容创作的全链路,我们相信随着技术的创新进步,AI创作的门槛会变得更低,灵感成真只需片刻。
(举报)