我们很高兴开源 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。
Qwen-Image的主要特性包括: 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
如需体验 Qwen-Image,欢迎访问 QwenChat(chat.qwen.ai) 并选择“图像生成”功能。同时该模型已在魔搭社区与 Hugging Face 开源,欢迎体验。
相关链接: ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image Hugging Face:https://huggingface.co/Qwen/Qwen-Image GitHub:https://github.com/QwenLM/Qwen-Image Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced
性能表现
我们在多个公开基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。
示例展示
Qwen-Image的突出能力之一是能够在不同场景中实现高保真的文本渲染。
中文渲染 case1
我们来看下面这个中文渲染的case:
一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”, 横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。
模型准确了绘制了左右联和横批,并且使用了书法效果,并在中间准确的生成了岳阳楼。桌子上放着的青花瓷也看着非常真实。
英文渲染 case1
那么,模型在英文上的能力如何呢?
让我们来看一个英文渲染的case:
A man in a suit is standing in front of the window, looking at the bright moon outside the window. The man is holding a yellowed paper with handwritten words on it: "A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by." There is a cute cat on the windowsill.
在这个case中,纸张不足整个画面的十分之一,而且段落文字也比较长,模型还是准确的生成了纸张地上的文字。
更多文字 case
那如果是更多的文字呢?让我们试一个更难的case:
一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 "Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑"
可以看到,模型在双语间也可以随时切换。
海报 case
Qwen-Image的文字能力使得其可以轻松的制作一些海报,比如
既然可以制作海报,当然我们也可以直接制作PPT啦,我们看一个中文制作PPT的case:
中文PPT case
其实,除了文本处理,Qwen-Image 也会在通用图像生成方面也表现出色,支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示,成为艺术家、设计师和故事创作者的多功能工具。
在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。这让普通用户也能轻松实现专业级的图像编辑。这些我们在技术报告中会详细描述。
未来展望
综上,我们希望Qwen-Image能够进一步推动在图像生成领域的发展,降低视觉内容创作的技术门槛,激发更多创新应用的可能。同时,我们也期待社区的积极参与与反馈,共同构建开放、透明、可持续发展的生成式AI生态。
我们很高兴开源 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。
Qwen-Image的主要特性包括: 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
如需体验 Qwen-Image,欢迎访问 QwenChat(chat.qwen.ai) 并选择“图像生成”功能。同时该模型已在魔搭社区与 Hugging Face 开源,欢迎体验。
相关链接: ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image Hugging Face:https://huggingface.co/Qwen/Qwen-Image GitHub:https://github.com/QwenLM/Qwen-Image Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced
性能表现
我们在多个公开基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。
示例展示
Qwen-Image的突出能力之一是能够在不同场景中实现高保真的文本渲染。
中文渲染 case1
我们来看下面这个中文渲染的case:
一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”, 横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。
模型准确了绘制了左右联和横批,并且使用了书法效果,并在中间准确的生成了岳阳楼。桌子上放着的青花瓷也看着非常真实。
英文渲染 case1
那么,模型在英文上的能力如何呢?
让我们来看一个英文渲染的case:
A man in a suit is standing in front of the window, looking at the bright moon outside the window. The man is holding a yellowed paper with handwritten words on it: "A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by." There is a cute cat on the windowsill.
在这个case中,纸张不足整个画面的十分之一,而且段落文字也比较长,模型还是准确的生成了纸张地上的文字。
更多文字 case
那如果是更多的文字呢?让我们试一个更难的case:
一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 "Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑"
可以看到,模型在双语间也可以随时切换。
海报 case
Qwen-Image的文字能力使得其可以轻松的制作一些海报,比如
既然可以制作海报,当然我们也可以直接制作PPT啦,我们看一个中文制作PPT的case:
中文PPT case
其实,除了文本处理,Qwen-Image 也会在通用图像生成方面也表现出色,支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示,成为艺术家、设计师和故事创作者的多功能工具。
在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。这让普通用户也能轻松实现专业级的图像编辑。这些我们在技术报告中会详细描述。
未来展望
综上,我们希望Qwen-Image能够进一步推动在图像生成领域的发展,降低视觉内容创作的技术门槛,激发更多创新应用的可能。同时,我们也期待社区的积极参与与反馈,共同构建开放、透明、可持续发展的生成式AI生态。