告别文字乱码！全新文生图模型Qwen-Image来咯

财经头条

提升一亿中产阶级阅读效率

打开

通义千问Qwen

1天前

我们很高兴开源 Qwen-Image，一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。

Qwen-Image的主要特性包括：

卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。
一致性的图像编辑能力: 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得SOTA，是一个强大的图像生成基础模型。

如需体验 Qwen-Image，欢迎访问 QwenChat（chat.qwen.ai) 并选择“图像生成”功能。同时该模型已在魔搭社区与 Hugging Face 开源，欢迎体验。

相关链接：

ModelScope：https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face：https://huggingface.co/Qwen/Qwen-Image

GitHub：https://github.com/QwenLM/Qwen-Image

Technical report：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced

性能表现

我们在多个公开基准上对Qwen-Image进行了全面评估，包括用于通用图像生成的GenEval、DPG和OneIG-Bench，以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能，展现出其在图像生成与图像编辑方面的强大能力。此外，在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明，Qwen-Image在文本渲染方面表现尤为出色，特别是在中文文本渲染上，大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位，兼具广泛的通用能力与卓越的文本渲染精度。

示例展示

Qwen-Image的突出能力之一是能够在不同场景中实现高保真的文本渲染。

中文渲染 case1

我们来看下面这个中文渲染的case：

一副典雅庄重的对联悬挂于厅堂之中，房间是个安静古典的中式布置，桌子上放着一些青花瓷，对联上左书“义本生知人机同道善思新”，右书“通云赋智乾坤启数高志远”，横批“智启通义”，字体飘逸，中间挂在一着一副中国风的画作，内容是岳阳楼。

模型准确了绘制了左右联和横批，并且使用了书法效果，并在中间准确的生成了岳阳楼。桌子上放着的青花瓷也看着非常真实。

英文渲染 case1

那么，模型在英文上的能力如何呢？
让我们来看一个英文渲染的case：

A man in a suit is standing in front of the window, looking at the bright moon outside the window. The man is holding a yellowed paper with handwritten words on it: "A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by." There is a cute cat on the windowsill.

在这个case中，纸张不足整个画面的十分之一，而且段落文字也比较长，模型还是准确的生成了纸张地上的文字。

更多文字 case

那如果是更多的文字呢？让我们试一个更难的case：

一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 "Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型，擅长复杂文本渲染与精准图像编辑"

可以看到，模型在双语间也可以随时切换。

海报 case

Qwen-Image的文字能力使得其可以轻松的制作一些海报，比如

A movie poster. The first row is the movie title, which reads "Imagination Unleashed". The second row is the movie subtitle, which reads "Enter a world beyond your imagination". The third row reads "Cast: Qwen-Image". The fourth row reads "Director: The Collective Imagination of Humanity". The central visual features a sleek, futuristic computer from which radiant colors, whimsical creatures, and dynamic, swirling patterns explosively emerge, filling the composition with energy, motion, and surreal creativity. The background transitions from dark, cosmic tones into a luminous, dreamlike expanse, evoking a digital fantasy realm. At the bottom edge, the text "Launching in the Cloud, August 2025" appears in bold, modern sans-serif font with a glowing, slightly transparent effect, evoking a high-tech, cinematic aesthetic. The overall style blends sci-fi surrealism with graphic design flair—sharp contrasts, vivid color grading, and layered visual depth—reminiscent of visionary concept art and digital matte painting, 32K resolution, ultra-detailed.

既然可以制作海报，当然我们也可以直接制作PPT啦,我们看一个中文制作PPT的case：

中文PPT case

一张企业级高质量PPT页面图像，整体采用科技感十足的星空蓝为主色调，背景融合流动的发光科技线条与微光粒子特效，营造出专业、现代且富有信任感的品牌氛围；页面顶部左侧清晰展示橘红色Alibaba标志，色彩鲜明、辨识度高。主标题位于画面中央偏上位置，使用大号加粗白色或浅蓝色字体写着“通义千问视觉基础模型”，字体现代简洁，突出技术感；主标题下方紧接一行楷体中文文字：“原生中文·复杂场景·自动布局”，字体柔和优雅，形成科技与人文的融合。下方居中排布展示了四张与图片，分别是：一幅写实与水墨风格结合的梅花特写，枝干苍劲、花瓣清雅，背景融入淡墨晕染与飘雪效果，体现坚韧不拔的精神气质；上方写着黑色的楷体"梅傲"。一株生长于山涧石缝中的兰花，叶片修长、花朵素净，搭配晨雾缭绕的自然环境，展现清逸脱俗的文人风骨；上方写着黑色的楷体"兰幽"。一组迎风而立的翠竹，竹叶随风摇曳，光影交错，背景为青灰色山岩与流水，呈现刚柔并济、虚怀若谷的文化意象；上方写着黑色的楷体"竹清"。一片盛开于秋日庭院的菊花丛，花色丰富、层次分明，配以落叶与古亭剪影，传递恬然自适的生活哲学；上方写着黑色的楷体"菊淡"。所有图片采用统一尺寸与边框样式，呈横向排列。页面底部中央用楷体小字写明“2025年8月，敬请期待”，排版工整、结构清晰，整体风格统一且细节丰富，极具视觉冲击力与品牌调性。

其实，除了文本处理，Qwen-Image 也会在通用图像生成方面也表现出色，支持多种艺术风格。从照片级写实场景到印象派绘画，从动漫风格到极简设计，该模型能够灵活响应各种创意提示，成为艺术家、设计师和故事创作者的多功能工具。

在图像编辑方面，Qwen-Image支持风格迁移、增删改、细节增强、文字编辑，人物姿态调整等多种操作。这让普通用户也能轻松实现专业级的图像编辑。这些我们在技术报告中会详细描述。

未来展望

综上，我们希望Qwen-Image能够进一步推动在图像生成领域的发展，降低视觉内容创作的技术门槛，激发更多创新应用的可能。同时，我们也期待社区的积极参与与反馈，共同构建开放、透明、可持续发展的生成式AI生态。

我们很高兴开源 Qwen-Image，一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型，其在复杂文本渲染和精确图像编辑方面取得了显著进展。

Qwen-Image的主要特性包括：

卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色，支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文，均能实现高保真输出。
一致性的图像编辑能力: 通过增强的多任务训练范式，Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
强大的跨基准性能表现: 在多个公开基准测试中的评估表明，Qwen-Image 在各类生成与编辑任务中均获得SOTA，是一个强大的图像生成基础模型。

如需体验 Qwen-Image，欢迎访问 QwenChat（chat.qwen.ai) 并选择“图像生成”功能。同时该模型已在魔搭社区与 Hugging Face 开源，欢迎体验。