挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?

AI新榜公众号

11小时前

这种开源模式也会面临一些挑战,例如怎样在开源的同时找到可持续的商业模式?对此,HiDream.ai公司CTO姚霆在此前接受采访时是这样回答的:。

AI的“神仙打架”从未停歇,尤其在文生图这个烧钱又内卷的赛道。

但当所有人的目光都聚集在OpenAI、Google、Midjourney等“头号玩家”时,一个相对低调的中国团队,却悄然登上了多个AI模型能力榜单前列,引起AI圈热议,它就是HiDream。

图片

4月21日排名

海外论坛Reddit网友对HiDream的评价

而且HiDream作为榜单上为数不多的开源模型,在Hugging Face等开发者社区上同样非常热门。

图片

Hugging Face趋势排名,截图时间4月21日

这就不禁让人好奇:这款来自国内团队的开源模型,其实力究竟如何?我们将HiDream-I1Dev与GPT-4o及同样表现出色的SeeDream3.0(即梦)以及广受欢迎的Recraft V3进行正面对比,看看它是否真的具备挑战顶级模型的能力。

与巨头硬碰硬,HiDream的底气在哪里?

我们的测试一共分为五组,涵盖了对提示词理解能力、写实风格还原、人物动态与细节、创意表达、材质真实性、光影与景深控制、文本能力等多方面的考察,通过一系列较为典型的提示词信息,观察模型生成图片的效果。

测试一:复杂场景理解、写实与材质表现

图片

第一个测试属于牛刀小试,测试重点在于:对复杂场景布局、多物体关系、光影氛围的理解、同时渲染多种差异巨大的材质(粘土、金属、木材、玻璃)、照片级真实感和细节刻画。

从实测结果不难看出,各个模型在这些方面都做得不错,但细看还是能看到一些差别。例如GPT-4o没有做出提示词中要求的“空气中飞舞的尘埃”,且桌面非常整齐,“整齐”多于“凌乱”,HiDream书架不太明显,没能很好地表现出“书架摆满了颜料罐和画笔”。

测试二:创意概念、特定艺术风格模仿与氛围营造

这项测试的重点在于:理解并视觉化高度想象力的概念;准确模仿指定的、具有强烈辨识度的艺术风格;营造特定的情绪和氛围;处理多角色和环境细节的一致性问题。

虽然各个模型都能完成创意理解和风格模仿的任务:GPT-4o生成图像中的人物更像宫崎骏动画中的角色,色彩柔和但整体偏绿;HiDream忽略了“巨大空心树”的设定,且出现了一定程度的脸部崩坏;只有即梦表现出了发光的水果和闪光的布料,综合表现更好。

测试三:人物动态、细节捕捉与极端光影控制

图片

这轮测试重点在于:准确描绘人物动态(尤其是手部);捕捉高速运动的瞬间细节(油滴、模糊效果);控制复杂且对比强烈的光影环境。

由于测试难度提高了一些,这轮各个模型在手部细节、动态捕捉(如火焰、油滴)等方面上都出现了不同程度的问题,即梦生成的图片效果相较其他三个更好一些。

测试四:排版设计、文字生成与应用场景模拟

图片

这项测试测试的重点是:准确生成指定英文文字(包括大小写和内容);理解并执行排版布局要求(位置、字体风格);结合图像和文字创造出符合特定类型(科幻小说封面)的设计美感;模拟实际应用场景。

四个模型都能很好地完成封面任务,并且呈现出了提示词要求的线条、人形剪影,但细节处还是能看到一些区别:只有即梦按照提示词的要求准确区分出了标题和作者的英文大小写;Recraft和即梦模拟了书籍封面的呈现形式;GPT-4o封面右下角出现了第三个人。

测试五:微距细节、特殊材质与精确控制

图片

测试重点: 特殊光学效果材质(彩虹、水珠折射);对摄影参数(景深、焦点)的精确控制能力;极端细节的刻画能力(微距级别);处理重复性精细纹理。

HiDream能够生成微距效果,并在一定程度上表现了鳞片的纹理和露珠,但在精确还原“虹彩”随光线变色的效果上可能不够理想,需要更精细的提示词引导;Recraft更偏写实风格,在表现水珠折射上也更偏保守;相较而言即梦呈现的图像更接近提示词要求。

其他测试案例

除了这些针对具体能力的测试以外,我们还尝试了更多不同风格的案例,下面是HiDream的生成效果。

图片

图片

图片

图片

图片

总体而言,HiDream在图像、写实风格下的质感表现、复杂场景的细节刻画等方面确实具备了与一线模型掰手腕的实力,站稳第一梯队是完全没有问题的。

而且HiDream支持输出4K高清图像,出图速度快,还可以直接挂进内容生产链路,例如ComfyUI等。

图片

值得注意的是,HiDream基于中国本土打造,在使用较为中性的提示词生成包含人物面部的图像时,比较倾向于生成亚洲人,在审美上也比较贴近国人审美。

图片

连续20次使用中性描述“A portrait photo of a person.(一个人物肖像图片)”测试

此外,HiDream在生成中文方面却表现欠佳,虽然支持中文提示词,但使用英文提示词效果更佳。

图片

HiDream生成的中文

此外,HiDream对一些较为模糊、抽象的提示词理解能力有待提高,在生成某些需要独特创意或特定氛围的图像时,表现可能不如其他模型。

例如前文“测试五”中,HiDream生成的图片在光学效果、摄影效果等方面表现尚可,但需要多次额外强调细节才能生成理想中的彩色鳞片特写。

图片

综合而言,虽然HiDream文生图能力达到了第一梯队的水平,但缺点也非常明显。

优点:

缺点:

图片

左为HiDream,右为即梦

值得一提的是,官方为模型提供了落地产品vivago.ai(https://vivago.ai/home)。但我们在测试中发现,vivago.ai实际出图能力可能弱于通过第三方工具调用其开源模型。鉴于我们评测使用的是由Recraft调用的HiDream-I1Dev,vivago.ai使用的模型很可能使用是参数量更小的HiDream-I1Flash模型。而且vivago.ai生成的图片带有水印。

图片

使用vivago.ai生图需要付费去水印

图片

“测试三”中,相同的提示词在vivago.ai和Recraft调用HiDream模型的文生图表现对比,vivago并没有做到我们要求的“吉卜力风格”

小团队+开源,黑马的“突围”之道?

当我们看到HiDream在AI模型榜单上的亮眼表现时,也有很多人注意到这样一个问题——为什么在文生图这个领域,我们看到的大多是闭源的商业模型,而非开源项目?

答案并不复杂,主要归结于高昂的训练成本与资源壁垒,以及主流的商业模式选择。

训练一个顶级的文生图模型,既包括大规模GPU集群的算力成本、海量高质量图像与数据的获取成本,以及顶尖算法工程师团队的研发成本。这种“烧钱”的特性,天然地将大多数资源有限的玩家挡在了门外,使得大型科技公司或资金雄厚的AI独角兽占据了主导地位。

同时,这些投入巨大的公司,自然倾向于选择能够快速回收成本并实现盈利的商业模式,所以我们常常可以看到厂商通过订阅付费墙、API调用服务等形式,将模型本身作为核心资产进行商业变现。

在这样的背景下,小团队面临的困境显而易见。它们既缺乏与巨头抗衡的资金和资源去“军备竞赛”,又难以在成熟的闭源商业模式下找到差异化的生存空间。许多有潜力的技术团队可能因此在基础模型层面望而却步,转向更轻量级的应用层开发。

所以HiDream的故事就显得尤为独特,这家成立于2023年3月、来自中国合肥的公司,依托中科大的人才资源,由一支50人的团队在短时间内拿出了一款在多项基准测试和实际效果上能与顶级模型掰手腕的产品。

更关键的是,面对行业主流的闭源模式,HiDream却选择了开源,关于其中原因,CEO梅涛在此前接受甲子光年采访时表示:

显然,HiDream意在通过文生图模型作为切入口,凝聚更多开发者和用户,为将来可能的视频生成等更复杂的领域构建生态护城河,形成一种经典的“以开放换未来”的打法。

实际上,这样的故事在AI行业已经出现太多太多,例如之前智谱开源的文生图模型CogView4等。近期OpenAI尝试打造的AI社交平台,在一定程度上也是为了通过打造社群来抢数据、抢流量。

图片

在Recraft上使用HiDream-I1模型

值得一提的是,HiDream最新开源的模型都已经完成了国产GPU的适配,如果能实现算法与硬件的深度协同优化,可能探索出一条独特的软硬结合发展路径,为国产AI软硬件生态的建设提供一个正向循环的案例。

当然,这种开源模式也会面临一些挑战,例如怎样在开源的同时找到可持续的商业模式?对此,HiDream.ai公司CTO姚霆在此前接受采访时是这样回答的:

显然HiDream采取了一种较为务实的策略,即追求基础模型能力的同时,也强调找到合适的应用场景,我们在其体验网站上,也可以看到很多附加的小功能,例如AI试衣、Logo设计、AI人像等。

虽然其中很多功能仍处于早期阶段,实际效果和稳定性还有提升空间,但也不失为打通模型与应用的一种好的尝试。

图片

HiDream团队不久前还曾发文表示,团队另有支持交互式图像编辑的模型HiDream-E1也将开源,未来还将发布多模态Agent产品,或许HiDream还有更多惊喜在等着我们。

图片

HiDream-E1的图像编辑效果

不难看出,HiDream的案例为我们展示了这样一种可能:小团队凭借在特定技术点的突破,结合开源策略,快速建立影响力,并围绕核心技术构建应用生态。

这种模式会在未来孕育出更多挑战巨头的“AI黑马”吗?欢迎在评论区分享你的答案。

体验地址:

https://vivago.ai/home

模型地址:

https://huggingface.co/HiDream-ai/HiDream-I1-Full

代码仓库:

https://github.com/HiDream-ai/HiDream-I1

(举报)

这种开源模式也会面临一些挑战,例如怎样在开源的同时找到可持续的商业模式?对此,HiDream.ai公司CTO姚霆在此前接受采访时是这样回答的:。

AI的“神仙打架”从未停歇,尤其在文生图这个烧钱又内卷的赛道。

但当所有人的目光都聚集在OpenAI、Google、Midjourney等“头号玩家”时,一个相对低调的中国团队,却悄然登上了多个AI模型能力榜单前列,引起AI圈热议,它就是HiDream。

图片

4月21日排名

海外论坛Reddit网友对HiDream的评价

而且HiDream作为榜单上为数不多的开源模型,在Hugging Face等开发者社区上同样非常热门。

图片

Hugging Face趋势排名,截图时间4月21日

这就不禁让人好奇:这款来自国内团队的开源模型,其实力究竟如何?我们将HiDream-I1Dev与GPT-4o及同样表现出色的SeeDream3.0(即梦)以及广受欢迎的Recraft V3进行正面对比,看看它是否真的具备挑战顶级模型的能力。

与巨头硬碰硬,HiDream的底气在哪里?

我们的测试一共分为五组,涵盖了对提示词理解能力、写实风格还原、人物动态与细节、创意表达、材质真实性、光影与景深控制、文本能力等多方面的考察,通过一系列较为典型的提示词信息,观察模型生成图片的效果。

测试一:复杂场景理解、写实与材质表现

图片

第一个测试属于牛刀小试,测试重点在于:对复杂场景布局、多物体关系、光影氛围的理解、同时渲染多种差异巨大的材质(粘土、金属、木材、玻璃)、照片级真实感和细节刻画。

从实测结果不难看出,各个模型在这些方面都做得不错,但细看还是能看到一些差别。例如GPT-4o没有做出提示词中要求的“空气中飞舞的尘埃”,且桌面非常整齐,“整齐”多于“凌乱”,HiDream书架不太明显,没能很好地表现出“书架摆满了颜料罐和画笔”。

测试二:创意概念、特定艺术风格模仿与氛围营造

这项测试的重点在于:理解并视觉化高度想象力的概念;准确模仿指定的、具有强烈辨识度的艺术风格;营造特定的情绪和氛围;处理多角色和环境细节的一致性问题。

虽然各个模型都能完成创意理解和风格模仿的任务:GPT-4o生成图像中的人物更像宫崎骏动画中的角色,色彩柔和但整体偏绿;HiDream忽略了“巨大空心树”的设定,且出现了一定程度的脸部崩坏;只有即梦表现出了发光的水果和闪光的布料,综合表现更好。

测试三:人物动态、细节捕捉与极端光影控制

图片

这轮测试重点在于:准确描绘人物动态(尤其是手部);捕捉高速运动的瞬间细节(油滴、模糊效果);控制复杂且对比强烈的光影环境。

由于测试难度提高了一些,这轮各个模型在手部细节、动态捕捉(如火焰、油滴)等方面上都出现了不同程度的问题,即梦生成的图片效果相较其他三个更好一些。

测试四:排版设计、文字生成与应用场景模拟

图片

这项测试测试的重点是:准确生成指定英文文字(包括大小写和内容);理解并执行排版布局要求(位置、字体风格);结合图像和文字创造出符合特定类型(科幻小说封面)的设计美感;模拟实际应用场景。

四个模型都能很好地完成封面任务,并且呈现出了提示词要求的线条、人形剪影,但细节处还是能看到一些区别:只有即梦按照提示词的要求准确区分出了标题和作者的英文大小写;Recraft和即梦模拟了书籍封面的呈现形式;GPT-4o封面右下角出现了第三个人。

测试五:微距细节、特殊材质与精确控制

图片

测试重点: 特殊光学效果材质(彩虹、水珠折射);对摄影参数(景深、焦点)的精确控制能力;极端细节的刻画能力(微距级别);处理重复性精细纹理。

HiDream能够生成微距效果,并在一定程度上表现了鳞片的纹理和露珠,但在精确还原“虹彩”随光线变色的效果上可能不够理想,需要更精细的提示词引导;Recraft更偏写实风格,在表现水珠折射上也更偏保守;相较而言即梦呈现的图像更接近提示词要求。

其他测试案例

除了这些针对具体能力的测试以外,我们还尝试了更多不同风格的案例,下面是HiDream的生成效果。

图片

图片

图片

图片

图片

总体而言,HiDream在图像、写实风格下的质感表现、复杂场景的细节刻画等方面确实具备了与一线模型掰手腕的实力,站稳第一梯队是完全没有问题的。

而且HiDream支持输出4K高清图像,出图速度快,还可以直接挂进内容生产链路,例如ComfyUI等。

图片

值得注意的是,HiDream基于中国本土打造,在使用较为中性的提示词生成包含人物面部的图像时,比较倾向于生成亚洲人,在审美上也比较贴近国人审美。

图片

连续20次使用中性描述“A portrait photo of a person.(一个人物肖像图片)”测试

此外,HiDream在生成中文方面却表现欠佳,虽然支持中文提示词,但使用英文提示词效果更佳。

图片

HiDream生成的中文

此外,HiDream对一些较为模糊、抽象的提示词理解能力有待提高,在生成某些需要独特创意或特定氛围的图像时,表现可能不如其他模型。

例如前文“测试五”中,HiDream生成的图片在光学效果、摄影效果等方面表现尚可,但需要多次额外强调细节才能生成理想中的彩色鳞片特写。

图片

综合而言,虽然HiDream文生图能力达到了第一梯队的水平,但缺点也非常明显。

优点:

缺点:

图片

左为HiDream,右为即梦

值得一提的是,官方为模型提供了落地产品vivago.ai(https://vivago.ai/home)。但我们在测试中发现,vivago.ai实际出图能力可能弱于通过第三方工具调用其开源模型。鉴于我们评测使用的是由Recraft调用的HiDream-I1Dev,vivago.ai使用的模型很可能使用是参数量更小的HiDream-I1Flash模型。而且vivago.ai生成的图片带有水印。

图片

使用vivago.ai生图需要付费去水印

图片

“测试三”中,相同的提示词在vivago.ai和Recraft调用HiDream模型的文生图表现对比,vivago并没有做到我们要求的“吉卜力风格”

小团队+开源,黑马的“突围”之道?

当我们看到HiDream在AI模型榜单上的亮眼表现时,也有很多人注意到这样一个问题——为什么在文生图这个领域,我们看到的大多是闭源的商业模型,而非开源项目?

答案并不复杂,主要归结于高昂的训练成本与资源壁垒,以及主流的商业模式选择。

训练一个顶级的文生图模型,既包括大规模GPU集群的算力成本、海量高质量图像与数据的获取成本,以及顶尖算法工程师团队的研发成本。这种“烧钱”的特性,天然地将大多数资源有限的玩家挡在了门外,使得大型科技公司或资金雄厚的AI独角兽占据了主导地位。

同时,这些投入巨大的公司,自然倾向于选择能够快速回收成本并实现盈利的商业模式,所以我们常常可以看到厂商通过订阅付费墙、API调用服务等形式,将模型本身作为核心资产进行商业变现。

在这样的背景下,小团队面临的困境显而易见。它们既缺乏与巨头抗衡的资金和资源去“军备竞赛”,又难以在成熟的闭源商业模式下找到差异化的生存空间。许多有潜力的技术团队可能因此在基础模型层面望而却步,转向更轻量级的应用层开发。

所以HiDream的故事就显得尤为独特,这家成立于2023年3月、来自中国合肥的公司,依托中科大的人才资源,由一支50人的团队在短时间内拿出了一款在多项基准测试和实际效果上能与顶级模型掰手腕的产品。

更关键的是,面对行业主流的闭源模式,HiDream却选择了开源,关于其中原因,CEO梅涛在此前接受甲子光年采访时表示:

显然,HiDream意在通过文生图模型作为切入口,凝聚更多开发者和用户,为将来可能的视频生成等更复杂的领域构建生态护城河,形成一种经典的“以开放换未来”的打法。

实际上,这样的故事在AI行业已经出现太多太多,例如之前智谱开源的文生图模型CogView4等。近期OpenAI尝试打造的AI社交平台,在一定程度上也是为了通过打造社群来抢数据、抢流量。

图片

在Recraft上使用HiDream-I1模型

值得一提的是,HiDream最新开源的模型都已经完成了国产GPU的适配,如果能实现算法与硬件的深度协同优化,可能探索出一条独特的软硬结合发展路径,为国产AI软硬件生态的建设提供一个正向循环的案例。

当然,这种开源模式也会面临一些挑战,例如怎样在开源的同时找到可持续的商业模式?对此,HiDream.ai公司CTO姚霆在此前接受采访时是这样回答的:

显然HiDream采取了一种较为务实的策略,即追求基础模型能力的同时,也强调找到合适的应用场景,我们在其体验网站上,也可以看到很多附加的小功能,例如AI试衣、Logo设计、AI人像等。

虽然其中很多功能仍处于早期阶段,实际效果和稳定性还有提升空间,但也不失为打通模型与应用的一种好的尝试。

图片

HiDream团队不久前还曾发文表示,团队另有支持交互式图像编辑的模型HiDream-E1也将开源,未来还将发布多模态Agent产品,或许HiDream还有更多惊喜在等着我们。

图片

HiDream-E1的图像编辑效果

不难看出,HiDream的案例为我们展示了这样一种可能:小团队凭借在特定技术点的突破,结合开源策略,快速建立影响力,并围绕核心技术构建应用生态。

这种模式会在未来孕育出更多挑战巨头的“AI黑马”吗?欢迎在评论区分享你的答案。

体验地址:

https://vivago.ai/home

模型地址:

https://huggingface.co/HiDream-ai/HiDream-I1-Full

代码仓库:

https://github.com/HiDream-ai/HiDream-I1

(举报)

展开
打开“财经头条”阅读更多精彩资讯
APP内打开