智谱AI获杭州10亿投资 发布能生成汉字的开源文生图模型CogView4

雷递

4周前

支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。

图片

雷递网 乐天 3月4日

智谱AI昨日宣布近期完成新一轮金额超10亿元人民币的战略融资,参与投资方包括杭州城投产业基金、上城资本等。

最近几个月以来,智谱AI持续宣布获得多轮融资。

其中,智谱AI在2024年12月刚完成30亿元融资,新投资方包括多家战投及国资,君联资本等老股东跟投。2024年9月,中关村科学城公司宣布以投前200亿估值领投智谱,用于支持国产基座大模型的技术创新和生态发展。

更早前的2023年10月,智谱AI曾宣布,当年已累计获得超25亿人民币融资。参与方主要包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等多家机构及包括君联资本在内的部分老股东跟投。

智谱AI也是估值率先超过200亿的大模型创业企业之一,同时是目前国内估值最高的创业大模型公司之一。

与此前不同的是,智谱AI此次的超过10亿元融资,主要来自杭州。

2025年以来,随着宇树科技人形机器人走红,深度求索(DeepSeek)深刻改变AI行业,杭州6小龙——深度求索(DeepSeek)、宇树科技、3A游戏《黑神话》品牌方游戏科学、云深处科技、强脑科技、群核科技的概念越来越深入人心。

不过,杭州并不满足于只拥有六小龙,如今又“高薪”抢智谱。

发布能生成汉字的开源文生图模型CogView4

智谱AI今日宣布,发布首个能生成汉字的开源文生图模型CogView4,称其在DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到SOTA。该模型也是首个遵循 Apache 2.0协议的图像生成模型。

据介绍,CogView4具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。

CogView4在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

CogView4具有两大技术性:

首先,支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。

在技术实现上,CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder,并通过中英双语图文对进行训练,使CogView4模型具备双语提示词输入能力。

案例1:CogView4能够将中英文字符自然地融入画面,使海报、文案配图创作更加便捷。

案例2:擅长理解和遵循中文提示词,例如能够画出古诗文中的意境。

任意分辨率,任意长度提示词

其次,支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率。

CogView4模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。

1、图像位置编码

CogView4采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。

2、扩散生成建模

模型采用Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

3、架构设计

在DiT模型架构上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计独立的自适应LayerNorm层,以实现模态间的高效适配。

4、多阶段训练

CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。

5、训练框架优化

从文本角度,CogView4突破了传统固定token长度的限制,允许更高的token上限,并减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。

混合分辨率训练使模型能够支持较大范围内的任意分辨率生成,极大地提升了创作的自由度。目标分辨率只需满足以下条件:

- $512leq H,Wleq 2048, H imes W leq 2 imes1024^2$

- $H, W == 0 (mod 32)$

案例1:以故事作为超长提示词,生成四格漫画

案例2:超复杂提示词,生成精细画面

首个遵循 Apache 2.0的图像生成模型

CogView4模型支持Apache2.0协议,后续会陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也将推出。

最新的CogView4-6B-0304版本将于3月13日上线智谱清言(chatglm.cn)。

2025年是智谱的开源年

智谱AI成立于2019年,脱胎于清华 KEG(知识工程实验室),2020年,智谱AI开始了GLM预训练架构的研发,并训练了百亿参数模型GLM-10B。

2021年,公司利用MoE架构训练出万亿稀疏模型,于次年合作研发了双语千亿级超大规模预训练模型GLM-130B,并基于此千亿基座模型开始打造大模型平台及产品矩阵。

2023年,智谱AI推出了千亿基座的对话模型ChatGLM,并开源单卡版模型ChatGLM-6B,使得研究者和个人开发者进行微调和部署成为可能。

2024年1月,智谱推出新一代基座大模型GLM-4;6 月开源 GLM-4-9B 及视觉模型 GLM-4V-9B,多模态能力媲美 GPT-4V;7月推出视频生成模型 CogVideoX;8 月,智谱新升级基座大模型 GLM-4-Plus 推出。10 月,智谱发布端到端情感语音模型GLM-4-Voice 和大模型交互智能体(Agent)AutoGLM。11月迎来Agent新升级,推出GLM-PC。

2025年也将是智谱的开源年,智谱还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。

当前,智谱在大模型商业化方面进展相比月之暗面等要好。比如,自成立以来,智谱就适配国内40多种GPU芯片,智谱还构建了MaaS、私有化部署、智能体平台等服务模式,形成包含百万规模开发者的模型服务新生态:MaaS平台支撑70余万企业、应用开发者;私有化部署方面服务金融、医疗、教育、政务等20多个行业,在万余家企事业单位实现规模化应用。

近期,智谱AI内部也调整不仅多,年前,智谱首席战略官张阔、副总裁曲滕于离职。同期,前Midjourney亚洲副总裁王玥婷加入智谱AI,主要负责多模态产品和市场。

早前,前微软亚洲研究院研究员、阿里达摩院资深技术专家、支付宝中国首席数据官胡云华也加入智谱,并担任C端应用“智谱清言”的负责人。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。

图片

支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。

图片

雷递网 乐天 3月4日

智谱AI昨日宣布近期完成新一轮金额超10亿元人民币的战略融资,参与投资方包括杭州城投产业基金、上城资本等。

最近几个月以来,智谱AI持续宣布获得多轮融资。

其中,智谱AI在2024年12月刚完成30亿元融资,新投资方包括多家战投及国资,君联资本等老股东跟投。2024年9月,中关村科学城公司宣布以投前200亿估值领投智谱,用于支持国产基座大模型的技术创新和生态发展。

更早前的2023年10月,智谱AI曾宣布,当年已累计获得超25亿人民币融资。参与方主要包括社保基金中关村自主创新基金(君联资本为基金管理人)、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等多家机构及包括君联资本在内的部分老股东跟投。

智谱AI也是估值率先超过200亿的大模型创业企业之一,同时是目前国内估值最高的创业大模型公司之一。

与此前不同的是,智谱AI此次的超过10亿元融资,主要来自杭州。

2025年以来,随着宇树科技人形机器人走红,深度求索(DeepSeek)深刻改变AI行业,杭州6小龙——深度求索(DeepSeek)、宇树科技、3A游戏《黑神话》品牌方游戏科学、云深处科技、强脑科技、群核科技的概念越来越深入人心。

不过,杭州并不满足于只拥有六小龙,如今又“高薪”抢智谱。

发布能生成汉字的开源文生图模型CogView4

智谱AI今日宣布,发布首个能生成汉字的开源文生图模型CogView4,称其在DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到SOTA。该模型也是首个遵循 Apache 2.0协议的图像生成模型。

据介绍,CogView4具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。

CogView4在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。

CogView4具有两大技术性:

首先,支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。

在技术实现上,CogView4将文本编码器从纯英文的T5 encoder 换为具备双语能力的GLM-4 encoder,并通过中英双语图文对进行训练,使CogView4模型具备双语提示词输入能力。

案例1:CogView4能够将中英文字符自然地融入画面,使海报、文案配图创作更加便捷。

案例2:擅长理解和遵循中文提示词,例如能够画出古诗文中的意境。

任意分辨率,任意长度提示词

其次,支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率。

CogView4模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。

1、图像位置编码

CogView4采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。

2、扩散生成建模

模型采用Flow-matching方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。

3、架构设计

在DiT模型架构上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计独立的自适应LayerNorm层,以实现模态间的高效适配。

4、多阶段训练

CogView4采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。

5、训练框架优化

从文本角度,CogView4突破了传统固定token长度的限制,允许更高的token上限,并减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300 token时,与固定512 token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。

混合分辨率训练使模型能够支持较大范围内的任意分辨率生成,极大地提升了创作的自由度。目标分辨率只需满足以下条件:

- $512leq H,Wleq 2048, H imes W leq 2 imes1024^2$

- $H, W == 0 (mod 32)$

案例1:以故事作为超长提示词,生成四格漫画

案例2:超复杂提示词,生成精细画面

首个遵循 Apache 2.0的图像生成模型

CogView4模型支持Apache2.0协议,后续会陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也将推出。

最新的CogView4-6B-0304版本将于3月13日上线智谱清言(chatglm.cn)。

2025年是智谱的开源年

智谱AI成立于2019年,脱胎于清华 KEG(知识工程实验室),2020年,智谱AI开始了GLM预训练架构的研发,并训练了百亿参数模型GLM-10B。

2021年,公司利用MoE架构训练出万亿稀疏模型,于次年合作研发了双语千亿级超大规模预训练模型GLM-130B,并基于此千亿基座模型开始打造大模型平台及产品矩阵。

2023年,智谱AI推出了千亿基座的对话模型ChatGLM,并开源单卡版模型ChatGLM-6B,使得研究者和个人开发者进行微调和部署成为可能。

2024年1月,智谱推出新一代基座大模型GLM-4;6 月开源 GLM-4-9B 及视觉模型 GLM-4V-9B,多模态能力媲美 GPT-4V;7月推出视频生成模型 CogVideoX;8 月,智谱新升级基座大模型 GLM-4-Plus 推出。10 月,智谱发布端到端情感语音模型GLM-4-Voice 和大模型交互智能体(Agent)AutoGLM。11月迎来Agent新升级,推出GLM-PC。

2025年也将是智谱的开源年,智谱还将陆续开源基础模型、推理模型、多模态模型、Agent模型等。

当前,智谱在大模型商业化方面进展相比月之暗面等要好。比如,自成立以来,智谱就适配国内40多种GPU芯片,智谱还构建了MaaS、私有化部署、智能体平台等服务模式,形成包含百万规模开发者的模型服务新生态:MaaS平台支撑70余万企业、应用开发者;私有化部署方面服务金融、医疗、教育、政务等20多个行业,在万余家企事业单位实现规模化应用。

近期,智谱AI内部也调整不仅多,年前,智谱首席战略官张阔、副总裁曲滕于离职。同期,前Midjourney亚洲副总裁王玥婷加入智谱AI,主要负责多模态产品和市场。

早前,前微软亚洲研究院研究员、阿里达摩院资深技术专家、支付宝中国首席数据官胡云华也加入智谱,并担任C端应用“智谱清言”的负责人。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。

图片

展开
打开“财经头条”阅读更多精彩资讯
APP内打开