过去“春节档”属于电影行业的黄金时间窗口,如今大模型厂商也开辟了属于自己的“春节档”,成为技术与产品集中亮相的“发布季”。
先把时间拨回到过去几天,看看都有哪些发布内容。
2月10日,阿里发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token的超长文字输入和2K高分辨率,是千问大模型的图像生成模型底座。
2月11日,智谱发布新一代旗舰模型GLM-5,被官方定义为“Agentic Engineering时代最好的模型”。其核心突破在于编程能力与智能体任务执行能力,在真实编程场景中的体验已逼近Claude Opus 4.5,尤其擅长复杂系统工程和长程任务。
2月12日,字节跳动上线新一代AI视频生成模型Seedance 2.0,并接入旗下生成式AI创作平台“即梦”以及豆包App、电脑端和网页版。该视频生成模型支持原声音画同步、多镜头长叙事和多模态可控生成。连埃隆·马斯克都在社交平台X上转发评论Seedance 2.0的相关推文,说道:发展得太快了!
同日,MiniMax正式上线最新旗舰编程模型MiniMax M2.5,定位为“为Agent场景原生设计的生产级模型”,直接对标Claude Opus 4.6。其亮点在于“小而美”,仅10B激活参数即可支持100 TPS的高吞吐量,在推理能效上优势显著。
2月14日,字节跳动推出豆包大模型2.0(Doubao-Seed-2.0)系列。豆包2.0针对大规模生产环境的使用需求进行系统性优化,旨在更好地完成真实世界的复杂任务。
目前,豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择「专家」模式即可对话体验。火山引擎也已上线豆包2.0系列模型API服务。所谓专家模式,核心是面向具备专业知识的用户群体,减少基础引导与冗余交互,提供更灵活的操作空间,适配专业分析、参数调试与复杂任务场景。

模型能力开始逼近真实任务门槛
模型能力竞争仍然离不开基础指标,从公开测试成绩看,豆包2.0旗舰版本Pro在数学和推理能力方面取得了较高水平。在IMO、CMO数学竞赛以及ICPC编程竞赛相关评测中达到金牌成绩,并在Putnam基准测试中超过同类模型。
官方数据显示,豆包2.0在长尾知识领域进行了扩展,在SuperGPQA等公开测试集中的科学领域成绩与主流顶级模型处于同一水平,在跨学科知识应用排名中也处于前列。
多模态能力也是此次升级的重要部分,视觉推理、空间感知以及长上下文理解能力均有所提升,可以处理图表、复杂文档以及视频内容。这类能力在教育、办公和内容生产场景中都有着较高的需求。
模型对动态环境的理解能力也有所增强,包括时间序列分析与运动感知。官方展示的应用场景涵盖实时视频分析、环境感知以及交互辅助,例如健身指导、穿搭建议和陪伴场景。
测试数据显示,豆包2.0 Pro在指令遵循、工具调用以及Search Agent评测中达到较高水平,在HLE-Text测试中取得54.2分。这类能力关系到模型在多步骤任务中的执行表现。
大模型能力正在出现一个明显转折,早期竞争集中在知识覆盖与语言流畅度,如今更多厂商开始围绕任务完成率、稳定性与执行成本优化。
成本下降正在重塑企业采用曲线
过去两年,大模型价格持续下降已成为行业普遍现象,大家也都非常关心新模型的价格。
豆包2.0 Pro在32k输入范围内,输入价格为3.2元/百万tokens,输出价格为16元/百万tokens。Lite版本价格更低,百万tokens输入价格为0.6元,同时综合性能已经超过两个月前发布的上一代主力模型豆包1.8。
多家厂商公开定价显示,相比早期阶段,部分模型调用成本下降数倍,一些场景的推理费用降至早期水平的三分之一甚至更低。价格变化直接影响企业采用意愿,也推动应用规模扩大。
IDC预测,中国生成式AI市场规模预计将在2027年达到约140亿美元,2023年至2027年的年复合增长率接近70%。企业级应用被普遍认为将占据主要商业收入来源,包括智能客服、营销自动化、办公协同以及行业解决方案等方向。
目前,模型更新节奏明显加快,能力测试成绩仍然重要,但商业收入、客户数量以及成本控制能力越来越受到重视。能够证明商业化路径的公司,更容易获得长期支持。
春节档发布,看似只是时间节点的选择,背后却展现了模型竞争已进入第二阶段,围绕真实世界生产力。
豆包2.0则押在了执行力上。
过去“春节档”属于电影行业的黄金时间窗口,如今大模型厂商也开辟了属于自己的“春节档”,成为技术与产品集中亮相的“发布季”。
先把时间拨回到过去几天,看看都有哪些发布内容。
2月10日,阿里发布新一代图像生成及编辑模型Qwen-Image-2.0,支持1K token的超长文字输入和2K高分辨率,是千问大模型的图像生成模型底座。
2月11日,智谱发布新一代旗舰模型GLM-5,被官方定义为“Agentic Engineering时代最好的模型”。其核心突破在于编程能力与智能体任务执行能力,在真实编程场景中的体验已逼近Claude Opus 4.5,尤其擅长复杂系统工程和长程任务。
2月12日,字节跳动上线新一代AI视频生成模型Seedance 2.0,并接入旗下生成式AI创作平台“即梦”以及豆包App、电脑端和网页版。该视频生成模型支持原声音画同步、多镜头长叙事和多模态可控生成。连埃隆·马斯克都在社交平台X上转发评论Seedance 2.0的相关推文,说道:发展得太快了!
同日,MiniMax正式上线最新旗舰编程模型MiniMax M2.5,定位为“为Agent场景原生设计的生产级模型”,直接对标Claude Opus 4.6。其亮点在于“小而美”,仅10B激活参数即可支持100 TPS的高吞吐量,在推理能效上优势显著。
2月14日,字节跳动推出豆包大模型2.0(Doubao-Seed-2.0)系列。豆包2.0针对大规模生产环境的使用需求进行系统性优化,旨在更好地完成真实世界的复杂任务。
目前,豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择「专家」模式即可对话体验。火山引擎也已上线豆包2.0系列模型API服务。所谓专家模式,核心是面向具备专业知识的用户群体,减少基础引导与冗余交互,提供更灵活的操作空间,适配专业分析、参数调试与复杂任务场景。

模型能力开始逼近真实任务门槛
模型能力竞争仍然离不开基础指标,从公开测试成绩看,豆包2.0旗舰版本Pro在数学和推理能力方面取得了较高水平。在IMO、CMO数学竞赛以及ICPC编程竞赛相关评测中达到金牌成绩,并在Putnam基准测试中超过同类模型。
官方数据显示,豆包2.0在长尾知识领域进行了扩展,在SuperGPQA等公开测试集中的科学领域成绩与主流顶级模型处于同一水平,在跨学科知识应用排名中也处于前列。
多模态能力也是此次升级的重要部分,视觉推理、空间感知以及长上下文理解能力均有所提升,可以处理图表、复杂文档以及视频内容。这类能力在教育、办公和内容生产场景中都有着较高的需求。
模型对动态环境的理解能力也有所增强,包括时间序列分析与运动感知。官方展示的应用场景涵盖实时视频分析、环境感知以及交互辅助,例如健身指导、穿搭建议和陪伴场景。
测试数据显示,豆包2.0 Pro在指令遵循、工具调用以及Search Agent评测中达到较高水平,在HLE-Text测试中取得54.2分。这类能力关系到模型在多步骤任务中的执行表现。
大模型能力正在出现一个明显转折,早期竞争集中在知识覆盖与语言流畅度,如今更多厂商开始围绕任务完成率、稳定性与执行成本优化。
成本下降正在重塑企业采用曲线
过去两年,大模型价格持续下降已成为行业普遍现象,大家也都非常关心新模型的价格。
豆包2.0 Pro在32k输入范围内,输入价格为3.2元/百万tokens,输出价格为16元/百万tokens。Lite版本价格更低,百万tokens输入价格为0.6元,同时综合性能已经超过两个月前发布的上一代主力模型豆包1.8。
多家厂商公开定价显示,相比早期阶段,部分模型调用成本下降数倍,一些场景的推理费用降至早期水平的三分之一甚至更低。价格变化直接影响企业采用意愿,也推动应用规模扩大。
IDC预测,中国生成式AI市场规模预计将在2027年达到约140亿美元,2023年至2027年的年复合增长率接近70%。企业级应用被普遍认为将占据主要商业收入来源,包括智能客服、营销自动化、办公协同以及行业解决方案等方向。
目前,模型更新节奏明显加快,能力测试成绩仍然重要,但商业收入、客户数量以及成本控制能力越来越受到重视。能够证明商业化路径的公司,更容易获得长期支持。
春节档发布,看似只是时间节点的选择,背后却展现了模型竞争已进入第二阶段,围绕真实世界生产力。
豆包2.0则押在了执行力上。