阿里云通义千问Qwen3重大升级：全面超越Kimi与DeepSeek

财经头条

提升一亿中产阶级阅读效率

打开

智车科技

2周前

阿里云通义千问Qwen3的重大升级是AI领域的一个重要里程碑，它不仅展示了阿里云在AI技术上的强大实力，也为整个行业的发展注入了新的动力。

2025年7月21日凌晨，阿里云通义千问团队发布了一则震撼AI圈的消息——其旗舰模型Qwen3的重大升级版本Qwen3-235B-A22B-Instruct-2507-FP8正式推出。

这款新模型在多项关键指标上全面超越了当前顶尖的Kimi-K2、DeepSeek-V3等开源模型，甚至优于Claude-Opus4-Non-thinking等闭源系统，标志着AI领域的一次重大突破。

▌性能飞跃：多项核心能力大幅提升

阿里官方发布的数据显示，新版Qwen3在多个核心能力维度实现了跨越式提升。在最新一轮权威测评中，这款模型展现出令人惊叹的实力：

数学能力突破：在AIME25数学测试中，Qwen3-235B-A22B-Instruct-2507-FP8得分达70.3，远超DeepSeek-V3的46.6和GPT-4o的26.7，显示出其在数学推理和解题能力上的巨大进步。

编程实力领先：在LiveCodeBench v6测试中，Qwen3获得51.8分，优于Kimi-K2的48.9，表明其在编程任务中的表现更加出色。

Agent能力惊艳：在BFCL-v3测试中，Qwen3以70.9的得分接近人类专业水平（97.3分），主打Agent能力将成为未来AI应用的核心竞争力。

复杂推理任务进步显著：在ZebraLogic逻辑测试中，新版本以95.0的高分碾压所有竞争对手，比第二名Kimi-K2高出6分，展现了其在复杂推理任务中的强大能力。

▌技术变革：从混合思考到分离训练

本次升级最核心的技术变革是阿里云彻底告别了此前的混合思考模式，转而采用分离训练策略。这一战略转变意味着：

快思考模型（本次发布的Instruct版本）专注于即时响应，优化指令遵循和知识检索。

慢思考模型（即将推出的Thinking版本）专攻深度推理，解决复杂问题。

技术架构同步实现三大突破：

上下文窗口扩展：上下文窗口扩展至256K tokens，较前代提升300%，极大地增强了模型对长文本的理解能力。

FP8混合精度计算框架：采用FP8混合精度计算框架，在保持推理精度的同时降低40%显存占用，显著提升了模型的效率和可扩展性。

分层知识蒸馏技术：引入分层知识蒸馏技术，压缩模型体积18%，进一步优化了模型的性能。

这些革新使新模型在工业级场景的部署成本降低35%，为大规模商业应用扫清了障碍。

▌用户体验提升：多语言与长文本支持

除了硬核的性能指标，本次更新还带来了显著的用户体验提升：

多语言长尾知识覆盖：模型在多语言的长尾知识覆盖方面取得显著进步，能够更好地支持全球用户的需求。

用户偏好契合能力增强：在主观及开放性任务中，模型显著增强了对用户偏好的契合能力，能够提供更有用的回复，生成更高质量的文本。

长文本能力提升：长文本处理能力提升到256K，上下文理解能力进一步增强，使得模型在处理复杂任务时表现更加出色。

▌开源战略：推动行业发展

延续阿里一贯的开源战略，新版Qwen3模型已在魔搭社区和Hugging Face平台全面开源，提供完整的API接口和微调工具链。这一举措不仅展示了阿里云的开放态度，也为全球开发者提供了强大的工具和资源，推动AI技术的进一步发展。

阿里云团队在发布消息时留下了一句话：“还有大招，马上就要来了！”这表明专注于复杂推理的“Thinking”模型可能已经在路上。业界对这款即将发布的模型充满期待，相信它将进一步巩固阿里云在AI领域的领先地位。

▌行业影响：AI竞争格局的重塑

阿里云通义千问Qwen3的重大升级不仅是一次技术突破，更是对整个AI行业竞争格局的重塑。随着Qwen3-235B-A22B-Instruct-2507-FP8的发布，AI领域的竞争将更加激烈，各大厂商将不得不加快技术创新的步伐，以应对这一新的挑战。

同时，Qwen3的开源策略也为全球开发者提供了更多的机会和可能性。开发者们可以利用这一强大的模型，开发出更多创新的应用和服务，推动AI技术在更多领域的落地和普及。

总之，阿里云通义千问Qwen3的重大升级是AI领域的一个重要里程碑，它不仅展示了阿里云在AI技术上的强大实力，也为整个行业的发展注入了新的动力。未来，随着更多技术的突破和应用的落地，AI将为人类社会带来更多的惊喜和变革。

原文标题 : 阿里云通义千问Qwen3重大升级：全面超越Kimi与DeepSeek