DeepSeek播种,阿里云“收割”?

光子星球

12小时前

DeepSeek冲击影响下,云和AI正在成为重估阿里的标尺。

2月20日,阿里发布2025财年第三季度业绩报告(截至2024年12月31日止)。报告期内,阿里云实现营收317.42亿元,同比增长13%,相比上一季度7%的增速接近翻倍。整体收入(不计来自阿里巴巴并表业务的收入)实现双位数同比增长11%。调整后EBITA增长33%至31.38亿。

财报显示,该增长得益于AI相关产品推动的公共云收入增长,阿里云AI收入已连续六个季度三位数增长。

受云业务增长表现,阿里在美股盘前交易中上涨10%。相关数据显示,今年以来,阿里港股股价上涨了48.7%,一度创下了接近60%的涨幅。

而这背后都离不开AI和云的影子。李飞飞利用开源大模型Qwen,以不到50美元的成本复刻DeepSeek-R1模型性能。苹果选择与阿里通义合作,为苹果国内手机提供AI服务,一连串消息都获得了市场的认可。

春节期间,DeepSeek给世界抛下了一枚重磅炸弹,也重新点燃了行业对大模型的热情。似乎每个人都想抓住这波流量,并试图将流量商业化变现。

从结果来看,在由DeepSeek引发的流量大战中,赢面较大的仍是以阿里云为代表的云厂商。一方面是有稳健的基础设施和维护能力来接纳DeepSeek-R1“难民”,另一方面也通过接入DeepSeek推理模型,完成了留存拉新的阶段性任务。特别在开源领域,Qwen系列大模型仍具备竞争力,是国内不少中小企业决策和部署模型选项。

不可否认的是DeepSeek已经对国内大模型行业产生了影响:开源的价值被肯定,大模型技术的护城河被击,玩家加速分化和优胜劣汰。但短期热度过后,仍需思考“推理”模型落地场景产生的实用价值。

Qwen与DeepSeek的距离

阿里财报会上提到,“春节以来,推理需求呈爆炸性增长”,客户对AI相关产品的新需求约有60%-70%用于推理。

未来式智能CEO杨劲松对上面的数字有着清晰的感知,他回忆在春节期间,至少有一半的老客户咨询在DeepSeek,潜在和尚在沟通的新客户也有二三十个。此前,这些人大部分是Qwen或智谱的客户。

杨劲松介绍来咨询的客户大致分为两类,一类是之前就在使用大模型的客户,他们比较关注新模型的性能有哪些提升,以及自身能否部署和应用。第二类是尚未下决策的群体,开源正在改变他们的认知,意味着未来或许不需要花钱去找模型厂商采购。

尽管去年闭源大模型打到了“骨折价”,但动辄百万元级别的大模型对许多中小企业来说,仍是奢望。受困于预算,大模型决策链条十分长,涉及了选择哪家大模型,配套何种资源以及怎么去验证大模型价值等。

开源的优势凸显出来,能够以轻便的模式跑模型,体验性能的同时得到结果。目前,在开发者和To B客户中,通义千问的32B和72B最受欢迎。开源版的Qwen同样在海外得到了认可,官方数据显示,海内外开源社区中Qwen的衍生模型数量已突破9万,超越Llama系列衍生模型,通义千问Qwen成长为世界最大的生成式语言模型族群。

简单算一笔账,假设使用开源版的通义千问模型搭建一个AI应用项目。模型是免费的,大头支出就变成了硬件,剩下少部分是使用MaaS平台工具和构建应用的服务费用。预估下来,总体成本预算能控制在百万以内。

DeepSeek带着新推理模型杀回了开源领域,风头一下子盖过了Qwen和Llama。截至目前,DeepSeek相继开源了671B参数的MoE模型“DeepSeek-V3”,对标OpenAI o1的“DeepSeek-R1”和代码模型“DeepSeek Coder”等几款重要的模型。

当在开源的战场狭路相逢,Qwen和DeepSeek能否构成直接竞争?

杨劲松认为“暂时影响不太大”,Qwen在开源生态的优势仍十分明显。

目前,通义千问就像是阿里“全家桶”,实现了“全尺寸、全模态、多场景”开源。包含了长文本、代码生成、多模态、推理等多款模型,尺寸上也从3B跨越到72B,覆盖了企业日常知识问答、客服对话、代码生成、数据分析等常用场景。据悉,基于Qwen2.5-Max的深度推理模型也即将上线。正是这种“全”,给了用户更多灵活的选择。

国内阿里是较早选择开源的,Qwen系列模型就是以开源起家。当前,基于模型底座已经积累起了很多开发者用户、工具,生长出了一些应用产品。成熟的生态会给予用户便利性,促使其继续使用千问模型。

“一定程度上要取决于DeepSeek后期资源分配,在团队规模有限的情况下,是专注模型研发还是花费一定精力去维护开源生态”,行业中有部分人认为DeepSeek的重心依然在AGI研究上。

如果DeepSeek在开源上一直能保持领先,不排除将演变为生态系统之争。不过,DeepSeek和Qwen现在更偏向互为补充。一部分小尺寸DeepSeek-R1开源版本,就是基于Qwen模型蒸馏而来。

云厂商“收割”DS流量

高涨的情绪掺杂着些许冲动,一夜之间,比DeepSeek更火的是“接入DeepSeek”。

“不管怎么样,本地来一套DeepSeek,让我们能够向上汇报”,大到国央企和政府部分,小到大厂、中小企业和个人开发者都想做第一批“吃螃蟹的人”。

现实的问题是,在开源社区只能部署和跑得通R1蒸馏后的小模型,32B、70B小尺寸模型效果并不是很惊艳。

“接入”DeepSeek看上去很热闹,好像每家都在宣传,但其实大部分还是量化后的版本。要部署“满血版”6710亿参数的DeepSeek V3/R1,既要求得有硬件层面做推理优化的能力,还得扛得住经济成本。

以往一个新模型出来,因为时间差的原因,总会诞生一批卖API的人,但这回属实让一批人望而却步。有人大致推算,要把6710B拉满,至少需要1000G内存的卡,16台八卡A100的机器,即使定价与DeepSeek涨价后价格持平,也是亏钱的状态。与此同时,还得承受流量涌进后服务器的压力和用户消耗成本。

没有谁比云厂商更熟悉这套玩法,嗅到流量味道的云厂商们伺机而动了起来,相继官宣MaaS平台接入“满血版”的R1。送token还限时免费,恢复原价后的模型输入、输出价格也低于DeepSeek官方价格。

云厂商不靠卖API赚钱,最终获益的还是整套云计算基建规模化后效益。对阿里云们来说,抢夺AI时代流量入口才更重要,云上多模调用已经是大趋势,以更开放的心态才能吸引来更多用户。一旦调用R1的API锁定在一家云上,后期服务器、存储、构建应用等持续消费也将留在该厂商上。

对开发者和企业来说,调用哪家的API没有差别,最终还是要落到价格上。在没有明显效果差距下,倾向于哪家价格便宜用哪家。于是,大厂的价格优势就很明显。

结果也是显而易见,阿里云们接住了这波流量,token调用量、股价和市值随之上涨。

DeepSeek或许让阿里云等厂商愈发明确了生态站位。也许未来,国内外还将会出现性能优越的模型。这其中不变的是对云基础设施、释放模型能力和普惠的需求。

财报会上,阿里也明确了AI未来三年内的投资方向,强调“重投入”。

投资AI基础设施,计划在未来三年内对云和AI基础设施的投资将超过过去十年的总和;大幅增加对AI基础模型的研发投入,以保持技术领先地位,并推动AI原生应用的发展;增加对AI应用研发和计算能力的投资,并将AI深度整合到电商和互联网平台业务中,抓住AI时代的新增长机会。

短期热度与长期价值

短期的热度属于云厂商,风暴中心的DeepSeek已经move on,下周将陆续开源五个代码库。

把视线拉远,DeepSeek的长期价值应当回归到,推理模型究竟能解决什么问题。“几百家接入DeepSeek公司,可能自己也没想明白到底能干什么”。

杨劲松观察到,整个行业仍处于技术亢奋状态,还未达到R1大规模应用落地的阶段。结合国外的发展,还是有几个方向值得探索。

行业普遍看好的方向之一是AI Coding。海外Cursor等AI编程产品大火,基本确立了Claude 3.5 Sonet加上o1的组合,即Claude 3.5 Sonet负责生成代码,再用o1思维链去推理证明使用方式。这套组合之前在国内没有平替,现在DeepSeek有了自己代码+推理组合。这意味着有了构建一套Coding Agent的可能性。

“基于R1基座,通过强化学习的方式在垂直领域达到媲美人或超越人的能力,这是我觉得未来应用方向”,杨劲松表示道。

之前模型应用的路径是,先有基模,然后收集数据,再通过微调训练调整模型,来预测下一个token能力。但在实际业务场景中,采用行业数据和机器学习训练出的通用模型能力效果差强人意。

现在有了推理模型以后,就可以把行业专家在特定领域和工作流的最佳实践,通过强化学习方式喂给推理模型。这样一来,它就可以熟悉企业内部流程,掌握业务逻辑,做到像一位专家一样去工作。杨劲松认为,R1真正的价值在于,可以上升到决策层面,完成垂直领域的任务,且达到不错的效果。

例如在电力场景,日常存在许多分析电网图谱的工作。它要基于内部规则做推导,再去进行决策。现在接入R1推理模型,并配备一些行业知识后,一定程度上就可以模拟电力专家完成电网调度、专改公等非常专业的任务。

OpenAI已经在探索把推理功能落地到场景中。其由o3大模型支持的“Deep Research”功能,可以从互联网上收集信息,并将其合成为简明的报告。OpenAI声称,“只需数十分钟就能完成人类需要数小时才能完成的工作”。

这本质上是复制行业分析师和咨询顾问的思考链条。使用模型还原分析过程,过程中调用搜索引擎、图表等工具。围绕一个研究主题,先推理、检索再进行深度分析,其生成的报告基本可以达到中级行业分析师的水平。

目前,国内大厂已经开始逐渐上线类似的“深度搜索”功能。要大规模地落地生产力场景,仍需时间验证。



DeepSeek冲击影响下,云和AI正在成为重估阿里的标尺。

2月20日,阿里发布2025财年第三季度业绩报告(截至2024年12月31日止)。报告期内,阿里云实现营收317.42亿元,同比增长13%,相比上一季度7%的增速接近翻倍。整体收入(不计来自阿里巴巴并表业务的收入)实现双位数同比增长11%。调整后EBITA增长33%至31.38亿。

财报显示,该增长得益于AI相关产品推动的公共云收入增长,阿里云AI收入已连续六个季度三位数增长。

受云业务增长表现,阿里在美股盘前交易中上涨10%。相关数据显示,今年以来,阿里港股股价上涨了48.7%,一度创下了接近60%的涨幅。

而这背后都离不开AI和云的影子。李飞飞利用开源大模型Qwen,以不到50美元的成本复刻DeepSeek-R1模型性能。苹果选择与阿里通义合作,为苹果国内手机提供AI服务,一连串消息都获得了市场的认可。

春节期间,DeepSeek给世界抛下了一枚重磅炸弹,也重新点燃了行业对大模型的热情。似乎每个人都想抓住这波流量,并试图将流量商业化变现。

从结果来看,在由DeepSeek引发的流量大战中,赢面较大的仍是以阿里云为代表的云厂商。一方面是有稳健的基础设施和维护能力来接纳DeepSeek-R1“难民”,另一方面也通过接入DeepSeek推理模型,完成了留存拉新的阶段性任务。特别在开源领域,Qwen系列大模型仍具备竞争力,是国内不少中小企业决策和部署模型选项。

不可否认的是DeepSeek已经对国内大模型行业产生了影响:开源的价值被肯定,大模型技术的护城河被击,玩家加速分化和优胜劣汰。但短期热度过后,仍需思考“推理”模型落地场景产生的实用价值。

Qwen与DeepSeek的距离

阿里财报会上提到,“春节以来,推理需求呈爆炸性增长”,客户对AI相关产品的新需求约有60%-70%用于推理。

未来式智能CEO杨劲松对上面的数字有着清晰的感知,他回忆在春节期间,至少有一半的老客户咨询在DeepSeek,潜在和尚在沟通的新客户也有二三十个。此前,这些人大部分是Qwen或智谱的客户。

杨劲松介绍来咨询的客户大致分为两类,一类是之前就在使用大模型的客户,他们比较关注新模型的性能有哪些提升,以及自身能否部署和应用。第二类是尚未下决策的群体,开源正在改变他们的认知,意味着未来或许不需要花钱去找模型厂商采购。

尽管去年闭源大模型打到了“骨折价”,但动辄百万元级别的大模型对许多中小企业来说,仍是奢望。受困于预算,大模型决策链条十分长,涉及了选择哪家大模型,配套何种资源以及怎么去验证大模型价值等。

开源的优势凸显出来,能够以轻便的模式跑模型,体验性能的同时得到结果。目前,在开发者和To B客户中,通义千问的32B和72B最受欢迎。开源版的Qwen同样在海外得到了认可,官方数据显示,海内外开源社区中Qwen的衍生模型数量已突破9万,超越Llama系列衍生模型,通义千问Qwen成长为世界最大的生成式语言模型族群。

简单算一笔账,假设使用开源版的通义千问模型搭建一个AI应用项目。模型是免费的,大头支出就变成了硬件,剩下少部分是使用MaaS平台工具和构建应用的服务费用。预估下来,总体成本预算能控制在百万以内。

DeepSeek带着新推理模型杀回了开源领域,风头一下子盖过了Qwen和Llama。截至目前,DeepSeek相继开源了671B参数的MoE模型“DeepSeek-V3”,对标OpenAI o1的“DeepSeek-R1”和代码模型“DeepSeek Coder”等几款重要的模型。

当在开源的战场狭路相逢,Qwen和DeepSeek能否构成直接竞争?

杨劲松认为“暂时影响不太大”,Qwen在开源生态的优势仍十分明显。

目前,通义千问就像是阿里“全家桶”,实现了“全尺寸、全模态、多场景”开源。包含了长文本、代码生成、多模态、推理等多款模型,尺寸上也从3B跨越到72B,覆盖了企业日常知识问答、客服对话、代码生成、数据分析等常用场景。据悉,基于Qwen2.5-Max的深度推理模型也即将上线。正是这种“全”,给了用户更多灵活的选择。

国内阿里是较早选择开源的,Qwen系列模型就是以开源起家。当前,基于模型底座已经积累起了很多开发者用户、工具,生长出了一些应用产品。成熟的生态会给予用户便利性,促使其继续使用千问模型。

“一定程度上要取决于DeepSeek后期资源分配,在团队规模有限的情况下,是专注模型研发还是花费一定精力去维护开源生态”,行业中有部分人认为DeepSeek的重心依然在AGI研究上。

如果DeepSeek在开源上一直能保持领先,不排除将演变为生态系统之争。不过,DeepSeek和Qwen现在更偏向互为补充。一部分小尺寸DeepSeek-R1开源版本,就是基于Qwen模型蒸馏而来。

云厂商“收割”DS流量

高涨的情绪掺杂着些许冲动,一夜之间,比DeepSeek更火的是“接入DeepSeek”。

“不管怎么样,本地来一套DeepSeek,让我们能够向上汇报”,大到国央企和政府部分,小到大厂、中小企业和个人开发者都想做第一批“吃螃蟹的人”。

现实的问题是,在开源社区只能部署和跑得通R1蒸馏后的小模型,32B、70B小尺寸模型效果并不是很惊艳。

“接入”DeepSeek看上去很热闹,好像每家都在宣传,但其实大部分还是量化后的版本。要部署“满血版”6710亿参数的DeepSeek V3/R1,既要求得有硬件层面做推理优化的能力,还得扛得住经济成本。

以往一个新模型出来,因为时间差的原因,总会诞生一批卖API的人,但这回属实让一批人望而却步。有人大致推算,要把6710B拉满,至少需要1000G内存的卡,16台八卡A100的机器,即使定价与DeepSeek涨价后价格持平,也是亏钱的状态。与此同时,还得承受流量涌进后服务器的压力和用户消耗成本。

没有谁比云厂商更熟悉这套玩法,嗅到流量味道的云厂商们伺机而动了起来,相继官宣MaaS平台接入“满血版”的R1。送token还限时免费,恢复原价后的模型输入、输出价格也低于DeepSeek官方价格。

云厂商不靠卖API赚钱,最终获益的还是整套云计算基建规模化后效益。对阿里云们来说,抢夺AI时代流量入口才更重要,云上多模调用已经是大趋势,以更开放的心态才能吸引来更多用户。一旦调用R1的API锁定在一家云上,后期服务器、存储、构建应用等持续消费也将留在该厂商上。

对开发者和企业来说,调用哪家的API没有差别,最终还是要落到价格上。在没有明显效果差距下,倾向于哪家价格便宜用哪家。于是,大厂的价格优势就很明显。

结果也是显而易见,阿里云们接住了这波流量,token调用量、股价和市值随之上涨。

DeepSeek或许让阿里云等厂商愈发明确了生态站位。也许未来,国内外还将会出现性能优越的模型。这其中不变的是对云基础设施、释放模型能力和普惠的需求。

财报会上,阿里也明确了AI未来三年内的投资方向,强调“重投入”。

投资AI基础设施,计划在未来三年内对云和AI基础设施的投资将超过过去十年的总和;大幅增加对AI基础模型的研发投入,以保持技术领先地位,并推动AI原生应用的发展;增加对AI应用研发和计算能力的投资,并将AI深度整合到电商和互联网平台业务中,抓住AI时代的新增长机会。

短期热度与长期价值

短期的热度属于云厂商,风暴中心的DeepSeek已经move on,下周将陆续开源五个代码库。

把视线拉远,DeepSeek的长期价值应当回归到,推理模型究竟能解决什么问题。“几百家接入DeepSeek公司,可能自己也没想明白到底能干什么”。

杨劲松观察到,整个行业仍处于技术亢奋状态,还未达到R1大规模应用落地的阶段。结合国外的发展,还是有几个方向值得探索。

行业普遍看好的方向之一是AI Coding。海外Cursor等AI编程产品大火,基本确立了Claude 3.5 Sonet加上o1的组合,即Claude 3.5 Sonet负责生成代码,再用o1思维链去推理证明使用方式。这套组合之前在国内没有平替,现在DeepSeek有了自己代码+推理组合。这意味着有了构建一套Coding Agent的可能性。

“基于R1基座,通过强化学习的方式在垂直领域达到媲美人或超越人的能力,这是我觉得未来应用方向”,杨劲松表示道。

之前模型应用的路径是,先有基模,然后收集数据,再通过微调训练调整模型,来预测下一个token能力。但在实际业务场景中,采用行业数据和机器学习训练出的通用模型能力效果差强人意。

现在有了推理模型以后,就可以把行业专家在特定领域和工作流的最佳实践,通过强化学习方式喂给推理模型。这样一来,它就可以熟悉企业内部流程,掌握业务逻辑,做到像一位专家一样去工作。杨劲松认为,R1真正的价值在于,可以上升到决策层面,完成垂直领域的任务,且达到不错的效果。

例如在电力场景,日常存在许多分析电网图谱的工作。它要基于内部规则做推导,再去进行决策。现在接入R1推理模型,并配备一些行业知识后,一定程度上就可以模拟电力专家完成电网调度、专改公等非常专业的任务。

OpenAI已经在探索把推理功能落地到场景中。其由o3大模型支持的“Deep Research”功能,可以从互联网上收集信息,并将其合成为简明的报告。OpenAI声称,“只需数十分钟就能完成人类需要数小时才能完成的工作”。

这本质上是复制行业分析师和咨询顾问的思考链条。使用模型还原分析过程,过程中调用搜索引擎、图表等工具。围绕一个研究主题,先推理、检索再进行深度分析,其生成的报告基本可以达到中级行业分析师的水平。

目前,国内大厂已经开始逐渐上线类似的“深度搜索”功能。要大规模地落地生产力场景,仍需时间验证。



展开
打开“财经头条”阅读更多精彩资讯
APP内打开