新华财经上海2月20日电(记者杜康)今年以来,国产人工智能大模型DeepSeek大热。前不久,《麻省理工科技评论》一篇题为《关注DeepSeek之外的四家中国人工智能初创公司》的文章引发关注,无问芯穹便是文中列举的四家初创公司之一,专注于异构算力。虽然成立不满两年,无问芯穹已经吸引了近10亿元融资。
DeepSeek火爆之后,行业探讨的一个焦点是,这将会如何影响国产算力?可以看到,DeepSeek出圈后,国内的芯片厂商反应迅速,华为昇腾、海光信息、沐曦、天数智能、摩尔线程、壁仞等多家国产AI 芯片等宣布完成适配 DeepSeek 模型。记者近日专访了无问芯穹CEO夏立雪,聚焦当前市场对于国产算力的三大关切点。
一问:DeepSeek的低成本,是否意味着对算力需求变低?
从DeepSeek正式发布的技术报告来看,R1的基础模型V3总训练成本仅为557万美元。相较之下,GPT-4o这样的模型训练成本约为1亿美元。这意味着DeepSeek的成本只有GPT-4o的1/20。
低成本实现的背后,是DeepSeek对于算力的高效利用。“我们进一步对DeepSeek-V3的论文做解读,可以看到它用十多页专门介绍系统架构设计,核心是利用软硬件协同设计的思想,不断提升‘系统开销’(即模型的训练成本)到模型尺寸、能力的转化率。”夏立雪说。
既然依靠低算力,也能训练出“厉害”的大模型,是否意味着,未来关于算力的需求并没有预想的那么多?夏立雪给出了否定的答案。
一直以来,大模型行业存在“Scaling law”,即通过增加模型规模、数据量和计算能力,可以持续提升大模型性能。这也导致了一种趋势,即盲目追求更大的模型和更多的算力,常常忽视了计算资源和能源消耗的成本,以及模型在实际应用中的效率问题。
“DeepSeek并没有证明Scaling law是错的。量变引起质变,规模扩大依然是DeepSeek获得智能提升的基础。DeepSeek模型共发布了3个大版本,大概每半年更新一次,参数规模从67B扩大到236B再到如今671B。能让DeepSeek出圈的一个重要因素是,它的模型体量提升了10倍,但所使用的算力并没有随着模型尺寸等比例成倍增加,可以说远低于预期。”
事实上,DeepSeek出来之后,美国的大厂并没有削减其算力开支,反而以更大、更激进的投入卷“算力”。
2月18日,埃隆·马斯克发布其最新一代大模型Gork3,宣称使用了20万块H100 GPU,据估算这一成本相当于DeepSeek模型的200多倍。
从公开数据来看,2025年美国科技四巨头资本支出仍将高速增长。最新财报电话会显示,微软计划2025年资本支出将环比增加;亚马逊计划2025年投入1000亿美元资本支出,增速将接近30%,谷歌计划在2025年投入750亿美元资本支出,增速将超过40%。Meta预计2025年资本支出为600亿-650亿美元,增速将高达60%-75%。
不过夏立雪提到,随着DeepSeek的火爆,未来关于算力的需求结构会发生变化,相较而言,推理算力的需求会急剧增加。“DeepSeek的开源,夯实了一个市场上的重要生态位,叫做‘好用的中文开源模型’,尤其是其在推理能力上的突破,将会激发越来越多的下游应用创造力。”
二问:DeepSeek的火爆,为国产芯片带来哪些机会?
“对于国产芯片来说,DeepSeek首先是证明了一种方法论的可行性,让软硬件联合优化的技术路径再次被印证。”夏立雪说。
“DeepSeek在工程化方面的优化,让我们感受到了一种匠人精神。”夏立雪解释称,DeepSeek提出了多个软硬件协同设计方法,并通过“极致”的系统工程落地来实现。
“这些优化大致可分为两类。一是深入到底层硬件的硬核优化,这需要对底层的硬件有充分理解,并能够在硬件层面得到足够开放的软件生态,比如对底层PTX编程,又如极致的内存优化;第二是打通从算法到硬件的协同优化,这需要对于从算法到硬件各个层次都有充分的理解,并具有极致的工程实现能力。”
这条路径的走通,可以说为国产芯片注入了一剂“强心针”。“既然DeepSeek能够通过软硬件协同优化提升英伟达芯片的效能,那么也可以用同样的思路提升国产芯片的效能。国产芯片与海外芯片的差距,有望通过这种方式得到部分弥合。这也证明了我们的预判,用代际相对落后的算力来训练先进模型是可行路径。”夏立雪说。
走通软硬件协同的路径,需要关注模型、系统、芯片三个关键因素。在海外,这三者已经形成闭环生态。
“英伟达一直知道,它下一代芯片的优化方向是什么,这是CUDA(Compute Unified Device Architecture,软硬体统一计算架构)为其带来的护城河,也是让英伟达芯片保持领先的原因之一。CUDA的软件堆栈,可以让研究人员和软件开发者更好地在GPU上编程和构建各种各样的应用,从而牵引下一代芯片的迭代方向。”夏立雪表示。
困扰国产芯片的其中一个问题就在于,生态难形成。夏立雪表示,如今,国产芯片也有机会迎来自己的正向循环。
“DeepSeek的突破激发了越来越多的下游应用创造力,不仅将激发国产芯片的市场需求,也为打造全国产AI产业闭环,实现更可控的自主算力发展创造了有力条件。”
谈及国产芯片的未来,夏立雪提出了“三步走”的思路,第一步是基于主流芯片开展极致软硬件协同优化,以有限算力实现国产模型能力追赶;第二步,是推动国产芯片开放底层生态,搭建“异构”AI系统解决算力缺口,实现模型能力赶超;第三步,则是构建国产“同构”系统,实现“国产模型-国产芯片-国产系统”的全国产AI产业闭环,实现更可控的自主算力发展。
三问:国产算力的“异构”模式,商业路径走通了吗?
“我们希望让算力使用起来像水、电、煤一样便捷。”夏立雪这样描述无问芯穹的愿景。
“中国当前特有的AI基础设施是多模型和多芯片,存在大量的异构算力,需要把它们变得能用,进而变得好用。只有在使用的闭环中,才能形成硬件与算法之间的正向循环。”夏立雪说。
记者了解到,无问芯穹希望通过异构云,扩大国内大模型产业可用算力的范围,提升算力利用效率。“未来,我们会把各种异构的、跨地域的算力整合起来提供给客户,将异构算力转化为标准的算力,服务于人工智能行业。”
前不久的2月11日,无问芯穹宣布获七家国产芯片支持,将打通DeepSeek-R1、V3在壁仞、海光、摩尔线程、沐曦、昇腾、燧原、天数智芯等七个硬件平台的多芯片适配优化,成为首个同时支持 DeepSeek 多芯片适配和推理的平台。
构建异构算力平台,需要攻破很多技术瓶颈。夏立雪坦言,异构情况下的确出过现相同数量的国产芯片加上英伟达芯片,训练表现不如单独英伟达芯片的情况。如今,随着技术的逐渐成熟和上下游生态的共同努力,这一商业模式已见曙光。
“在某些特定场景下,使用国产芯片或异构芯片已被验证性价比能超过英伟达。随着DeepSeek激发下游应用创造力,更多中腰部厂商将尝试这种方式。”夏立雪说。
编辑:王媛媛
声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115
新华财经上海2月20日电(记者杜康)今年以来,国产人工智能大模型DeepSeek大热。前不久,《麻省理工科技评论》一篇题为《关注DeepSeek之外的四家中国人工智能初创公司》的文章引发关注,无问芯穹便是文中列举的四家初创公司之一,专注于异构算力。虽然成立不满两年,无问芯穹已经吸引了近10亿元融资。
DeepSeek火爆之后,行业探讨的一个焦点是,这将会如何影响国产算力?可以看到,DeepSeek出圈后,国内的芯片厂商反应迅速,华为昇腾、海光信息、沐曦、天数智能、摩尔线程、壁仞等多家国产AI 芯片等宣布完成适配 DeepSeek 模型。记者近日专访了无问芯穹CEO夏立雪,聚焦当前市场对于国产算力的三大关切点。
一问:DeepSeek的低成本,是否意味着对算力需求变低?
从DeepSeek正式发布的技术报告来看,R1的基础模型V3总训练成本仅为557万美元。相较之下,GPT-4o这样的模型训练成本约为1亿美元。这意味着DeepSeek的成本只有GPT-4o的1/20。
低成本实现的背后,是DeepSeek对于算力的高效利用。“我们进一步对DeepSeek-V3的论文做解读,可以看到它用十多页专门介绍系统架构设计,核心是利用软硬件协同设计的思想,不断提升‘系统开销’(即模型的训练成本)到模型尺寸、能力的转化率。”夏立雪说。
既然依靠低算力,也能训练出“厉害”的大模型,是否意味着,未来关于算力的需求并没有预想的那么多?夏立雪给出了否定的答案。
一直以来,大模型行业存在“Scaling law”,即通过增加模型规模、数据量和计算能力,可以持续提升大模型性能。这也导致了一种趋势,即盲目追求更大的模型和更多的算力,常常忽视了计算资源和能源消耗的成本,以及模型在实际应用中的效率问题。
“DeepSeek并没有证明Scaling law是错的。量变引起质变,规模扩大依然是DeepSeek获得智能提升的基础。DeepSeek模型共发布了3个大版本,大概每半年更新一次,参数规模从67B扩大到236B再到如今671B。能让DeepSeek出圈的一个重要因素是,它的模型体量提升了10倍,但所使用的算力并没有随着模型尺寸等比例成倍增加,可以说远低于预期。”
事实上,DeepSeek出来之后,美国的大厂并没有削减其算力开支,反而以更大、更激进的投入卷“算力”。
2月18日,埃隆·马斯克发布其最新一代大模型Gork3,宣称使用了20万块H100 GPU,据估算这一成本相当于DeepSeek模型的200多倍。
从公开数据来看,2025年美国科技四巨头资本支出仍将高速增长。最新财报电话会显示,微软计划2025年资本支出将环比增加;亚马逊计划2025年投入1000亿美元资本支出,增速将接近30%,谷歌计划在2025年投入750亿美元资本支出,增速将超过40%。Meta预计2025年资本支出为600亿-650亿美元,增速将高达60%-75%。
不过夏立雪提到,随着DeepSeek的火爆,未来关于算力的需求结构会发生变化,相较而言,推理算力的需求会急剧增加。“DeepSeek的开源,夯实了一个市场上的重要生态位,叫做‘好用的中文开源模型’,尤其是其在推理能力上的突破,将会激发越来越多的下游应用创造力。”
二问:DeepSeek的火爆,为国产芯片带来哪些机会?
“对于国产芯片来说,DeepSeek首先是证明了一种方法论的可行性,让软硬件联合优化的技术路径再次被印证。”夏立雪说。
“DeepSeek在工程化方面的优化,让我们感受到了一种匠人精神。”夏立雪解释称,DeepSeek提出了多个软硬件协同设计方法,并通过“极致”的系统工程落地来实现。
“这些优化大致可分为两类。一是深入到底层硬件的硬核优化,这需要对底层的硬件有充分理解,并能够在硬件层面得到足够开放的软件生态,比如对底层PTX编程,又如极致的内存优化;第二是打通从算法到硬件的协同优化,这需要对于从算法到硬件各个层次都有充分的理解,并具有极致的工程实现能力。”
这条路径的走通,可以说为国产芯片注入了一剂“强心针”。“既然DeepSeek能够通过软硬件协同优化提升英伟达芯片的效能,那么也可以用同样的思路提升国产芯片的效能。国产芯片与海外芯片的差距,有望通过这种方式得到部分弥合。这也证明了我们的预判,用代际相对落后的算力来训练先进模型是可行路径。”夏立雪说。
走通软硬件协同的路径,需要关注模型、系统、芯片三个关键因素。在海外,这三者已经形成闭环生态。
“英伟达一直知道,它下一代芯片的优化方向是什么,这是CUDA(Compute Unified Device Architecture,软硬体统一计算架构)为其带来的护城河,也是让英伟达芯片保持领先的原因之一。CUDA的软件堆栈,可以让研究人员和软件开发者更好地在GPU上编程和构建各种各样的应用,从而牵引下一代芯片的迭代方向。”夏立雪表示。
困扰国产芯片的其中一个问题就在于,生态难形成。夏立雪表示,如今,国产芯片也有机会迎来自己的正向循环。
“DeepSeek的突破激发了越来越多的下游应用创造力,不仅将激发国产芯片的市场需求,也为打造全国产AI产业闭环,实现更可控的自主算力发展创造了有力条件。”
谈及国产芯片的未来,夏立雪提出了“三步走”的思路,第一步是基于主流芯片开展极致软硬件协同优化,以有限算力实现国产模型能力追赶;第二步,是推动国产芯片开放底层生态,搭建“异构”AI系统解决算力缺口,实现模型能力赶超;第三步,则是构建国产“同构”系统,实现“国产模型-国产芯片-国产系统”的全国产AI产业闭环,实现更可控的自主算力发展。
三问:国产算力的“异构”模式,商业路径走通了吗?
“我们希望让算力使用起来像水、电、煤一样便捷。”夏立雪这样描述无问芯穹的愿景。
“中国当前特有的AI基础设施是多模型和多芯片,存在大量的异构算力,需要把它们变得能用,进而变得好用。只有在使用的闭环中,才能形成硬件与算法之间的正向循环。”夏立雪说。
记者了解到,无问芯穹希望通过异构云,扩大国内大模型产业可用算力的范围,提升算力利用效率。“未来,我们会把各种异构的、跨地域的算力整合起来提供给客户,将异构算力转化为标准的算力,服务于人工智能行业。”
前不久的2月11日,无问芯穹宣布获七家国产芯片支持,将打通DeepSeek-R1、V3在壁仞、海光、摩尔线程、沐曦、昇腾、燧原、天数智芯等七个硬件平台的多芯片适配优化,成为首个同时支持 DeepSeek 多芯片适配和推理的平台。
构建异构算力平台,需要攻破很多技术瓶颈。夏立雪坦言,异构情况下的确出过现相同数量的国产芯片加上英伟达芯片,训练表现不如单独英伟达芯片的情况。如今,随着技术的逐渐成熟和上下游生态的共同努力,这一商业模式已见曙光。
“在某些特定场景下,使用国产芯片或异构芯片已被验证性价比能超过英伟达。随着DeepSeek激发下游应用创造力,更多中腰部厂商将尝试这种方式。”夏立雪说。
编辑:王媛媛
声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115