3月26日,商汤科技发布2024年财报,总体收入同比增长10.8%,亏损同比大幅收窄33.7%,其中生成式AI增长103.1%,营收占比从2023年的35%来到64%[1]。
考虑到时下生成式AI“退潮裸泳”的大背景,这种表现令人侧目。新旧势力纷纷遭遇“落地墙”围堵,商汤却像是每个班都有的学霸,别人还在回顾知识点,ta已经开始刷题了。
在AI公司中,商汤的学霸光环向来耀眼。提到中国AI产业,商汤是绝不会忽略的一家公司。出道至今研发实力从未掉出过第一梯队,研发成果如数家珍。但光环背后,一度是面包和理想的长久拉锯。
2018年—2022年间,商汤开始投入基础设施建设,研发费用率由此飙升,背负起巨大的盈利压力,但也由此生长出了独一无二的商业模式。如今守得云开见月明,是科技产业对长期主义者的又一次褒奖。
上海临港,距离特斯拉超级工厂3公里,是商汤SenseCore AI大装置所在地——商汤智算中心AIDC,后者是当前亚洲最大的超算平台之一[2]。
商汤智算中心AIDC
AIDC正式启动于2021年,SenseCore AI大装置的打造则从更早之前就开始了,是商汤埋的最深的一个伏笔。
2017年,商汤创始人汤晓鸥在CCF青年精英大会提出深度学习的三大要素:算法设计、高性能的计算能力以及大数据[3]。同一时期,成为一个AI落地平台的愿景也在商汤内部逐步成型,自此开始了商汤对算力的前瞻性布局。
第二年,商汤开始在超算中心已有的6000张GPU的基础上,着手建设SenseCore AI大装置[2]。这是商汤研发费用飙升的开始,也是其“大装置+大模型”商业模式构建的起点。
SenseCore AI大装置并不只是一个单纯的算力输出设施,而是包含提供底层计算基础设施服务(IaaS)与深度学习平台服务(PaaS)、模型部署及推理服务(MaaS)三大部分的能力,旨在为模型的整个生产周期提供全套标准化的工具链,以降低模型开发的资金和时间成本。
软硬件“两条腿走路”,是SenseCore AI大装置区别于目前大模型生产工具的差异化分界点。
硬件工具主要由计算基础设施层提供。其中AIDC的算力规模是最直接的衡量指标之一。截至2024年底,商汤通过运营模式将算力总规模提升至23,000PetaFlops, 同比增长92%支撑起了在中国大模型应用top3的市场规模。
商汤AIDC的差异化在于,训练上,采用了自动化多维并行策略,并且优化了通信和算子,明显提高了集群的训练效率,每秒处理的Token数量(TGS)可达1600+,在未经特别优化的状态下,要好于DeepSeek官方报告。推理上,系统支持开源和自研双引擎的低比特量化推理,在内测商汤自己的多模态模型时,其推理能力比2024年7月日日新5.5发布的时候提升了50%。如果拿来跑DeepSeek R1,比如在推理吞吐性能关键指标上,比业界平均成绩要快25%,比头部厂商效率也要高15%。
商汤AIDC的软件部分涉及深度学习平台层、模型层。深度学习平台层可以理解为“模型生产流水线”,提供包括训练数据平台、SenseParrots训练框架、模型压缩工具及跨平台模型部署工具;模型层类似于一个模型制造工厂,基于商汤自研的基模型和特定场景的衍生模型,向客户直接提供模型产品。
软硬件工具环环相扣、一应俱全,使得客户可以自由地选择“套餐“,既可以租用流水线和工具构建自家模型,也可以直接要求模型定制化服务。
就像一个超级卖场,消费者可以购买工具,也可以直接购买产品,卖场不仅提供产品说明、使用指导,还附带送货到家、上门安装等保姆级服务。
这是商汤“大装置-大模型-应用”三位一体战略的显现,构建了从底层算力到终端应用的极其完整的全产业生态链闭环,形成了商汤独特的竞争壁垒。
营收的增长标志着这一商业模式的走通,背后助推的是商汤始终保持高位的研发投入和大胆的前瞻性布局,而多年所积累的工程经验,也加速了商汤的盈利兑现,成为另一条护城河。
“人工智能需要很多人工”,是上一波AI浪潮的“疑难杂症”。模型不是建好就能用,部署环节往往意味着大量的人力内耗,堵死了当年许多初创AI公司的盈利通道。
生成式AI以“预训练->微调”的模式结构性地解放了一部分人力,却并没有降低工程经验的重要性,反而在诸多垂直领域,工程经验的厚度直接决定了模型落地的效果。
以自动驾驶为例,小鹏前自动驾驶副总裁吴新宙就认为自动驾驶本质是一个工程问题[4]。特斯拉入华不久的FSD,端到端在算法层面做到了顶级,但落地层面投入不足,面对国内交规和路况水土不服。
商汤的工程能力经历过上一轮AI浪潮的检验,面对生成式AI的新业态,一方面能够对变化的技术快速反应,一方面可以直接移植其行业沉淀,精确打击痛点。
十几年的行业实践给商汤积累了深厚的行业知识和大量的真实数据,得以快速建立庞大的模型矩阵,以日日新SenseNova大模型为基础,推出生成式AI应用,以及针对B端企业级客户的垂直行业推出深度定制行业大模型。
具体到应用层面,商汤在企业级应用构建了“一基两翼”的布局,“两翼”分别为生产力工具、交互工具的应用与产品,前者直接以企业助手、金融数据先兵、政务助手等形态为客户提高工作效率;后者则是在智能陪伴、智能硬件交互、智能营销上发挥作用,比如加速大模型在机器人、智能车舱等智能硬件的应用布局,用大模型提高电商GMV等。
同时,过去的工程经验指导了工具层面的设置,使得商汤有足够多的工具来应答客户不同层级的需求。完备的工具箱与洞悉需求的产品设计形成良性循环,显化为新客户的增长和老客户的留存。
例如在当前竞争白热化、最考验“模型+落地”综合能力的智能驾驶领域,商汤绝影2024年新增定点车型41个,新增定点车辆数超过1100万辆;在商汤传统优势视觉AI方面,客户复购率按年提升了31个百分点,合作超过3年的客户中有约四成亦是生成式AI客户。
这里隐含了商汤模型开发不同于主流的的思路:
相比于DeepSeek和OpenAI“拿着模型的锤子找应用的钉子”,商汤的思路是直捣黄龙,直接从最终目标应用出发,以应用驱动模型。
Deepseek应用层面很大程度依赖其开源的生态,但开源的背面缺乏稳定的商业及技术支持与维护服务。反过来正是闭源模型的优势,能够持续做针对性的性能调优。比如商汤基于与手机厂商的深度合作,其端侧大模型在高通旗舰平台上推理速度小于1.5秒,比手机云端处理快10倍。
根据SuperCLUE《中文大模型基准测评2024年度报告》,商汤“日日新”融合大模型以总分68.3与DeepSeek-V3一起并列国内榜首。
根据SuperCLUE和OpenCompass榜单,商汤日日新5.5性能领先Gemini 2.0 Flash-Exp与GPT-4o,排名全国第一。而即将于4月10日发布的6.0版本据悉性能预期对标Gemini 2.0 Pro。
OpenCompass榜单
商汤董事会执行主席兼CEO徐立说,通用模型的能力比单纯的规模更重要。性能参数的堆砌之下,模型竞争更加实际的一面已经显露,其仍然遵循衡量技术的最高标尺,即是否切实改善了人们的生产生活。
Deepseek的出现是一种信号,无论是新晋明星公司,还是历经浮沉的老玩家,都开始面临商业化的灵魂拷问。其背面是对胜利者的重新定义:谁先跑出一条成功的商业化路径,谁才是生成式AI的最终赢家。
在AI的赛道上,商汤一度是孤独的长跑者,被质疑过,却从未迷茫过。持续的研发投入、落地能力的反复打磨,修炼出了独一无二的商业模式,和应对生成式AI最快的反应能力,让如今的厚积薄发来得顺理成章。
生成式AI不仅仅是技术变革,其不同于以往的产业逻辑正在改写科技行业成功学新范式,商汤已率先落笔,为中国AI提供了商业落地实践的最新成功样本。
[1]商汤科技2024年财报
[2]AI时代领先者,大装置+大模型推动AGI落地,中银证券
[3]汤晓鸥谈AI的明天:深度学习的三大核心要素,以及在中国创业要像百米赛跑,黑智
[4]小鹏吴新宙:对手如何出牌,不会打乱我们的节奏,晚点Auto
3月26日,商汤科技发布2024年财报,总体收入同比增长10.8%,亏损同比大幅收窄33.7%,其中生成式AI增长103.1%,营收占比从2023年的35%来到64%[1]。
考虑到时下生成式AI“退潮裸泳”的大背景,这种表现令人侧目。新旧势力纷纷遭遇“落地墙”围堵,商汤却像是每个班都有的学霸,别人还在回顾知识点,ta已经开始刷题了。
在AI公司中,商汤的学霸光环向来耀眼。提到中国AI产业,商汤是绝不会忽略的一家公司。出道至今研发实力从未掉出过第一梯队,研发成果如数家珍。但光环背后,一度是面包和理想的长久拉锯。
2018年—2022年间,商汤开始投入基础设施建设,研发费用率由此飙升,背负起巨大的盈利压力,但也由此生长出了独一无二的商业模式。如今守得云开见月明,是科技产业对长期主义者的又一次褒奖。
上海临港,距离特斯拉超级工厂3公里,是商汤SenseCore AI大装置所在地——商汤智算中心AIDC,后者是当前亚洲最大的超算平台之一[2]。
商汤智算中心AIDC
AIDC正式启动于2021年,SenseCore AI大装置的打造则从更早之前就开始了,是商汤埋的最深的一个伏笔。
2017年,商汤创始人汤晓鸥在CCF青年精英大会提出深度学习的三大要素:算法设计、高性能的计算能力以及大数据[3]。同一时期,成为一个AI落地平台的愿景也在商汤内部逐步成型,自此开始了商汤对算力的前瞻性布局。
第二年,商汤开始在超算中心已有的6000张GPU的基础上,着手建设SenseCore AI大装置[2]。这是商汤研发费用飙升的开始,也是其“大装置+大模型”商业模式构建的起点。
SenseCore AI大装置并不只是一个单纯的算力输出设施,而是包含提供底层计算基础设施服务(IaaS)与深度学习平台服务(PaaS)、模型部署及推理服务(MaaS)三大部分的能力,旨在为模型的整个生产周期提供全套标准化的工具链,以降低模型开发的资金和时间成本。
软硬件“两条腿走路”,是SenseCore AI大装置区别于目前大模型生产工具的差异化分界点。
硬件工具主要由计算基础设施层提供。其中AIDC的算力规模是最直接的衡量指标之一。截至2024年底,商汤通过运营模式将算力总规模提升至23,000PetaFlops, 同比增长92%支撑起了在中国大模型应用top3的市场规模。
商汤AIDC的差异化在于,训练上,采用了自动化多维并行策略,并且优化了通信和算子,明显提高了集群的训练效率,每秒处理的Token数量(TGS)可达1600+,在未经特别优化的状态下,要好于DeepSeek官方报告。推理上,系统支持开源和自研双引擎的低比特量化推理,在内测商汤自己的多模态模型时,其推理能力比2024年7月日日新5.5发布的时候提升了50%。如果拿来跑DeepSeek R1,比如在推理吞吐性能关键指标上,比业界平均成绩要快25%,比头部厂商效率也要高15%。
商汤AIDC的软件部分涉及深度学习平台层、模型层。深度学习平台层可以理解为“模型生产流水线”,提供包括训练数据平台、SenseParrots训练框架、模型压缩工具及跨平台模型部署工具;模型层类似于一个模型制造工厂,基于商汤自研的基模型和特定场景的衍生模型,向客户直接提供模型产品。
软硬件工具环环相扣、一应俱全,使得客户可以自由地选择“套餐“,既可以租用流水线和工具构建自家模型,也可以直接要求模型定制化服务。
就像一个超级卖场,消费者可以购买工具,也可以直接购买产品,卖场不仅提供产品说明、使用指导,还附带送货到家、上门安装等保姆级服务。
这是商汤“大装置-大模型-应用”三位一体战略的显现,构建了从底层算力到终端应用的极其完整的全产业生态链闭环,形成了商汤独特的竞争壁垒。
营收的增长标志着这一商业模式的走通,背后助推的是商汤始终保持高位的研发投入和大胆的前瞻性布局,而多年所积累的工程经验,也加速了商汤的盈利兑现,成为另一条护城河。
“人工智能需要很多人工”,是上一波AI浪潮的“疑难杂症”。模型不是建好就能用,部署环节往往意味着大量的人力内耗,堵死了当年许多初创AI公司的盈利通道。
生成式AI以“预训练->微调”的模式结构性地解放了一部分人力,却并没有降低工程经验的重要性,反而在诸多垂直领域,工程经验的厚度直接决定了模型落地的效果。
以自动驾驶为例,小鹏前自动驾驶副总裁吴新宙就认为自动驾驶本质是一个工程问题[4]。特斯拉入华不久的FSD,端到端在算法层面做到了顶级,但落地层面投入不足,面对国内交规和路况水土不服。
商汤的工程能力经历过上一轮AI浪潮的检验,面对生成式AI的新业态,一方面能够对变化的技术快速反应,一方面可以直接移植其行业沉淀,精确打击痛点。
十几年的行业实践给商汤积累了深厚的行业知识和大量的真实数据,得以快速建立庞大的模型矩阵,以日日新SenseNova大模型为基础,推出生成式AI应用,以及针对B端企业级客户的垂直行业推出深度定制行业大模型。
具体到应用层面,商汤在企业级应用构建了“一基两翼”的布局,“两翼”分别为生产力工具、交互工具的应用与产品,前者直接以企业助手、金融数据先兵、政务助手等形态为客户提高工作效率;后者则是在智能陪伴、智能硬件交互、智能营销上发挥作用,比如加速大模型在机器人、智能车舱等智能硬件的应用布局,用大模型提高电商GMV等。
同时,过去的工程经验指导了工具层面的设置,使得商汤有足够多的工具来应答客户不同层级的需求。完备的工具箱与洞悉需求的产品设计形成良性循环,显化为新客户的增长和老客户的留存。
例如在当前竞争白热化、最考验“模型+落地”综合能力的智能驾驶领域,商汤绝影2024年新增定点车型41个,新增定点车辆数超过1100万辆;在商汤传统优势视觉AI方面,客户复购率按年提升了31个百分点,合作超过3年的客户中有约四成亦是生成式AI客户。
这里隐含了商汤模型开发不同于主流的的思路:
相比于DeepSeek和OpenAI“拿着模型的锤子找应用的钉子”,商汤的思路是直捣黄龙,直接从最终目标应用出发,以应用驱动模型。
Deepseek应用层面很大程度依赖其开源的生态,但开源的背面缺乏稳定的商业及技术支持与维护服务。反过来正是闭源模型的优势,能够持续做针对性的性能调优。比如商汤基于与手机厂商的深度合作,其端侧大模型在高通旗舰平台上推理速度小于1.5秒,比手机云端处理快10倍。
根据SuperCLUE《中文大模型基准测评2024年度报告》,商汤“日日新”融合大模型以总分68.3与DeepSeek-V3一起并列国内榜首。
根据SuperCLUE和OpenCompass榜单,商汤日日新5.5性能领先Gemini 2.0 Flash-Exp与GPT-4o,排名全国第一。而即将于4月10日发布的6.0版本据悉性能预期对标Gemini 2.0 Pro。
OpenCompass榜单
商汤董事会执行主席兼CEO徐立说,通用模型的能力比单纯的规模更重要。性能参数的堆砌之下,模型竞争更加实际的一面已经显露,其仍然遵循衡量技术的最高标尺,即是否切实改善了人们的生产生活。
Deepseek的出现是一种信号,无论是新晋明星公司,还是历经浮沉的老玩家,都开始面临商业化的灵魂拷问。其背面是对胜利者的重新定义:谁先跑出一条成功的商业化路径,谁才是生成式AI的最终赢家。
在AI的赛道上,商汤一度是孤独的长跑者,被质疑过,却从未迷茫过。持续的研发投入、落地能力的反复打磨,修炼出了独一无二的商业模式,和应对生成式AI最快的反应能力,让如今的厚积薄发来得顺理成章。
生成式AI不仅仅是技术变革,其不同于以往的产业逻辑正在改写科技行业成功学新范式,商汤已率先落笔,为中国AI提供了商业落地实践的最新成功样本。
[1]商汤科技2024年财报
[2]AI时代领先者,大装置+大模型推动AGI落地,中银证券
[3]汤晓鸥谈AI的明天:深度学习的三大核心要素,以及在中国创业要像百米赛跑,黑智
[4]小鹏吴新宙:对手如何出牌,不会打乱我们的节奏,晚点Auto