行业大模型的突围之战

老冀说科技

1周前

此时我们应该意识到,卷参数量、卷Token数、卷集群规模、卷价格都毫无意义,行业大模型落地更需要关注工程化的问题。

大模型的创新,不仅仅需要单点的创新,更要围绕AI-Native开展系统性地创新;不仅要在场景上广泛探索,更要在技术上形成突围。

01

重塑一切的

理想主义AI

大模型已成为当下IT产业无可争议的最大风口。

人工智能从概念提出至今已有半个多世纪,继“深蓝”和AlphaGo昙花一现之后,Transformer架构及ChatGPT的横空出世,再一次点燃全世界的热情,人工智能以更具象、接地气的方式呈现,大模型和生成式AI也开始走入更多人的视野。

过去的一年来,从互动问答、语音对话到文生视频,OpenAI屡次刷新热度;Google、Meta入局推出开源大模型,图谋一席之地;微软将GPT4.0集成到办公软件中,成为生产力工具;华为和苹果将手机语音助手接入大模型,加速端侧智能化。

AI产业的拐点已经来到,大模型正在重塑一切办公、生产和生活。

大模型火热的背后,英伟达成为最大的受益方。随着业界对AI算力的需求快速增长,GPU卡洛阳纸贵、一卡难求,其24/25Q1季报同比增长近4倍,达到260亿美金。受持续提升的业绩数据和不断放大的市场需求支撑,2024年6月18日英伟达市值达到3.35万亿美金,连续超越微软、苹果,成为全球市值最大的公司。

一切都在向着人们期待的方向发展,甚至有人喊出了“第四次工业革命已来”。

02

盛名之下

其实难副

这波大模型浪潮并不如表面呈现的那样光鲜亮丽,几家欢喜几家愁。

根据红杉资本发布的报告,英伟达仅在2023年的芯片订单就高达500亿美元,赚得盆满钵满,而整个生成式AI企业的销售收入才30亿美元,多数企业距离盈利依然遥遥无期,甚至一些企业已经濒临破产的边缘。

如果淘金者持续淘不到金子,卖铲子的生意也终将不可持续。

不管是OpenAI、微软还是谷歌,这些AI的先行者都还没有找到稳定且持续的商业模式,更多的是为资本描绘了一副宏大的蓝图,以支撑市场的预期。

在国内,10亿参数规模以上大模型数量已远超100个。但还未形成成熟商业模式的大模型产业,已经开始卷起了价格,模型免费、Token降价、算力打折,多么熟悉的味道。在群雄混战的早期通过低价圈定一波用户和开发者无可厚非,适当的竞争有利于产业的良性发展,但无序的竞争将导致恶性循环,让大模型产业陷入死亡螺旋。

2023年底,Gartner发布AI新兴技术成熟度曲线,大模型和生成式AI正处在技术炒作周期的最高点,Gartner对生成式AI做出了极高的评价,认为它将AI的热度推向了一个新高潮,但也表达了对繁荣之下所掩盖的潜在风险的担忧。

市场最终要回归理性,只有真正为用户创造价值才能实现商业闭环、有更长远未来。

理想很丰满,现实很骨感!大模型从趋势到全面落地依然任重道远。

03

化整为零,围绕行业

穿插作战,实现战略突围

在这一波AI浪潮中,中国发展得怎么样?当网络上ChatGPT、Sora、英伟达的新闻铺天盖地袭来时,很多人不免产生焦虑:我们又落后了?

必须承认,我国在算力、算法和数据领域其实并不具备优势:高端算力卡被英伟达卡脖子无法供应,短时间内自有制程和设计又无法跟上;算法领域,虽然模型数量众多,但大多数是基于国外开源架构优化,缺乏自主性和领先性;数据领域,我们的开放数据和国外不在一个数量级上,中文语料严重不足。

AI的三要素,每一条都是致命伤!

但从另一个角度看,我国有全球唯一的全工业门类、最多的金融消费人群以及最大规模的政务和城市体系,产生了丰富的场景和私有数据,这些都成为发展行业大模型的天然土壤。于是,我们没有走大兵团正面突击的道路,而是化整为零围绕行业穿插作战,通过大模型赋能一个个行业细分场景,最终形成战略突围。

近两年,在用户和厂商的共同努力下,一些行业大模型已经开花结果。大模型已经逐步应用政务导办、公文检索、事件分拨等场景,帮助政府提升政务服务效率和城市管理效率;在矿山领域,大模型和云边协同帮助矿山实现增安提效,加速产业集群智能化;在铁路,基于视觉大模型的TFDS火车故障轨边图像检测系统,实现不停车的实时图像采集和分析,自动识别各种不同类型的铁路货车故障;基于大模型的气象预测方案,计算速度相比传统HPC的数值计算提升一万倍,更精准预测台风路径。

还有医药、制造、钢铁、金融等更多行业的场景在持续落地,我们正在走一条和国外不一样的务实之路,不跟风不冒进,沿着清晰的目标和节奏逐个打磨场景,这种涓涓细流,终将汇聚成智能化的汪洋大海。

04

行业大模型

加速落地建议

行业大模型建设,知易行难。

政企业务场景复杂多样,很难用通用大模型去应对。此时我们应该意识到,卷参数量、卷Token数、卷集群规模、卷价格都毫无意义,行业大模型落地更需要关注工程化的问题。

一、软硬协同发展

除了模型本身外,大模型还涉及开发平台、开发框架、计算架构以及各类工具,以及多样性算力、高性能存储和高带宽网络等硬件基础设施。在分层解耦架构的基础上,需要从性能、可靠性、可维护性以及兼容性等方面,进行端到端的集成设计和验证。比如软硬件全链路可视化运维、算网协同的低时延大带宽网络、基于亲和性的算子加速等,确保系统不仅跑得好,更要跑得稳。

二、采用AI-Native的云基础设施 

AI-Native的云基础设施正成为越来越多企业的优先选择。基于公有云训练基础大模型,在本地私有云中结合私有数据通过二次训练和微调,这种混合云方案兼顾效率与安全,已成为大模型建设的新范式,同时云边协同的架构还可以有效简化海量边缘的管理,应对工业场景海量边缘接入的需求。它相比非云的部署模式,还能提供对通用算力和AI算力的统一调度,并基于其丰富技术栈覆盖数据、模型和应用开发全流程,降低开发门槛。

三、建立AI开发工作流,促进模型确定性交付

大模型是一个系统工程,其交付过程涉及数据管理、模型开发环境、模型训练、推理部署的全流程数十个环节,传统的开发机制很难解决跨团队协作和迭代开发的难题。要降低模型开发过程的不确定性,需要建立一站式AI开发工作流,帮助企业快速构建跨团队协同开发、高效迭代的机制,同时通过标准化、自动化的流程提高模型的交付效率与交付质量。

四、重视数据工程,打造优质数据集

模型性能是由数据质量和算法设计共同决定的,当前AI训练数据缺乏系统化的治理工具,甚至部分工作需要人为处理,存在集成、清洗和标注效率低,以及价值观的问题。打造高质量的AI大模型,必须构筑核心的数据工程能力,为大模型高质量供数。一方面可以借助开放的数据授权运营平台,获取高质量的数据;另一方面,针对内部数据需要引入自动化和智能化的手段,构建数据清洗、标注和质量评估体系;同时通过数据质量分析、成分分析、场景配比和智能配比能力,建立数据配比到模型效果的反馈优化机制,基于应用效果反馈持续调优,实现价值观对齐。

五、建立赋能机制,繁荣产业生态

生态是发展大模型不可或缺的一环。需要从技术生态、数据生态、模型生态和应用生态四个层面,去构建AI时代开放、可闭环、有质量的生态体系。这个过程中,政府和行业头部企业的作用不可忽视,可以带头建立如联创实验室、模型和应用商城、需求对接会、创新大赛等,并通过资金赞助、人才培养、政策扶持等多方面的牵引,通过行政手段打造中立的区域性赋能平台;行业头部企业在开展自身业务创新的同时,也可以通过技术、数据、模型和应用赋能行业和产业链上下游,从单企智能化走向行业智能化。

六、开展持续运营

大模型落地面临缺经验、缺人才、缺能力的挑战,大多数企业都是边实践、边总结。需要将这些经验和能力固化下来,逐步形成覆盖了大模型落地的全流程的工程能力,包括前期的顶层设计、POC测试、规划实施,中期构建优质数据集、开展场景分析和模型开发,以及后期的运维运营等。大模型运营和建设同样重要,缺少运营机制,大模型平台很难持续发挥价值。因此,需要打造适合企业的流程、组织和人才队伍,持续开展技术、生态、用户运营,不会断优化老场景、发掘新场景,最终实现全面智能化。

05

欲木之长者

必固其根本

大模型创新,归根结底是技术之争,根深才能叶茂。

大模型的创新,不仅仅需要单点的创新,更要围绕AI-Native开展系统性地创新,不仅要在场景上广泛探索,更要在技术上形成突围。

近年来,国内涌现了一批代表性的科技企业,如寒武纪、地平线、壁仞科技、讯飞、摩尔线程、华为、阿里、百度等,他们坚持投入人工智能创新,推动AI产业升级。

2023年,百度“文心一言”、阿里 “通义千问”和讯飞 “星火”陆续推出,华为也发布盘古大模型3.0,提出“AI for industries”的理念,并基于华为云Stack推出了业界首个大模型混合云。近期HDC2024上,华为云盘古大模型5.0升级亮相,打造全系列、多模态和强思维能力,进一步诠释“解难题、做难事”的愿景,同时发布大模型混合云十大创新技术,通过AI-Native的系统性创新,加速企业专属大模型落地。

创新者往往孤独,但注定不凡。

不仅需要沉下心,更要有“板凳要坐十年冷”的战略耐性。

我们终将迎来AI的黄金时代。

此时我们应该意识到,卷参数量、卷Token数、卷集群规模、卷价格都毫无意义,行业大模型落地更需要关注工程化的问题。

大模型的创新,不仅仅需要单点的创新,更要围绕AI-Native开展系统性地创新;不仅要在场景上广泛探索,更要在技术上形成突围。

01

重塑一切的

理想主义AI

大模型已成为当下IT产业无可争议的最大风口。

人工智能从概念提出至今已有半个多世纪,继“深蓝”和AlphaGo昙花一现之后,Transformer架构及ChatGPT的横空出世,再一次点燃全世界的热情,人工智能以更具象、接地气的方式呈现,大模型和生成式AI也开始走入更多人的视野。

过去的一年来,从互动问答、语音对话到文生视频,OpenAI屡次刷新热度;Google、Meta入局推出开源大模型,图谋一席之地;微软将GPT4.0集成到办公软件中,成为生产力工具;华为和苹果将手机语音助手接入大模型,加速端侧智能化。

AI产业的拐点已经来到,大模型正在重塑一切办公、生产和生活。

大模型火热的背后,英伟达成为最大的受益方。随着业界对AI算力的需求快速增长,GPU卡洛阳纸贵、一卡难求,其24/25Q1季报同比增长近4倍,达到260亿美金。受持续提升的业绩数据和不断放大的市场需求支撑,2024年6月18日英伟达市值达到3.35万亿美金,连续超越微软、苹果,成为全球市值最大的公司。

一切都在向着人们期待的方向发展,甚至有人喊出了“第四次工业革命已来”。

02

盛名之下

其实难副

这波大模型浪潮并不如表面呈现的那样光鲜亮丽,几家欢喜几家愁。

根据红杉资本发布的报告,英伟达仅在2023年的芯片订单就高达500亿美元,赚得盆满钵满,而整个生成式AI企业的销售收入才30亿美元,多数企业距离盈利依然遥遥无期,甚至一些企业已经濒临破产的边缘。

如果淘金者持续淘不到金子,卖铲子的生意也终将不可持续。

不管是OpenAI、微软还是谷歌,这些AI的先行者都还没有找到稳定且持续的商业模式,更多的是为资本描绘了一副宏大的蓝图,以支撑市场的预期。

在国内,10亿参数规模以上大模型数量已远超100个。但还未形成成熟商业模式的大模型产业,已经开始卷起了价格,模型免费、Token降价、算力打折,多么熟悉的味道。在群雄混战的早期通过低价圈定一波用户和开发者无可厚非,适当的竞争有利于产业的良性发展,但无序的竞争将导致恶性循环,让大模型产业陷入死亡螺旋。

2023年底,Gartner发布AI新兴技术成熟度曲线,大模型和生成式AI正处在技术炒作周期的最高点,Gartner对生成式AI做出了极高的评价,认为它将AI的热度推向了一个新高潮,但也表达了对繁荣之下所掩盖的潜在风险的担忧。

市场最终要回归理性,只有真正为用户创造价值才能实现商业闭环、有更长远未来。

理想很丰满,现实很骨感!大模型从趋势到全面落地依然任重道远。

03

化整为零,围绕行业

穿插作战,实现战略突围

在这一波AI浪潮中,中国发展得怎么样?当网络上ChatGPT、Sora、英伟达的新闻铺天盖地袭来时,很多人不免产生焦虑:我们又落后了?

必须承认,我国在算力、算法和数据领域其实并不具备优势:高端算力卡被英伟达卡脖子无法供应,短时间内自有制程和设计又无法跟上;算法领域,虽然模型数量众多,但大多数是基于国外开源架构优化,缺乏自主性和领先性;数据领域,我们的开放数据和国外不在一个数量级上,中文语料严重不足。

AI的三要素,每一条都是致命伤!

但从另一个角度看,我国有全球唯一的全工业门类、最多的金融消费人群以及最大规模的政务和城市体系,产生了丰富的场景和私有数据,这些都成为发展行业大模型的天然土壤。于是,我们没有走大兵团正面突击的道路,而是化整为零围绕行业穿插作战,通过大模型赋能一个个行业细分场景,最终形成战略突围。

近两年,在用户和厂商的共同努力下,一些行业大模型已经开花结果。大模型已经逐步应用政务导办、公文检索、事件分拨等场景,帮助政府提升政务服务效率和城市管理效率;在矿山领域,大模型和云边协同帮助矿山实现增安提效,加速产业集群智能化;在铁路,基于视觉大模型的TFDS火车故障轨边图像检测系统,实现不停车的实时图像采集和分析,自动识别各种不同类型的铁路货车故障;基于大模型的气象预测方案,计算速度相比传统HPC的数值计算提升一万倍,更精准预测台风路径。

还有医药、制造、钢铁、金融等更多行业的场景在持续落地,我们正在走一条和国外不一样的务实之路,不跟风不冒进,沿着清晰的目标和节奏逐个打磨场景,这种涓涓细流,终将汇聚成智能化的汪洋大海。

04

行业大模型

加速落地建议

行业大模型建设,知易行难。

政企业务场景复杂多样,很难用通用大模型去应对。此时我们应该意识到,卷参数量、卷Token数、卷集群规模、卷价格都毫无意义,行业大模型落地更需要关注工程化的问题。

一、软硬协同发展

除了模型本身外,大模型还涉及开发平台、开发框架、计算架构以及各类工具,以及多样性算力、高性能存储和高带宽网络等硬件基础设施。在分层解耦架构的基础上,需要从性能、可靠性、可维护性以及兼容性等方面,进行端到端的集成设计和验证。比如软硬件全链路可视化运维、算网协同的低时延大带宽网络、基于亲和性的算子加速等,确保系统不仅跑得好,更要跑得稳。

二、采用AI-Native的云基础设施 

AI-Native的云基础设施正成为越来越多企业的优先选择。基于公有云训练基础大模型,在本地私有云中结合私有数据通过二次训练和微调,这种混合云方案兼顾效率与安全,已成为大模型建设的新范式,同时云边协同的架构还可以有效简化海量边缘的管理,应对工业场景海量边缘接入的需求。它相比非云的部署模式,还能提供对通用算力和AI算力的统一调度,并基于其丰富技术栈覆盖数据、模型和应用开发全流程,降低开发门槛。

三、建立AI开发工作流,促进模型确定性交付

大模型是一个系统工程,其交付过程涉及数据管理、模型开发环境、模型训练、推理部署的全流程数十个环节,传统的开发机制很难解决跨团队协作和迭代开发的难题。要降低模型开发过程的不确定性,需要建立一站式AI开发工作流,帮助企业快速构建跨团队协同开发、高效迭代的机制,同时通过标准化、自动化的流程提高模型的交付效率与交付质量。

四、重视数据工程,打造优质数据集

模型性能是由数据质量和算法设计共同决定的,当前AI训练数据缺乏系统化的治理工具,甚至部分工作需要人为处理,存在集成、清洗和标注效率低,以及价值观的问题。打造高质量的AI大模型,必须构筑核心的数据工程能力,为大模型高质量供数。一方面可以借助开放的数据授权运营平台,获取高质量的数据;另一方面,针对内部数据需要引入自动化和智能化的手段,构建数据清洗、标注和质量评估体系;同时通过数据质量分析、成分分析、场景配比和智能配比能力,建立数据配比到模型效果的反馈优化机制,基于应用效果反馈持续调优,实现价值观对齐。

五、建立赋能机制,繁荣产业生态

生态是发展大模型不可或缺的一环。需要从技术生态、数据生态、模型生态和应用生态四个层面,去构建AI时代开放、可闭环、有质量的生态体系。这个过程中,政府和行业头部企业的作用不可忽视,可以带头建立如联创实验室、模型和应用商城、需求对接会、创新大赛等,并通过资金赞助、人才培养、政策扶持等多方面的牵引,通过行政手段打造中立的区域性赋能平台;行业头部企业在开展自身业务创新的同时,也可以通过技术、数据、模型和应用赋能行业和产业链上下游,从单企智能化走向行业智能化。

六、开展持续运营

大模型落地面临缺经验、缺人才、缺能力的挑战,大多数企业都是边实践、边总结。需要将这些经验和能力固化下来,逐步形成覆盖了大模型落地的全流程的工程能力,包括前期的顶层设计、POC测试、规划实施,中期构建优质数据集、开展场景分析和模型开发,以及后期的运维运营等。大模型运营和建设同样重要,缺少运营机制,大模型平台很难持续发挥价值。因此,需要打造适合企业的流程、组织和人才队伍,持续开展技术、生态、用户运营,不会断优化老场景、发掘新场景,最终实现全面智能化。

05

欲木之长者

必固其根本

大模型创新,归根结底是技术之争,根深才能叶茂。

大模型的创新,不仅仅需要单点的创新,更要围绕AI-Native开展系统性地创新,不仅要在场景上广泛探索,更要在技术上形成突围。

近年来,国内涌现了一批代表性的科技企业,如寒武纪、地平线、壁仞科技、讯飞、摩尔线程、华为、阿里、百度等,他们坚持投入人工智能创新,推动AI产业升级。

2023年,百度“文心一言”、阿里 “通义千问”和讯飞 “星火”陆续推出,华为也发布盘古大模型3.0,提出“AI for industries”的理念,并基于华为云Stack推出了业界首个大模型混合云。近期HDC2024上,华为云盘古大模型5.0升级亮相,打造全系列、多模态和强思维能力,进一步诠释“解难题、做难事”的愿景,同时发布大模型混合云十大创新技术,通过AI-Native的系统性创新,加速企业专属大模型落地。

创新者往往孤独,但注定不凡。

不仅需要沉下心,更要有“板凳要坐十年冷”的战略耐性。

我们终将迎来AI的黄金时代。

展开
打开“财经头条”阅读更多精彩资讯
APP内打开