DeepSeek开源5个代码库

财经早餐

上海证券报

1天前

2月21日,DeepSeek在社交平台发文称,构建了一支探索AGI(通用人工智能)的小团队,从下周起将开源5个代码库,以完全透明的方式分享研究进展。
DeepSeek,新动作

在最新动态中,DeepSeek表示,其在线服务中的构建模块已经被记录、部署并进行了实际测试,希望分享的每一行代码都会变成强有力的势能,加速行业发展进程。

此前,2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》。在这篇论文署名中,DeepSeek创始人梁文锋也作为共创者在列。

该论文主要关于NSA(Natively Sparse Attention,原生稀疏注意力)。据介绍,NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

“DeepSeek无疑给整个AI领域尤其是大模型行业带来了震动,一方面,DeepSeek在原始技术创新方面取得了显著进展,也说明了持续的技术创新对于行业发展的重要性。另一方面,DeepSeek的成功还得益于其对高质量数据的重视以及在模型结构上的创新。”此前,上海库帕思科技有限公司CEO黄海清表示。

目前,上百家上市公司以及众多中小企业都纷纷接入DeepSeek,部分“DeepSeek概念股”涨势明显。同时,不少上市公司发布公告称,目前确实有部分业务接入DeepSeek相关模型,但相关收入占营业收入比例极小。

开源热潮鼓舞生态建设

“随着DeepSeek等开源大模型的火爆,更多人开始尝试使用人工智能。公司也希望通过保持产品的开放性,接入更多更好的模型。”业内人士表示。

1月15日,MiniMax发布并首次开源了其最新一代基础大模型MiniMax-01。2月14日,百度宣布将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。2月18日,阶跃星辰开源了两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。

“相关开源大模型发布后,不论是云厂商、芯片厂商还是生态社区等,都第一时间、自发推进适配。正是在这种开源社区蓬勃生机和力量的感召下,更多生态企业愿意拥抱开源生态。”阶跃星辰相关负责人表示。

在业内人士看来,今后,多模态大模型的应用将开始爆发,而ToB(企业)和ToG(政府)的商业模式将会成为大模型公司主要的发展方向,现在很多基础大模型公司都在转向行业垂类。

根据伽马数据发布的《2024全球AI应用趋势年度报告》,2024年,ToB端(面向企业端)业务获得整体超九成融资金额。ToB市场已展现出相对成熟的商业模式优势,一方面,企业客户具有明确的支付意愿和预算能力;另一方面,在数字化转型浪潮下,大型企业对AI解决方案的需求十分迫切,这为ToB领域的AI企业提供了清晰可行的变现路径。

“目前金融、教育、医疗、工业已经优先拥抱了大模型。在重点领域,比如说自动驾驶、具身智能、科学智能等也都在积极应用大模型。随着时间的推进,未来的交通行业、零售业等行业都会应用大模型。”黄海清说。

来源:上海证券报


2月21日,DeepSeek在社交平台发文称,构建了一支探索AGI(通用人工智能)的小团队,从下周起将开源5个代码库,以完全透明的方式分享研究进展。
DeepSeek,新动作

在最新动态中,DeepSeek表示,其在线服务中的构建模块已经被记录、部署并进行了实际测试,希望分享的每一行代码都会变成强有力的势能,加速行业发展进程。

此前,2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》。在这篇论文署名中,DeepSeek创始人梁文锋也作为共创者在列。

该论文主要关于NSA(Natively Sparse Attention,原生稀疏注意力)。据介绍,NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

“DeepSeek无疑给整个AI领域尤其是大模型行业带来了震动,一方面,DeepSeek在原始技术创新方面取得了显著进展,也说明了持续的技术创新对于行业发展的重要性。另一方面,DeepSeek的成功还得益于其对高质量数据的重视以及在模型结构上的创新。”此前,上海库帕思科技有限公司CEO黄海清表示。

目前,上百家上市公司以及众多中小企业都纷纷接入DeepSeek,部分“DeepSeek概念股”涨势明显。同时,不少上市公司发布公告称,目前确实有部分业务接入DeepSeek相关模型,但相关收入占营业收入比例极小。

开源热潮鼓舞生态建设

“随着DeepSeek等开源大模型的火爆,更多人开始尝试使用人工智能。公司也希望通过保持产品的开放性,接入更多更好的模型。”业内人士表示。

1月15日,MiniMax发布并首次开源了其最新一代基础大模型MiniMax-01。2月14日,百度宣布将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。2月18日,阶跃星辰开源了两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。

“相关开源大模型发布后,不论是云厂商、芯片厂商还是生态社区等,都第一时间、自发推进适配。正是在这种开源社区蓬勃生机和力量的感召下,更多生态企业愿意拥抱开源生态。”阶跃星辰相关负责人表示。

在业内人士看来,今后,多模态大模型的应用将开始爆发,而ToB(企业)和ToG(政府)的商业模式将会成为大模型公司主要的发展方向,现在很多基础大模型公司都在转向行业垂类。

根据伽马数据发布的《2024全球AI应用趋势年度报告》,2024年,ToB端(面向企业端)业务获得整体超九成融资金额。ToB市场已展现出相对成熟的商业模式优势,一方面,企业客户具有明确的支付意愿和预算能力;另一方面,在数字化转型浪潮下,大型企业对AI解决方案的需求十分迫切,这为ToB领域的AI企业提供了清晰可行的变现路径。

“目前金融、教育、医疗、工业已经优先拥抱了大模型。在重点领域,比如说自动驾驶、具身智能、科学智能等也都在积极应用大模型。随着时间的推进,未来的交通行业、零售业等行业都会应用大模型。”黄海清说。

来源:上海证券报


展开
打开“财经头条”阅读更多精彩资讯
APP内打开