2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。
DeepSeek称,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s的内存带宽以及580 TFLOPS的计算性能。”DeepSeek表示。
据介绍,MLA(多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构。
DeepSeek介绍称,FlashMLA受到FlashAttention2&3和CUTLASS项目的启发。其中,FlashAttention能实现快速且内存高效的精确注意力;CUTLASS是由英伟达开发和维护的开源项目。
2月21日,DeepSeek在社交平台发文称,构建了一支探索AGI(通用人工智能)的小团队,将开源5个代码库,以完全透明的方式分享研究进展。DeepSeek表示,其在线服务中的构建模块已经被记录、部署并进行了实际测试,希望分享的每一行代码都会变成强有力的势能,加速行业发展进程。
“开源技术正从代码共享迈向实体创新,成为推动智能未来的关键力量。开源硬件为技术创新提供了自由与灵活性,而中国开源生态的发展,如DeepSeek的成功,展现了开源从‘运营驱动’向‘价值驱动’的转变。”上海开源信息技术协会秘书长朱其罡称。
今年以来,国内外各大头部厂商纷纷“加码”开源模型。豆包、昆仑万维、百度文心、阿里通义千问均推出开源模型。
在刚刚结束的2025全球开发者先锋大会上,“底层模型的一次重大迭代,对产品带来的优化效果会远超在工程实现层面。”Minimax副总裁刘华表示,当大模型在专业领域拥有专业人士水平以后,新的产品形态就会到来。该产品形态应该是AI Agent,它能主动帮助人类解决问题,在复杂场景中落地,真正提高生产力。
作者:谭镕
2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。
DeepSeek称,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s的内存带宽以及580 TFLOPS的计算性能。”DeepSeek表示。
据介绍,MLA(多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构。
DeepSeek介绍称,FlashMLA受到FlashAttention2&3和CUTLASS项目的启发。其中,FlashAttention能实现快速且内存高效的精确注意力;CUTLASS是由英伟达开发和维护的开源项目。
2月21日,DeepSeek在社交平台发文称,构建了一支探索AGI(通用人工智能)的小团队,将开源5个代码库,以完全透明的方式分享研究进展。DeepSeek表示,其在线服务中的构建模块已经被记录、部署并进行了实际测试,希望分享的每一行代码都会变成强有力的势能,加速行业发展进程。
“开源技术正从代码共享迈向实体创新,成为推动智能未来的关键力量。开源硬件为技术创新提供了自由与灵活性,而中国开源生态的发展,如DeepSeek的成功,展现了开源从‘运营驱动’向‘价值驱动’的转变。”上海开源信息技术协会秘书长朱其罡称。
今年以来,国内外各大头部厂商纷纷“加码”开源模型。豆包、昆仑万维、百度文心、阿里通义千问均推出开源模型。
在刚刚结束的2025全球开发者先锋大会上,“底层模型的一次重大迭代,对产品带来的优化效果会远超在工程实现层面。”Minimax副总裁刘华表示,当大模型在专业领域拥有专业人士水平以后,新的产品形态就会到来。该产品形态应该是AI Agent,它能主动帮助人类解决问题,在复杂场景中落地,真正提高生产力。
作者:谭镕