我在想,如果每一个机器人都装上支持deepseek的智能芯片,能够本地低延迟完成和人类的交互,这样的机器人真的可以从动作和思想成为一个“智能人”,其想象空间绝对不可限量。
这就是天命。
机器人革命的最大障碍竟被开源打破了?
可能有人说,不需要本地部署芯片,只用联网用云端的服务就好了。
Hi ,兄弟,你也不想你的机器人扶你过马路的时候,突然断网,从智能变成智障吧。所以,这样的机器人必须部署那一个不依赖云端算力的端侧AI芯片,才能同时满足低功耗和高性能的需求。
那什么架构的芯片能满足deepseek高效在机器人以及其他端侧部署环境?
作为这个芯片设计师,我会选择risc-v+张量计算扩展,这是端侧算力的“天命人架构”。
01
灵活扩展的算力架构
为什么说RISC-V是AI端侧算力的“天命人架构”?
DeepSeek大模型开源普惠众生,让算力从云端神坛走向万物终端。
这一个多月,我们大家都看到了,deepseek开源带来科技平权力量是如何势不可挡。
从智算应用,智算基础设施,智算服务等千行百业,甚至到普通人都感受到了开源科技平权的力量。
AI算力的终极战场上,能不能做到万物智能,答案就在部署在智能终端的芯片之中。
但是,随之而来带来一个尴尬的地方,却是本地部署少之又少可怜的token处理能力。
而目前看,面对大模型推理的需求,端侧芯片的算力还是捉襟见肘。
而RISC-V正以开源架构的颠覆性优势,成为破局的核心变量。
RISC-V以开放指令集为基础,摒弃历史包袱,仅保留最简指令集,允许开发者根据场景需求自定义扩展(如AI加速模块)。
这种“归零解构”契合第一性原原理。
就是从算力需求本质出发,而非模仿现有架构。我称之为面向算力需求的架构。
面向人工智能算力,而RISC-V通过开放、灵活、高能效的设计,完美契合AI算力对本质化创新的需求。
AI时代需要CPU、GPU、TPU等多计算单元协同。
而RISC-V的模块化设计天然支持异构融合,通过定制化指令集提升资源调度效率,适应端侧异构计算融合的趋势。
也就是说,RISC-V通过指令和模块扩展,在一套体系架构下,融合了CPU,GPU,TPU等不同功能的单元。
例如在低功耗领域,RISC-V精简指令集减少冗余计算,能效比显著优于传统架构,适合端侧设备的续航要求。
在高性能方面:通过模块化扩展,支持按需组合功能模块(如浮点运算、向量处理),灵活适配AI推理、图像处理等场景,而不是做一个大而全的CPU,很多硬件都浪费。
而RISC-V的模块化设计,让开发者能像拼乐高般定制计算单元。
也就是说开发者可以根据需求自主添加指令集。
例如可以添加SIMD的指令,达到GPU向量计算能力,添加矩阵运算的指令模块,达到TPU的张量运算的能力。而RISC-V本身就具备标量运算的能力。
这么说比较枯燥,我们举个例子。
例如达摩院玄铁C93 搭载vector+matrix双引擎,8位整数指令专攻AI推理,512位矢量单元应对科学计算 。
还有大神Jim keller创办的Tenstorrent BlackHole,这个芯片用768个RISC-V核怼出745TFLOPS算力,成本仅GPU方案1/10。
除了在架构方面,在计算范式上,RISC-V也在重构端侧算力格局。
RISC-V不是走一场传统的CPU的路径,而RISC-V要从“通用计算”到“算法定义芯片” 的计算范式革命。
传统把CPU,GPU,TPU(NPU)异构集成SOC的方式,三驾马车,各拉各的套,三种编程方式,用过的人都知道,这个编程难度和效率有些一言难尽。
而RISC-V扩展指令和模块的方式,能够最大限度的解决算力编程的问题,(当然也是一种DSL面向专用领域架构的变成语言)。
算法定义芯片能够最大限度解决,软件和硬件匹配的问题。
这种理念让芯片成为算法本身的拓扑投影。
大家仔细看最近DeepSeek开源的几个工程,有几个在讲从芯片底层优化算法效率,包括多头注意力机制的运算优化,GEMM的矩阵乘法优化等等。
这些都在在优化GPU调用本身,其本质原因,GPU并不是为了大模型推理而设计的。
基于RISC-V的DSL本身,作为算法定义芯片的开发语言,就可以在算子力度最大限度的讲芯片算法提交给应用,减少了优化的时间。
动态异构计算的本质优势,RISC-V通过可扩展指令集架构(如V扩展、自定义加速器接口),天然支持硬件任务动态分区。
同一芯片内,算力资源可按需分配给AI推理(如矩阵乘加速模块)或通用计算(如控制逻辑),实现“时分复用硬件”的极致灵活性。
这种能力使端侧设备既能满足AI推理的突发性高吞吐需求(如视觉识别峰值算力),又能在空闲时段无缝切换至传感器数据处理、通信协议栈运行等任务,突破传统GPU/ASIC架构的“功能固化”瓶颈。
传统CPU如同笨重的卡车,30%芯片面积被复杂解码逻辑占据,还有层层叠叠积累的前向兼容和后向兼容的指令。
RISC-V通过架构精简+软硬协同实现能效碾压,RISC-V指令解码器面积比x86小30%,同等性能功耗仅为Arm A55的60%;
数据对比在端侧典型任务(如720P图像分类)中,RISC-V方案能效比可达x86架构的7倍,Arm架构的2.3倍。
这种降维打击策略已见成效。
预计到2030年RISC-V芯片出货量预计超过160亿颗,产品出货量CAGR保持40%高速增长,在自动驾驶域控领域渗透率超30%。
正如Arm颠覆x86的移动端霸权,RISC-V正从边缘侧包抄传统架构腹地。
看到这里,可能很多人心中都有疑问。
是真的吗?为什么RISC-V发展如此迅猛?为什么我的笔记本电脑/手机上还没有用上?
接下来,我们来讲讲为什么RISC-V这么受欢迎,你就对这些心中有了答案。
当下,传统芯片架构(x86/Arm)的封闭性导致端侧算力陷入双重困境:
开发门槛高:Arm每核授权费高达数百万美元,中小企业难以承受;
迭代周期长:新增AI指令需经漫长标准审批,无法响应大模型快速演进需求。
开源就是RISC-V打破算力垄断的核武器。
我们从Deepseek的开源,能够看到开源带来的技术力量。
同样RISC-V的开源,也带来了强大的技术使能。这种开源带来了三个好处,分别是成本,敏捷,生态。
第一个是成本。
如同Deepseek的开源,每个企业或者个人都能部署最先进的推理模型,而不用花费千万美金甚至上亿美金去训练自己的大模型,一下子降低了大模型的门槛。
而RISC-V在CPU领域也是如此,同样降低了设计一个芯片的门槛。当Arm每核授权费高达数百万美元级别时,RISC-V的零成本特性让中小企业也能玩转高端芯片,即使是用商用支持的RISC-V的IP,也不同级别的ARM授权费用要低不少。
第二个是敏捷。
这种敏捷创新在封闭架构中需要2年审批周期,而RISC-V开发者仅用6个月就实现技术迭代。
时间就是金钱,快速迭代才能快速收获。
这种“全民开发者”模式,使端侧芯片能快速适配大模型需求。
RISC-V的模块化基因使其成为大模型时代的最佳载体。
第三个是生态。
生态升维定义产业规则,RISC-V国际基金推动RVV矢量扩展标准化,同时允许企业自定义指令,形成“安卓式开源+厂商定制”的生态范式。
谷歌Android 15、华为鸿蒙全面拥抱RISC-V,云计算,人工智能、自动驾驶,更不要说蓝牙耳机等等,RISC-V已实现规模化商用。
还有类似RISC-V无剑联盟这样的上下游一体的产业生态。
RISC-V的开放标准允许全球开发者协作优化,加速技术迭代。
远超传统架构发展速度,这种开源特性与第一性原理倡导的“打破知识藩篱”高度一致,推动端侧算力突破经验局限。
“RISC-V正从替代品升维为定义者”。
RISC-V正通过开源标准化+定制化并行重构产业生态:
未来不属于算力最强的架构,而属于最能激活算力场景的生态。
也就是构建算力-芯片-生态的闭环。
目前我们经历Deepseek的洗礼,没有人会怀疑AI改变我们这个世界的能力。
这是一场AI革命。
AI革命,终将让每个智能终端都成为AI进化的神经元——而开源的基因,正是点燃燎原之火的火种。
RISC-V正在证明,真正的算力革命,永远始于开放,成于普惠。
RISC-V引发的不仅是技术变革,更是产业权力结构的重塑:
开源生态使AI芯片开发成本降低90%,中小企业可参与高端市场;
中国企业在RISC-V基金会贡献超40%技术提案,打破欧美在芯片架构领域的垄断。
当大模型通过RISC-V实现“泛在智能”——从端侧算力到智能,这场由开源架构驱动的算力平权运动,将AI算力部署在端侧,或将终结“算力霸权主义”,开启人机协同的新纪元。
正如倪光南院士所言:“RISC-V正从架构替代走向规则定义。”
当传统巨头还在为制程内卷时,RISC-V军团已带着开源生态的“技术核弹”,在端侧智算战场完成合围。
也许很快我们就能看到,能够基于risc-v的deepseek推理芯片能够部署在人形机器人身上,完成从行走到智能思考交互的改变。
算力革命的胜负手不在工艺制程,而在生态开放性。
Deepseek是这样,RISC-V也是这样。(作者:歪睿老哥)
我在想,如果每一个机器人都装上支持deepseek的智能芯片,能够本地低延迟完成和人类的交互,这样的机器人真的可以从动作和思想成为一个“智能人”,其想象空间绝对不可限量。
这就是天命。
机器人革命的最大障碍竟被开源打破了?
可能有人说,不需要本地部署芯片,只用联网用云端的服务就好了。
Hi ,兄弟,你也不想你的机器人扶你过马路的时候,突然断网,从智能变成智障吧。所以,这样的机器人必须部署那一个不依赖云端算力的端侧AI芯片,才能同时满足低功耗和高性能的需求。
那什么架构的芯片能满足deepseek高效在机器人以及其他端侧部署环境?
作为这个芯片设计师,我会选择risc-v+张量计算扩展,这是端侧算力的“天命人架构”。
01
灵活扩展的算力架构
为什么说RISC-V是AI端侧算力的“天命人架构”?
DeepSeek大模型开源普惠众生,让算力从云端神坛走向万物终端。
这一个多月,我们大家都看到了,deepseek开源带来科技平权力量是如何势不可挡。
从智算应用,智算基础设施,智算服务等千行百业,甚至到普通人都感受到了开源科技平权的力量。
AI算力的终极战场上,能不能做到万物智能,答案就在部署在智能终端的芯片之中。
但是,随之而来带来一个尴尬的地方,却是本地部署少之又少可怜的token处理能力。
而目前看,面对大模型推理的需求,端侧芯片的算力还是捉襟见肘。
而RISC-V正以开源架构的颠覆性优势,成为破局的核心变量。
RISC-V以开放指令集为基础,摒弃历史包袱,仅保留最简指令集,允许开发者根据场景需求自定义扩展(如AI加速模块)。
这种“归零解构”契合第一性原原理。
就是从算力需求本质出发,而非模仿现有架构。我称之为面向算力需求的架构。
面向人工智能算力,而RISC-V通过开放、灵活、高能效的设计,完美契合AI算力对本质化创新的需求。
AI时代需要CPU、GPU、TPU等多计算单元协同。
而RISC-V的模块化设计天然支持异构融合,通过定制化指令集提升资源调度效率,适应端侧异构计算融合的趋势。
也就是说,RISC-V通过指令和模块扩展,在一套体系架构下,融合了CPU,GPU,TPU等不同功能的单元。
例如在低功耗领域,RISC-V精简指令集减少冗余计算,能效比显著优于传统架构,适合端侧设备的续航要求。
在高性能方面:通过模块化扩展,支持按需组合功能模块(如浮点运算、向量处理),灵活适配AI推理、图像处理等场景,而不是做一个大而全的CPU,很多硬件都浪费。
而RISC-V的模块化设计,让开发者能像拼乐高般定制计算单元。
也就是说开发者可以根据需求自主添加指令集。
例如可以添加SIMD的指令,达到GPU向量计算能力,添加矩阵运算的指令模块,达到TPU的张量运算的能力。而RISC-V本身就具备标量运算的能力。
这么说比较枯燥,我们举个例子。
例如达摩院玄铁C93 搭载vector+matrix双引擎,8位整数指令专攻AI推理,512位矢量单元应对科学计算 。
还有大神Jim keller创办的Tenstorrent BlackHole,这个芯片用768个RISC-V核怼出745TFLOPS算力,成本仅GPU方案1/10。
除了在架构方面,在计算范式上,RISC-V也在重构端侧算力格局。
RISC-V不是走一场传统的CPU的路径,而RISC-V要从“通用计算”到“算法定义芯片” 的计算范式革命。
传统把CPU,GPU,TPU(NPU)异构集成SOC的方式,三驾马车,各拉各的套,三种编程方式,用过的人都知道,这个编程难度和效率有些一言难尽。
而RISC-V扩展指令和模块的方式,能够最大限度的解决算力编程的问题,(当然也是一种DSL面向专用领域架构的变成语言)。
算法定义芯片能够最大限度解决,软件和硬件匹配的问题。
这种理念让芯片成为算法本身的拓扑投影。
大家仔细看最近DeepSeek开源的几个工程,有几个在讲从芯片底层优化算法效率,包括多头注意力机制的运算优化,GEMM的矩阵乘法优化等等。
这些都在在优化GPU调用本身,其本质原因,GPU并不是为了大模型推理而设计的。
基于RISC-V的DSL本身,作为算法定义芯片的开发语言,就可以在算子力度最大限度的讲芯片算法提交给应用,减少了优化的时间。
动态异构计算的本质优势,RISC-V通过可扩展指令集架构(如V扩展、自定义加速器接口),天然支持硬件任务动态分区。
同一芯片内,算力资源可按需分配给AI推理(如矩阵乘加速模块)或通用计算(如控制逻辑),实现“时分复用硬件”的极致灵活性。
这种能力使端侧设备既能满足AI推理的突发性高吞吐需求(如视觉识别峰值算力),又能在空闲时段无缝切换至传感器数据处理、通信协议栈运行等任务,突破传统GPU/ASIC架构的“功能固化”瓶颈。
传统CPU如同笨重的卡车,30%芯片面积被复杂解码逻辑占据,还有层层叠叠积累的前向兼容和后向兼容的指令。
RISC-V通过架构精简+软硬协同实现能效碾压,RISC-V指令解码器面积比x86小30%,同等性能功耗仅为Arm A55的60%;
数据对比在端侧典型任务(如720P图像分类)中,RISC-V方案能效比可达x86架构的7倍,Arm架构的2.3倍。
这种降维打击策略已见成效。
预计到2030年RISC-V芯片出货量预计超过160亿颗,产品出货量CAGR保持40%高速增长,在自动驾驶域控领域渗透率超30%。
正如Arm颠覆x86的移动端霸权,RISC-V正从边缘侧包抄传统架构腹地。
看到这里,可能很多人心中都有疑问。
是真的吗?为什么RISC-V发展如此迅猛?为什么我的笔记本电脑/手机上还没有用上?
接下来,我们来讲讲为什么RISC-V这么受欢迎,你就对这些心中有了答案。
当下,传统芯片架构(x86/Arm)的封闭性导致端侧算力陷入双重困境:
开发门槛高:Arm每核授权费高达数百万美元,中小企业难以承受;
迭代周期长:新增AI指令需经漫长标准审批,无法响应大模型快速演进需求。
开源就是RISC-V打破算力垄断的核武器。
我们从Deepseek的开源,能够看到开源带来的技术力量。
同样RISC-V的开源,也带来了强大的技术使能。这种开源带来了三个好处,分别是成本,敏捷,生态。
第一个是成本。
如同Deepseek的开源,每个企业或者个人都能部署最先进的推理模型,而不用花费千万美金甚至上亿美金去训练自己的大模型,一下子降低了大模型的门槛。
而RISC-V在CPU领域也是如此,同样降低了设计一个芯片的门槛。当Arm每核授权费高达数百万美元级别时,RISC-V的零成本特性让中小企业也能玩转高端芯片,即使是用商用支持的RISC-V的IP,也不同级别的ARM授权费用要低不少。
第二个是敏捷。
这种敏捷创新在封闭架构中需要2年审批周期,而RISC-V开发者仅用6个月就实现技术迭代。
时间就是金钱,快速迭代才能快速收获。
这种“全民开发者”模式,使端侧芯片能快速适配大模型需求。
RISC-V的模块化基因使其成为大模型时代的最佳载体。
第三个是生态。
生态升维定义产业规则,RISC-V国际基金推动RVV矢量扩展标准化,同时允许企业自定义指令,形成“安卓式开源+厂商定制”的生态范式。
谷歌Android 15、华为鸿蒙全面拥抱RISC-V,云计算,人工智能、自动驾驶,更不要说蓝牙耳机等等,RISC-V已实现规模化商用。
还有类似RISC-V无剑联盟这样的上下游一体的产业生态。
RISC-V的开放标准允许全球开发者协作优化,加速技术迭代。
远超传统架构发展速度,这种开源特性与第一性原理倡导的“打破知识藩篱”高度一致,推动端侧算力突破经验局限。
“RISC-V正从替代品升维为定义者”。
RISC-V正通过开源标准化+定制化并行重构产业生态:
未来不属于算力最强的架构,而属于最能激活算力场景的生态。
也就是构建算力-芯片-生态的闭环。
目前我们经历Deepseek的洗礼,没有人会怀疑AI改变我们这个世界的能力。
这是一场AI革命。
AI革命,终将让每个智能终端都成为AI进化的神经元——而开源的基因,正是点燃燎原之火的火种。
RISC-V正在证明,真正的算力革命,永远始于开放,成于普惠。
RISC-V引发的不仅是技术变革,更是产业权力结构的重塑:
开源生态使AI芯片开发成本降低90%,中小企业可参与高端市场;
中国企业在RISC-V基金会贡献超40%技术提案,打破欧美在芯片架构领域的垄断。
当大模型通过RISC-V实现“泛在智能”——从端侧算力到智能,这场由开源架构驱动的算力平权运动,将AI算力部署在端侧,或将终结“算力霸权主义”,开启人机协同的新纪元。
正如倪光南院士所言:“RISC-V正从架构替代走向规则定义。”
当传统巨头还在为制程内卷时,RISC-V军团已带着开源生态的“技术核弹”,在端侧智算战场完成合围。
也许很快我们就能看到,能够基于risc-v的deepseek推理芯片能够部署在人形机器人身上,完成从行走到智能思考交互的改变。
算力革命的胜负手不在工艺制程,而在生态开放性。
Deepseek是这样,RISC-V也是这样。(作者:歪睿老哥)