传统基础控制器迈向“高效智能赋能器”,正在成为嵌入式工程师必须正面应对的一道核心技术门槛。如何在极其有限的功耗与成本制约下,引入可用的AI推理能力,是工程师需要在算力、能效与实时性之间寻找的新的平衡点。
近日,德州仪器(TI)宣布推出两类具备边缘AI能力的新型 MCU,包括通用型 MSPM0G5187以及面向实时电机控制的AM13Ex 系列。有关器件集成了TI自有的 TinyEngine神经处理单元(NPU),可在主CPU之外并行执行神经网络推理任务,从而降低边缘侧 AI 推理时延并提升能效。
01 CPU+NPU“双路并行” 打破MCU“不可能三角”
其实,将AI算力下沉至边缘侧,本身就具备四个几乎不可替代的优势——毫秒级、无网络依赖的实时响应;显著降低数据传输带来的功耗与带宽成本;数据始终留在本地所带来的隐私与安全性;以及在断网场景下依然可用的系统可靠性。

但真正落地到边缘系统时,工程师很快会发现,底层硬件架构本身已经成为天花板。
首先,是算力、功耗与存储之间的“不可能三角”。一般来说,MCU大多通过内置CPU来执行标量指令,而机器学习的本质却是大规模乘加(MAC)的张量计算。用通用CPU去“硬算”神经网络,计算效率低下,而且会迅速吞噬本就有限的Flash空间。
更关键的是功耗问题——推理时间被拉长,意味着系统需要长时间运行在高频状态,功耗会进一步升高。这对于依赖电池供电的边缘节点而言,是不能接受的。
第二个痛点,则出现在实时控制系统的内部——调度冲突与系统抖动。在工业自动化、白电场景中,电机控制是绝对核心,系统需要严格的确定性。所以,控制环路必须在微秒级时间窗口内完成采样、计算与输出。
而一旦引入自适应控制、振动检测等AI能力,系统复杂度就会迅速上升。在传统MCU架构下,单一CPU需要同时处理实时控制中断与AI推理,两类负载在同一执行路径上直接冲突。结果就是调度失衡、控制节拍被打断,控制环路产生抖动,系统确定性被破坏,严重时甚至导致电机失步或失控。
面对这些痛点,单纯提高CPU的主频并不能完全解决问题。所以,TI给出的技术解法是底层架构的异构化创新——引入TinyEngine神经处理单元(NPU)。TinyEngineNPU是专为深度学习推理运算而设计的硬件加速IP,目前已被深度集成到TI的MSPM0G5187 MCU中。
从技术指标来看,该NPU可提供高达2.56 GOPS(每秒千兆次操作)的计算性能,并且支持8位、4位、2位以及混合精度配置。这种多精度支持能够在硬件层面上直接完成本地的量化计算,极大地压缩了神经网络对静态存储器(SRAM)和闪存空间的占用。
同时,该加速器在设计上支持通用卷积、深度卷积、逐点卷积、转置卷积,以及全连接、池化和批归一化(Batch Normalization)等常见算子,可更好适配端侧模型部署需求,并兼顾推理效率与精度。
值得注意的是,这项异构架构最核心的优势在于“双路并行处理”。TinyEngine NPU被设计为可与运行应用程序代码的主CPU并行工作。
这代表着,CPU负责实时控制与系统任务,NPU独立处理AI推理,两类负载彻底解耦。实测数据显示,与未配置加速器的同类纯CPU架构MCU相比,集成了TinyEngine NPU的MCU在进行单次AI推理时,延迟最高可降低90倍,而单次推理的能耗更是可降低120倍以上。
这种异构的策略,为边缘AI的大规模下沉,扫清了硬件障碍。
02 从低功耗感知到实时控制,边缘AI MCU“双路径”落地
明确了TinyEngineNPU的底层逻辑后,就可以更清晰地看到TI如何基于该能力沉淀成一套可复用、可规模化落地的技术体系。
在硬件落地层面,TI围绕TinyEngine NPU 形成了两条边缘 AI MCU路径:一条面向低功耗感知,代表器件是基于 Arm Cortex-M0+的 MSPM0G5187;另一条面向实时电机控制,代表产品是基于 Arm Cortex-M33的AM13Ex系列。
针对功耗和成本这两个长期卡住边缘AI落地的问题,基于Arm Cortex-M0+内核的MSPM0G5187,直接把NPU(神经网络加速单元,专门用于运行AI模型的小型计算单元)集成进MCU。这意味着,神经网络推理能力可以进入最基础的控制器层,使极低成本的设备也能直接部署AI功能。

芯片规格方面,MSPM0G5187主频为80MHz,集成128KB Flash、32KB SRAM,并提供USB 2.0全速接口和I2S。
功耗控制层面,待机电流低于1.5µA。实际效果上有利于支持常开型感知场景下的低功耗运行。
在语音这类常开感知场景中,TinyEngine NPU直接承担轻量神经网络的推理任务。典型链路是:麦克风采集声音,经模拟前端(AFE,负责放大和滤波)处理后转换为数字信号,通过音频接口送入MCU,再由NPU完成识别。
具体来说,以唤醒词检测为例,常用的是1D CNN(一维卷积神经网络,适合处理音频这种时间序列数据),用于做特征提取和匹配判断。在这类任务中,引入NPU后,推理延迟可以降低到原来的一个数量级以内,单次推理的能耗也同步大幅下降。结果是设备可以长期保持“常开监听”,同时把整体功耗控制在电池可接受范围内。
信号进入MCU后,TinyEngine NPU即可运行1D CNN(一维卷积神经网络,适合处理音频这种时间序列数据),完成特征提取和匹配判断。与未集成加速器的同类 MCU 相比,TinyEngineNPU可将推理时延最高降低90倍,并将单次推理能耗降低了120倍以上。
如果说MSPM0G5187对应的是低功耗感知路径,那么AM13Ex系列面向的则是实时电机控制场景。

这类系统的应用场景包括工厂自动化、人形机器人、高端家电,其核心要求是“控制周期固定、响应可预测”。控制一旦抖动,系统就会不稳定。
然而,AM13Ex内部做了任务分离,采用Arm Cortex-M33 内核,其主要产品AM13E23019的主频为200MHz,CoreMark为800。
在控制任务稳定跑起来之后,系统的计算压力就集中在电机控制本身。尤其是 Park/逆Park 变换、三角函数计算、SVPWM 调制以及观测器相关处理。
AM13Ex把这部分直接做成了硬件加速单元。三角函数由专用电路完成,不再占用CPU时间。相比传统用CORDIC算法逐步计算,速度可以提升一个数量级,控制周期可以压得更短。
外围资源也围绕多电机控制展开。芯片提供最多30路PWM用于电机驱动,同时配有高速ADC实时采样电流和电压信号。一颗芯片就可以完成多电机闭环控制,比如同时管理PFC电机和主驱动电机,也可以扩展到四电机系统。
在这个基础上,芯片内部的任务划分是固定的。Arm Cortex-M33负责按周期执行控制任务,包括PWM刷新和PID计算;TinyEngine NPU在另一条路径上持续处理电流、振动等数据,运行神经网络模型。
两部分在硬件分开,互不影响,控制周期也就不会被打断。
这种结构可以直接下沉到设备末端使用。在人形机器人中,每个关节都可以部署一颗AM13Ex,传感数据在本地完成处理,控制参数在本地调整,只把必要的信息上传。这样可以减少通信延迟,同时降低中央系统的算力压力。

同样的方式也适用于光伏系统。端侧NPU可以持续分析电流的高频特征,用于电弧检测。传统方法在复杂工况下准确率大约在85%左右,引入AI后可以超过99%,并且能够更早发现异常。
03 AI接管MCU开发,TI补齐工具链
当算力、控制路径都在芯片内部被固定下来之后,开发问题就集中在模型如何高效落到设备侧,以及工程团队能不能快速用起来。
围绕这一点,TI提供了完整的开发生态系统以及工具——CCStudio Edge AI Studio,覆盖模型训练对接、量化、编译和部署的全流程。模型从训练完成到运行在设备侧,不需要拆分流程、更换工具。

CCStudio Edge AI Studio直接兼容主流框架,包括PyTorch、TensorFlow和ONNX。常规流程是在PC或云端完成模型训练,然后通过工具链完成量化(将浮点模型转换为整数模型,降低计算量和存储占用),再由神经网络编译器转换为适配NPU的执行格式,最后部署到设备侧。整个过程是连续的,不需要手动修改模型结构、重写推理代码。
针对没有数据科学背景的团队,工具链内置了大量可直接使用的模型和Demo。目前提供超过60种已经过底层优化的预训练模型(如电弧故障检测、电机轴承故障诊断),并配套超过1000种数据预处理组合。工程师只需导入自己的数据进行微调(Fine-tuning,即在已有模型基础上继续训练以适配新数据),通常几天内就可以完成端侧模型落地。
在开发环节,CCStudio更是引入了生成式AI能力(通过Cloud Code接口),主要解决底层代码编写效率的问题。
其实,在嵌入式开发中,大量时间消耗在寄存器、时钟树和外设配置上,这些内容通常需要对照数据手册逐项完成,过程繁琐且容易出错。接入该能力后,这一部分工作可以直接用自然语言完成。工程师只需描述需求,例如生成无传感器电机控制的初始化代码并配置ADC触发,系统会自动生成对应的C语言代码。
生成结果上,也包含完整的底层配置和基础应用框架,代码可以直接运行并部署到MCU侧。开发过程从“手动搭建底层代码”,转为“在生成代码基础上调整功能逻辑”,底层调试工作明显减少。
04 写在最后
技术的价值最终需要通过商业化落地来检验。
目前,TI也明确了其AI MCU产品矩阵的量产与供货节点,为客户的供应链规划提供了坚实保障。
MSPM0G5187(超低功耗通用型MCU)已于2026年3月正式发布,目前其量产版本现已上线供货。
AM13E23019 同样于 2026年3月正式发布,目前已提供预量产版本供工程师进行早期开发与验证。该系列的其他封装和存储器型号,计划将于2026年底前 陆续发布并全面推向市场。
TMS320F28P550SJ(C2000系列实时MCU)作为TI AI矩阵的先行者,这款集成神经网络单元的DSP内核MCU实际上已于2024年11月发布。目前它已在市场投入使用超过一年,在太阳能电弧检测、电机轴承故障检测等工业领域积累了大量成功的量产落地案例,充分验证了TI“实时控制+NPU”架构的可靠性。
传统基础控制器迈向“高效智能赋能器”,正在成为嵌入式工程师必须正面应对的一道核心技术门槛。如何在极其有限的功耗与成本制约下,引入可用的AI推理能力,是工程师需要在算力、能效与实时性之间寻找的新的平衡点。
近日,德州仪器(TI)宣布推出两类具备边缘AI能力的新型 MCU,包括通用型 MSPM0G5187以及面向实时电机控制的AM13Ex 系列。有关器件集成了TI自有的 TinyEngine神经处理单元(NPU),可在主CPU之外并行执行神经网络推理任务,从而降低边缘侧 AI 推理时延并提升能效。
01 CPU+NPU“双路并行” 打破MCU“不可能三角”
其实,将AI算力下沉至边缘侧,本身就具备四个几乎不可替代的优势——毫秒级、无网络依赖的实时响应;显著降低数据传输带来的功耗与带宽成本;数据始终留在本地所带来的隐私与安全性;以及在断网场景下依然可用的系统可靠性。

但真正落地到边缘系统时,工程师很快会发现,底层硬件架构本身已经成为天花板。
首先,是算力、功耗与存储之间的“不可能三角”。一般来说,MCU大多通过内置CPU来执行标量指令,而机器学习的本质却是大规模乘加(MAC)的张量计算。用通用CPU去“硬算”神经网络,计算效率低下,而且会迅速吞噬本就有限的Flash空间。
更关键的是功耗问题——推理时间被拉长,意味着系统需要长时间运行在高频状态,功耗会进一步升高。这对于依赖电池供电的边缘节点而言,是不能接受的。
第二个痛点,则出现在实时控制系统的内部——调度冲突与系统抖动。在工业自动化、白电场景中,电机控制是绝对核心,系统需要严格的确定性。所以,控制环路必须在微秒级时间窗口内完成采样、计算与输出。
而一旦引入自适应控制、振动检测等AI能力,系统复杂度就会迅速上升。在传统MCU架构下,单一CPU需要同时处理实时控制中断与AI推理,两类负载在同一执行路径上直接冲突。结果就是调度失衡、控制节拍被打断,控制环路产生抖动,系统确定性被破坏,严重时甚至导致电机失步或失控。
面对这些痛点,单纯提高CPU的主频并不能完全解决问题。所以,TI给出的技术解法是底层架构的异构化创新——引入TinyEngine神经处理单元(NPU)。TinyEngineNPU是专为深度学习推理运算而设计的硬件加速IP,目前已被深度集成到TI的MSPM0G5187 MCU中。
从技术指标来看,该NPU可提供高达2.56 GOPS(每秒千兆次操作)的计算性能,并且支持8位、4位、2位以及混合精度配置。这种多精度支持能够在硬件层面上直接完成本地的量化计算,极大地压缩了神经网络对静态存储器(SRAM)和闪存空间的占用。
同时,该加速器在设计上支持通用卷积、深度卷积、逐点卷积、转置卷积,以及全连接、池化和批归一化(Batch Normalization)等常见算子,可更好适配端侧模型部署需求,并兼顾推理效率与精度。
值得注意的是,这项异构架构最核心的优势在于“双路并行处理”。TinyEngine NPU被设计为可与运行应用程序代码的主CPU并行工作。
这代表着,CPU负责实时控制与系统任务,NPU独立处理AI推理,两类负载彻底解耦。实测数据显示,与未配置加速器的同类纯CPU架构MCU相比,集成了TinyEngine NPU的MCU在进行单次AI推理时,延迟最高可降低90倍,而单次推理的能耗更是可降低120倍以上。
这种异构的策略,为边缘AI的大规模下沉,扫清了硬件障碍。
02 从低功耗感知到实时控制,边缘AI MCU“双路径”落地
明确了TinyEngineNPU的底层逻辑后,就可以更清晰地看到TI如何基于该能力沉淀成一套可复用、可规模化落地的技术体系。
在硬件落地层面,TI围绕TinyEngine NPU 形成了两条边缘 AI MCU路径:一条面向低功耗感知,代表器件是基于 Arm Cortex-M0+的 MSPM0G5187;另一条面向实时电机控制,代表产品是基于 Arm Cortex-M33的AM13Ex系列。
针对功耗和成本这两个长期卡住边缘AI落地的问题,基于Arm Cortex-M0+内核的MSPM0G5187,直接把NPU(神经网络加速单元,专门用于运行AI模型的小型计算单元)集成进MCU。这意味着,神经网络推理能力可以进入最基础的控制器层,使极低成本的设备也能直接部署AI功能。

芯片规格方面,MSPM0G5187主频为80MHz,集成128KB Flash、32KB SRAM,并提供USB 2.0全速接口和I2S。
功耗控制层面,待机电流低于1.5µA。实际效果上有利于支持常开型感知场景下的低功耗运行。
在语音这类常开感知场景中,TinyEngine NPU直接承担轻量神经网络的推理任务。典型链路是:麦克风采集声音,经模拟前端(AFE,负责放大和滤波)处理后转换为数字信号,通过音频接口送入MCU,再由NPU完成识别。
具体来说,以唤醒词检测为例,常用的是1D CNN(一维卷积神经网络,适合处理音频这种时间序列数据),用于做特征提取和匹配判断。在这类任务中,引入NPU后,推理延迟可以降低到原来的一个数量级以内,单次推理的能耗也同步大幅下降。结果是设备可以长期保持“常开监听”,同时把整体功耗控制在电池可接受范围内。
信号进入MCU后,TinyEngine NPU即可运行1D CNN(一维卷积神经网络,适合处理音频这种时间序列数据),完成特征提取和匹配判断。与未集成加速器的同类 MCU 相比,TinyEngineNPU可将推理时延最高降低90倍,并将单次推理能耗降低了120倍以上。
如果说MSPM0G5187对应的是低功耗感知路径,那么AM13Ex系列面向的则是实时电机控制场景。

这类系统的应用场景包括工厂自动化、人形机器人、高端家电,其核心要求是“控制周期固定、响应可预测”。控制一旦抖动,系统就会不稳定。
然而,AM13Ex内部做了任务分离,采用Arm Cortex-M33 内核,其主要产品AM13E23019的主频为200MHz,CoreMark为800。
在控制任务稳定跑起来之后,系统的计算压力就集中在电机控制本身。尤其是 Park/逆Park 变换、三角函数计算、SVPWM 调制以及观测器相关处理。
AM13Ex把这部分直接做成了硬件加速单元。三角函数由专用电路完成,不再占用CPU时间。相比传统用CORDIC算法逐步计算,速度可以提升一个数量级,控制周期可以压得更短。
外围资源也围绕多电机控制展开。芯片提供最多30路PWM用于电机驱动,同时配有高速ADC实时采样电流和电压信号。一颗芯片就可以完成多电机闭环控制,比如同时管理PFC电机和主驱动电机,也可以扩展到四电机系统。
在这个基础上,芯片内部的任务划分是固定的。Arm Cortex-M33负责按周期执行控制任务,包括PWM刷新和PID计算;TinyEngine NPU在另一条路径上持续处理电流、振动等数据,运行神经网络模型。
两部分在硬件分开,互不影响,控制周期也就不会被打断。
这种结构可以直接下沉到设备末端使用。在人形机器人中,每个关节都可以部署一颗AM13Ex,传感数据在本地完成处理,控制参数在本地调整,只把必要的信息上传。这样可以减少通信延迟,同时降低中央系统的算力压力。

同样的方式也适用于光伏系统。端侧NPU可以持续分析电流的高频特征,用于电弧检测。传统方法在复杂工况下准确率大约在85%左右,引入AI后可以超过99%,并且能够更早发现异常。
03 AI接管MCU开发,TI补齐工具链
当算力、控制路径都在芯片内部被固定下来之后,开发问题就集中在模型如何高效落到设备侧,以及工程团队能不能快速用起来。
围绕这一点,TI提供了完整的开发生态系统以及工具——CCStudio Edge AI Studio,覆盖模型训练对接、量化、编译和部署的全流程。模型从训练完成到运行在设备侧,不需要拆分流程、更换工具。

CCStudio Edge AI Studio直接兼容主流框架,包括PyTorch、TensorFlow和ONNX。常规流程是在PC或云端完成模型训练,然后通过工具链完成量化(将浮点模型转换为整数模型,降低计算量和存储占用),再由神经网络编译器转换为适配NPU的执行格式,最后部署到设备侧。整个过程是连续的,不需要手动修改模型结构、重写推理代码。
针对没有数据科学背景的团队,工具链内置了大量可直接使用的模型和Demo。目前提供超过60种已经过底层优化的预训练模型(如电弧故障检测、电机轴承故障诊断),并配套超过1000种数据预处理组合。工程师只需导入自己的数据进行微调(Fine-tuning,即在已有模型基础上继续训练以适配新数据),通常几天内就可以完成端侧模型落地。
在开发环节,CCStudio更是引入了生成式AI能力(通过Cloud Code接口),主要解决底层代码编写效率的问题。
其实,在嵌入式开发中,大量时间消耗在寄存器、时钟树和外设配置上,这些内容通常需要对照数据手册逐项完成,过程繁琐且容易出错。接入该能力后,这一部分工作可以直接用自然语言完成。工程师只需描述需求,例如生成无传感器电机控制的初始化代码并配置ADC触发,系统会自动生成对应的C语言代码。
生成结果上,也包含完整的底层配置和基础应用框架,代码可以直接运行并部署到MCU侧。开发过程从“手动搭建底层代码”,转为“在生成代码基础上调整功能逻辑”,底层调试工作明显减少。
04 写在最后
技术的价值最终需要通过商业化落地来检验。
目前,TI也明确了其AI MCU产品矩阵的量产与供货节点,为客户的供应链规划提供了坚实保障。
MSPM0G5187(超低功耗通用型MCU)已于2026年3月正式发布,目前其量产版本现已上线供货。
AM13E23019 同样于 2026年3月正式发布,目前已提供预量产版本供工程师进行早期开发与验证。该系列的其他封装和存储器型号,计划将于2026年底前 陆续发布并全面推向市场。
TMS320F28P550SJ(C2000系列实时MCU)作为TI AI矩阵的先行者,这款集成神经网络单元的DSP内核MCU实际上已于2024年11月发布。目前它已在市场投入使用超过一年,在太阳能电弧检测、电机轴承故障检测等工业领域积累了大量成功的量产落地案例,充分验证了TI“实时控制+NPU”架构的可靠性。