边缘AI“下沉”，TI将AI推理能力“装进”MCU 原创

财经头条

提升一亿中产阶级阅读效率

打开

至顶网

1个月前

实测数据显示，与未配置加速器的同类纯CPU架构MCU相比，集成了TinyEngineNPU的MCU在进行单次AI推理时，延迟最高可降低90倍，而单次推理的能耗更是可降低120倍以上。

传统基础控制器迈向“高效智能赋能器”，正在成为嵌入式工程师必须正面应对的一道核心技术门槛。如何在极其有限的功耗与成本制约下，引入可用的AI推理能力，是工程师需要在算力、能效与实时性之间寻找的新的平衡点。

近日，德州仪器（TI）宣布推出两类具备边缘AI能力的新型 MCU，包括通用型 MSPM0G5187以及面向实时电机控制的AM13Ex 系列。有关器件集成了TI自有的 TinyEngine神经处理单元（NPU），可在主CPU之外并行执行神经网络推理任务，从而降低边缘侧 AI 推理时延并提升能效。

01 CPU+NPU“双路并行” 打破MCU“不可能三角”

其实，将AI算力下沉至边缘侧，本身就具备四个几乎不可替代的优势——毫秒级、无网络依赖的实时响应；显著降低数据传输带来的功耗与带宽成本；数据始终留在本地所带来的隐私与安全性；以及在断网场景下依然可用的系统可靠性。

但真正落地到边缘系统时，工程师很快会发现，底层硬件架构本身已经成为天花板。

首先，是算力、功耗与存储之间的“不可能三角”。一般来说，MCU大多通过内置CPU来执行标量指令，而机器学习的本质却是大规模乘加（MAC）的张量计算。用通用CPU去“硬算”神经网络，计算效率低下，而且会迅速吞噬本就有限的Flash空间。

更关键的是功耗问题——推理时间被拉长，意味着系统需要长时间运行在高频状态，功耗会进一步升高。这对于依赖电池供电的边缘节点而言，是不能接受的。

第二个痛点，则出现在实时控制系统的内部——调度冲突与系统抖动。在工业自动化、白电场景中，电机控制是绝对核心，系统需要严格的确定性。所以，控制环路必须在微秒级时间窗口内完成采样、计算与输出。

而一旦引入自适应控制、振动检测等AI能力，系统复杂度就会迅速上升。在传统MCU架构下，单一CPU需要同时处理实时控制中断与AI推理，两类负载在同一执行路径上直接冲突。结果就是调度失衡、控制节拍被打断，控制环路产生抖动，系统确定性被破坏，严重时甚至导致电机失步或失控。

面对这些痛点，单纯提高CPU的主频并不能完全解决问题。所以，TI给出的技术解法是底层架构的异构化创新——引入TinyEngine神经处理单元（NPU）。TinyEngineNPU是专为深度学习推理运算而设计的硬件加速IP，目前已被深度集成到TI的MSPM0G5187 MCU中。

从技术指标来看，该NPU可提供高达2.56 GOPS（每秒千兆次操作）的计算性能，并且支持8位、4位、2位以及混合精度配置。这种多精度支持能够在硬件层面上直接完成本地的量化计算，极大地压缩了神经网络对静态存储器（SRAM）和闪存空间的占用。

同时，该加速器在设计上支持通用卷积、深度卷积、逐点卷积、转置卷积，以及全连接、池化和批归一化（Batch Normalization）等常见算子，可更好适配端侧模型部署需求，并兼顾推理效率与精度。

值得注意的是，这项异构架构最核心的优势在于“双路并行处理”。TinyEngine NPU被设计为可与运行应用程序代码的主CPU并行工作。

这代表着，CPU负责实时控制与系统任务，NPU独立处理AI推理，两类负载彻底解耦。实测数据显示，与未配置加速器的同类纯CPU架构MCU相比，集成了TinyEngine NPU的MCU在进行单次AI推理时，延迟最高可降低90倍，而单次推理的能耗更是可降低120倍以上。

这种异构的策略，为边缘AI的大规模下沉，扫清了硬件障碍。

02 从低功耗感知到实时控制，边缘AI MCU“双路径”落地

明确了TinyEngineNPU的底层逻辑后，就可以更清晰地看到TI如何基于该能力沉淀成一套可复用、可规模化落地的技术体系。

在硬件落地层面，TI围绕TinyEngine NPU 形成了两条边缘 AI MCU路径：一条面向低功耗感知，代表器件是基于 Arm Cortex-M0+的 MSPM0G5187；另一条面向实时电机控制，代表产品是基于 Arm Cortex-M33的AM13Ex系列。

针对功耗和成本这两个长期卡住边缘AI落地的问题，基于Arm Cortex-M0+内核的MSPM0G5187，直接把NPU（神经网络加速单元，专门用于运行AI模型的小型计算单元）集成进MCU。这意味着，神经网络推理能力可以进入最基础的控制器层，使极低成本的设备也能直接部署AI功能。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

芯片规格方面，MSPM0G5187主频为80MHz，集成128KB Flash、32KB SRAM，并提供USB 2.0全速接口和I2S。

功耗控制层面，待机电流低于1.5µA。实际效果上有利于支持常开型感知场景下的低功耗运行。

在语音这类常开感知场景中，TinyEngine NPU直接承担轻量神经网络的推理任务。典型链路是：麦克风采集声音，经模拟前端（AFE，负责放大和滤波）处理后转换为数字信号，通过音频接口送入MCU，再由NPU完成识别。

具体来说，以唤醒词检测为例，常用的是1D CNN（一维卷积神经网络，适合处理音频这种时间序列数据），用于做特征提取和匹配判断。在这类任务中，引入NPU后，推理延迟可以降低到原来的一个数量级以内，单次推理的能耗也同步大幅下降。结果是设备可以长期保持“常开监听”，同时把整体功耗控制在电池可接受范围内。

信号进入MCU后，TinyEngine NPU即可运行1D CNN（一维卷积神经网络，适合处理音频这种时间序列数据），完成特征提取和匹配判断。与未集成加速器的同类 MCU 相比，TinyEngineNPU可将推理时延最高降低90倍，并将单次推理能耗降低了120倍以上。

如果说MSPM0G5187对应的是低功耗感知路径，那么AM13Ex系列面向的则是实时电机控制场景。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

这类系统的应用场景包括工厂自动化、人形机器人、高端家电，其核心要求是“控制周期固定、响应可预测”。控制一旦抖动，系统就会不稳定。

然而，AM13Ex内部做了任务分离，采用Arm Cortex-M33 内核，其主要产品AM13E23019的主频为200MHz，CoreMark为800。

在控制任务稳定跑起来之后，系统的计算压力就集中在电机控制本身。尤其是 Park/逆Park 变换、三角函数计算、SVPWM 调制以及观测器相关处理。

AM13Ex把这部分直接做成了硬件加速单元。三角函数由专用电路完成，不再占用CPU时间。相比传统用CORDIC算法逐步计算，速度可以提升一个数量级，控制周期可以压得更短。

外围资源也围绕多电机控制展开。芯片提供最多30路PWM用于电机驱动，同时配有高速ADC实时采样电流和电压信号。一颗芯片就可以完成多电机闭环控制，比如同时管理PFC电机和主驱动电机，也可以扩展到四电机系统。

在这个基础上，芯片内部的任务划分是固定的。Arm Cortex-M33负责按周期执行控制任务，包括PWM刷新和PID计算；TinyEngine NPU在另一条路径上持续处理电流、振动等数据，运行神经网络模型。

两部分在硬件分开，互不影响，控制周期也就不会被打断。

这种结构可以直接下沉到设备末端使用。在人形机器人中，每个关节都可以部署一颗AM13Ex，传感数据在本地完成处理，控制参数在本地调整，只把必要的信息上传。这样可以减少通信延迟，同时降低中央系统的算力压力。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

同样的方式也适用于光伏系统。端侧NPU可以持续分析电流的高频特征，用于电弧检测。传统方法在复杂工况下准确率大约在85%左右，引入AI后可以超过99%，并且能够更早发现异常。

03 AI接管MCU开发，TI补齐工具链

当算力、控制路径都在芯片内部被固定下来之后，开发问题就集中在模型如何高效落到设备侧，以及工程团队能不能快速用起来。

围绕这一点，TI提供了完整的开发生态系统以及工具——CCStudio Edge AI Studio，覆盖模型训练对接、量化、编译和部署的全流程。模型从训练完成到运行在设备侧，不需要拆分流程、更换工具。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

CCStudio Edge AI Studio直接兼容主流框架，包括PyTorch、TensorFlow和ONNX。常规流程是在PC或云端完成模型训练，然后通过工具链完成量化（将浮点模型转换为整数模型，降低计算量和存储占用），再由神经网络编译器转换为适配NPU的执行格式，最后部署到设备侧。整个过程是连续的，不需要手动修改模型结构、重写推理代码。

针对没有数据科学背景的团队，工具链内置了大量可直接使用的模型和Demo。目前提供超过60种已经过底层优化的预训练模型（如电弧故障检测、电机轴承故障诊断），并配套超过1000种数据预处理组合。工程师只需导入自己的数据进行微调（Fine-tuning，即在已有模型基础上继续训练以适配新数据），通常几天内就可以完成端侧模型落地。

在开发环节，CCStudio更是引入了生成式AI能力（通过Cloud Code接口），主要解决底层代码编写效率的问题。

其实，在嵌入式开发中，大量时间消耗在寄存器、时钟树和外设配置上，这些内容通常需要对照数据手册逐项完成，过程繁琐且容易出错。接入该能力后，这一部分工作可以直接用自然语言完成。工程师只需描述需求，例如生成无传感器电机控制的初始化代码并配置ADC触发，系统会自动生成对应的C语言代码。

生成结果上，也包含完整的底层配置和基础应用框架，代码可以直接运行并部署到MCU侧。开发过程从“手动搭建底层代码”，转为“在生成代码基础上调整功能逻辑”，底层调试工作明显减少。

04 写在最后

技术的价值最终需要通过商业化落地来检验。

目前，TI也明确了其AI MCU产品矩阵的量产与供货节点，为客户的供应链规划提供了坚实保障。

MSPM0G5187（超低功耗通用型MCU）已于2026年3月正式发布，目前其量产版本现已上线供货。

AM13E23019 同样于 2026年3月正式发布，目前已提供预量产版本供工程师进行早期开发与验证。该系列的其他封装和存储器型号，计划将于2026年底前陆续发布并全面推向市场。

TMS320F28P550SJ（C2000系列实时MCU）作为TI AI矩阵的先行者，这款集成神经网络单元的DSP内核MCU实际上已于2024年11月发布。目前它已在市场投入使用超过一年，在太阳能电弧检测、电机轴承故障检测等工业领域积累了大量成功的量产落地案例，充分验证了TI“实时控制+NPU”架构的可靠性。

01 CPU+NPU“双路并行” 打破MCU“不可能三角”

但真正落地到边缘系统时，工程师很快会发现，底层硬件架构本身已经成为天花板。

值得注意的是，这项异构架构最核心的优势在于“双路并行处理”。TinyEngine NPU被设计为可与运行应用程序代码的主CPU并行工作。

这种异构的策略，为边缘AI的大规模下沉，扫清了硬件障碍。

02 从低功耗感知到实时控制，边缘AI MCU“双路径”落地

明确了TinyEngineNPU的底层逻辑后，就可以更清晰地看到TI如何基于该能力沉淀成一套可复用、可规模化落地的技术体系。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

芯片规格方面，MSPM0G5187主频为80MHz，集成128KB Flash、32KB SRAM，并提供USB 2.0全速接口和I2S。

功耗控制层面，待机电流低于1.5µA。实际效果上有利于支持常开型感知场景下的低功耗运行。

如果说MSPM0G5187对应的是低功耗感知路径，那么AM13Ex系列面向的则是实时电机控制场景。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

这类系统的应用场景包括工厂自动化、人形机器人、高端家电，其核心要求是“控制周期固定、响应可预测”。控制一旦抖动，系统就会不稳定。

然而，AM13Ex内部做了任务分离，采用Arm Cortex-M33 内核，其主要产品AM13E23019的主频为200MHz，CoreMark为800。

在控制任务稳定跑起来之后，系统的计算压力就集中在电机控制本身。尤其是 Park/逆Park 变换、三角函数计算、SVPWM 调制以及观测器相关处理。

两部分在硬件分开，互不影响，控制周期也就不会被打断。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

03 AI接管MCU开发，TI补齐工具链

当算力、控制路径都在芯片内部被固定下来之后，开发问题就集中在模型如何高效落到设备侧，以及工程团队能不能快速用起来。

边缘AI“下沉”，TI将AI推理能力“装进”MCU

在开发环节，CCStudio更是引入了生成式AI能力（通过Cloud Code接口），主要解决底层代码编写效率的问题。

04 写在最后

技术的价值最终需要通过商业化落地来检验。

目前，TI也明确了其AI MCU产品矩阵的量产与供货节点，为客户的供应链规划提供了坚实保障。

MSPM0G5187（超低功耗通用型MCU）已于2026年3月正式发布，目前其量产版本现已上线供货。

展开

打开“财经头条”阅读更多精彩资讯