技术 | 嵌入式AI决胜关键：数据特征比算法更重要

相较于云端 AI（人工智能），端侧 AI 侧重于将 AI 能力下沉到设备端，通过在终端本地运行 AI 算法，实现数据实时处理、隐私保护与低延迟响应，正成为 AI 技术落地的核心载体。《2024 - 2030 年中国端侧 AI 市场调查与投资战略报告》显示，2024 年中国端侧 AI 行业市场规模为 5000.44 亿元，预计到 2028 年将增长至 19071.3 亿元，期间年复合增长率达39.75%。

于端侧 AI 而言，最核心的两大要素是边缘计算和嵌入式 AI。前者实现了计算范式的转移，后者则是智能决策的本地化引擎。实践证明，在打造嵌入式 AI 方案时，数据中的特征比算法更为关键，它是决定机器学习效果的核心因素。然而，现实数据中往往包含大量噪声和差异，瑞萨电子的 Reality AI 工具能够从含噪声的信号输入中，以最低计算开销提取出高关联度特征，契合端侧资源限制需求。

数据特征：嵌入式 AI 的隐形引擎

在嵌入式 AI 技术的项目实践中，人们常常聚集于算法创新，比如卷积神经网络的层数设计、SVM 核函数的选择，或是 K 均值聚类的迭代优化。然而，如果盲目追求算法效率和复杂度提升，却无法从数据中获取到有效的特征，那么最终的效果就如同 “用大炮打蚊子”，即便消耗大量算法和计算资源，设备也无法做出最优决策。

特征是数据中隐藏的关键变量，是对 “重要事项” 的数学描述，用于说明类别之间的差异、预测变量和检测异常情况。特征可以直接来自输入数据中的原始值，也可以是对输入数据进行预处理后间接得到的值。实际上，深度学习算法就是从底层数据中提取有效特征的方法，但其在特征提取效率、资源消耗及时序特征处理上存在明显局限性。

深度学习通过多层卷积神经网络（如 CNN）从底层数据计算特征，而多层网络的训练与推理需大量浮点运算，计算开销巨大，这对内存和算力受限的端侧设备极不友好；深度学习需海量标注数据才能有效提取特征，而端侧场景常面临 “小样本” 问题，此时深度学习易出现过拟合，特征提取效果大幅下降；此外，在振动、声音等时序信号处理中，深度学习虽能处理时间维度，但其效率欠佳，有时还会丢失关键时序特征。

因此，虽然深度学习通过多层网络自动提取特征是 AI 领域的重要技术路径，但其在端侧应用中受限于算力、数据与实时性要求。

除了深度学习，在嵌入式 AI 开发方面，工程师们也经常习惯性地采用快速傅里叶变换（FFT）。例如，从振动或声音转化成的电信号进行数据特征提取时，需要从采样的数据中发现某些规律或模式，工程师们便会对输入数据流进行FFT计算。这是因为，支持 FFT 的工具非常丰富，如 MATLAB、Numpy、Scipy 等都内置 FFT，使用便捷性高；且 FFT 是信号处理课程的基础内容，工程师在学术阶段已系统性学习其数学原理；另外，FFT 的输出（如频谱图中的频率峰值）能直接对应底层物理现象，符合工程师对 “可解释性特征” 的需求。

不过，FFT 的优势在于工程实用性，而非数据特征的最优性。在项目实践中，FFT 经常会模糊掉重要的时间信息，而这些时间信息对于底层时序信号的分类或检测可能极为有用。同时，FFT 更适合用于通用频域分析，对噪声和目标特征无差别处理，这也会影响数据特征的质量。

那么，究竟怎样才算获取到优质的数据特征呢？瑞萨 AI COE 部门技术总监、前 Reality AI 独立公司联合创始人 Jeff 举了一个典型例子：“假设我试图用人工智能模型检测我妻子何时回家，我会准备一组传感器，将其对准门口并收集数据。为了将这些数据应用于机器学习，我需要确定一组特征，这些特征能帮助模型将妻子与传感器可能检测到的其他任何事物区分开来。那么，最好用的特征会是什么呢？是能表明‘她在那儿’的那个特征。那将是完美的 —— 一个具有完全预测能力的特征。这样一来，机器学习的任务就变得轻而易举了。”

因此，瑞萨电子嵌入式处理器事业部专家苏勇认为，虽然深度学习在目前主流的 AI 产品中取得了显著成功，已有大量令人兴奋的创新成果，这使得人们将更多关注点放在了算法上。然而，在算力与存储资源极度受限的端侧 AI 场景中，特征的质量直接决定了 AI 模型的成败。归根结底，一切都源于数据，与特征密切相关。

Reality AI：让特征提取有用武之地

综上所述，嵌入式设备的资源约束决定了，特征工程必须优先于算法选择。在 “特征优先” 的技术路径中，瑞萨电子的 Reality AI 工具作为一款面向边缘设备（MCU/MPU）的轻量级 AI 开发环境，帮助工程师解决端侧算力受限、数据噪声大、模型轻量化的核心难题。

Reality AI 工具使工程师能够基于高级信号处理生成和构建 TinyML/Edge AI 模型。其包含一系列分析功能，可用于寻找最佳传感器或最佳传感器组合、传感器放置位置以及自动生成组件规格，还包括完全可解释的时域 / 频域模型功能，以及用于 Arm® Cortex® M/A/R 执行的优化代码。

Reality AI 工具可搜索的特征包括：

原始数据的常见变换，包括对数、幂、导数、符号等；
参数统计特征和峰值分析；
频谱特征，包括功率、相位、频谱形状、周期性、倒谱、小波等；
线性和非线性降维；
时频稀疏编码和时间模式分析；
二进制模式和纹理分析。

下面我们通过一组测试来看一下 Reality AI 工具在数据特征搜索方面相较于 FFT 的优越性，该测试为从一组中等复杂程度且带有噪声的信号上搜索特征。先来看一下信号经过 FFT 呈现出来的结果，下图 1 是 FFT 处理之后的频谱图，纵轴是频率，横轴是时间，图中的颜色是热图，颜色越暖表示在该特定频率范围内的能量越高。不难发现，FFT 将很多信号特征都模糊掉了。

下图 2 展示了 Reality AI 工具的特征搜索结果，这些优化后的特征在细节展现上更加完美，FFT 模糊掉的细节都被很好地呈现出来。同时，Reality AI 工具给出的结果复杂度显著降低，可以更清晰地看出信号的特征。

通过 Reality AI 工具给出的结果我们可以试着解释这段信号：基础信号是一种低沉的、带着好几种音调的嗡嗡声，还伴随着一阵一阵逐渐变响的啁啾声，另外还有一些突然出现又消失的其他信号。这个信号模式让我们可以判别出，这是一种独特的鸟在传递某种信息时发出的鸣叫声。

综上所述，Reality AI 工具的本质是为嵌入式设备构建一套 “特征优先” 的底层逻辑，将复杂信号转化为 MCU/MPU 可高效处理的精简表达。在端侧 AI 蓬勃发展的当下，当深度学习受限于算力与功耗时，Reality AI 工具证明了 “少数据、低算力、高可靠” 的端侧 AI 是可行的。对于资源有限的端侧 AI 应用场景，这种方法的效率将比深度学习高出好几个数量级。