方案 | 基于RA8M1的语音AI综合应用演示

瑞萨电子面向语音AI，基于VK-RA8M1开发套件，集成多种智能语音处理功能，实现了无需云端的高性能语音控制的应用。

功能介绍

目前语音控制技术已广泛应用于家电、车载、智能家居等领域，但仍面临两个核心问题：

环境噪声干扰。当嘈杂环境或多人讲话时，语音识别准确率会大幅下降。

对云连接的依赖。离线状态下，通常只能识别少量、固定顺序的关键词，实现功能有限。

瑞萨推出的集成式语音应用场景，将多种语音控制功能集成一体，以应对这些问题。

基于RA8M1的语音应用包括如下功能：

APF（Audio Processing Front）。音频处理前端，可将语音与背景噪音分离，提高语音识别准确率。

NLU（Natural Language Understanding）。自然语言理解，允许用户用自然口语发出指令，系统自动提取关键词识别命令。

CNSV（Cyberon Speaker Verification ）。Cyberon语音验证，将关键词检测提升到更高层次，将语音识别升级为语音身份验证。

VAS（Voice Anti-Spoofing）。语音防伪技术，使系统能够区分真人语音和录音。

APF噪声抑制演示

A8M1开发板已预先加载语音组合程序，通过USB 连接电脑，作为立体声麦克风使用。

通常，我们会在理想安静的环境中录制视频，但为了演示降噪的功能，在演示用例中，刻意引入了环境噪音。如图2所示。

在演示用例中，采用立体声轨来直观呈现APF的处理效果。其中，左声道显示的是未处理音频，右声道显示的是经过APF处理后的音频。如图3所示。

从图3中可以看到：

上方的左声道展现了未经过APF处理的原始音频波形。噪音和语音混杂，语音信号不明显。

下方的右声道展现了经过APF处理后的音频波形。背景噪音被明显抑制，语音信号更加清晰。

NLU、CNSV、VAS综合演示

在演示用例中，可以同时实现识别关键词、语音身份认证、真人语音识别的功能，通过下述操作，可逐个演示功能：

注册说话人的语音信息。根据系统提示，重复说三遍“Hi Renesas”，用于创建准确的声纹识别模型。注册时的显示信息如图4所示。

使用说话人的声音发出“Hi Renesas”的指令。系统显示“Accepted”，表明成功识别说话人声音。如图5所示。

用手机录制“Hi Renesas”的指令，如图6所示。

用录音发出“Hi Renesas”的指令让系统识别。系统显示“Dropped”，表明识别失败并拒绝执行，成功区分真人语音和录音。如图7所示。

总结

实现这些实时语音的AI功能，对MCU的性能要求非常高，而RA8M1搭载的Cortex-M85内核支持Helium DSP加速技术，能够大幅提升语音算法的本地运行性能，从而在无需接入云端的情况下完成这些处理。

IC 品牌故事 | 三次易主，安世半导体的跨国迁徙

IC 品牌故事 | 开放合作+特色深耕，华虹的突围之路

IC 品牌故事 | Wolfspeed：从LED到SiC，被中国厂商围追堵截的巨头

市场 | 全球首家机器人6S店在深圳龙岗开业

方案 | Allegro解决方案助力机器人应用提升效率、可靠性和创新

方案 | 爱仕特SiC三电平方案：突破工商储能PCS高效极限

毫米波雷达 | 智能驾驶不可或缺的4D毫米波雷达技术全解析

毫米波雷达 | 有哪些热门毫米波雷达芯片和解决方案？

毫米波雷达 | 超百亿美元的毫米波雷达都用在了哪里？