AMD推出“单芯片智能”新品，应对AI驱动型嵌入式系统挑战

近两年AI的发展速度犹如火箭发射一般，可以说一天一个景象。如今的AI开始走进人们的生活，变得无处不在，因此我们可以在很多终端设备中发现它们的身影。也就是说，现在有越来越多的算力开始下放给边缘的终端设备，包括医疗、交通、智能零售、智能工厂、智能城市等应用领域内的边缘嵌入式设备。

而边缘嵌入式设备长期以来都会遇到很多挑战，比如恶劣的环境条件，有高温、高湿环境，有的时候甚至高达125℃；电力供应受限，有的嵌入式设备是电池供电的；以及尺寸要求严苛、实时响应、信息安全、功能安全、高可靠性，以及长产品生命周期等挑战。如今随着AI的发展，加入AI功能后，这些挑战变得更加严峻。

AI驱动型嵌入式系统面临的挑战

那么如何应对嵌入式设备加入AI功能后出现的诸多挑战呢？在AMD自适应与嵌入式计算事业部的Versal产品营销总监Manuel Uhm看来，AI驱动型嵌入式系统有三个处理阶段，即预处理、AI推理，以及后处理。

预处理主要是将摄像头、雷达、激光雷达等传感器获得的数据，进行处理、融合及数据调节，这一阶段主要采用可编程逻辑（FPGA）来实现，因为可编程逻辑能连接到任意传感器和任意接口，降低时延并增强确定性，甚至可以在现场部署之后，还可以进行升级，从而实现灵活的实时处理。

AI推理主要是实现分析和情境感知，一般都是采用矢量处理器SoC。

后处理主要是实现决策、控制和反馈，一般是采用高性能的嵌入式CPU。

Manuel Uhm指出，如今AI驱动型嵌入式系统的构建方式各不相同，一般都是在预处理阶段采用FPGA或SoC，推理阶段采用矢量处理器SoC，后处理阶段采用嵌入式CPU。“AI为高度受限的嵌入式系统带来了更高要求的工作负载，因此，只有三个阶段都在高性能嵌入式系统中进行加速，才能获得真正的全系统性能。”

但目前，其实是“没有一类处理器能够针对所有三个阶段进行优化”的，而且这种多芯片解决方案还带来了巨大的开销—从更高的功率需求、占板面积、内存需求，到更多的安全漏洞、组件报废、设计时间与工作量。

单芯片智能--一颗芯片搞定三个阶段的加速

为了应对AI驱动型嵌入式系统带来的诸多挑战，AMD在不久前推出了第二代Versal自适应SoC产品组合，将预处理、AI推理与后处理集成于单器件中，能够为AI驱动型嵌入式系统提供端到端加速。其首批产品组合包括面向AI驱动型嵌入式系统的第二代Versal AI Edge系列，及面向经典嵌入式系统的第二代Versal Prime系列。

据Manuel Uhm介绍，AMD在第二代Versal自适应SoC中集成了AIE-ML v2 AI引擎，预计每瓦TOPS较之初代Versal AI Edge系列器件提升至多3倍；可编程逻辑能够实现灵活的实时预处理，尤其是在面对传感器融合、数据调节、硬图像/视频处理时；CPU性能方面，通过集成8X Arm Cortex-A78AE应用处理器和10X Arm Cortex-R52实时处理器，预计可提供比第一代Versal AI Edge和 Versal Prime系列器件至高10倍的标量算力。

此外，Versal自适应SoC还支持ASIL D级别的功能安全和SIL 3级别的信息安全，为自动驾驶汽车和工业应用提供了坚实的安全保障。这一安全性能的提升，使得Versal自适应SoC不仅能够应对严苛的工作环境，还能够满足长期可靠性的要求。

与前一代产品相比，第二代Versal自适应SoC在很多方面都有提升，具体数据如下：

首先，在L2+/L3 ADAS应用中，由于加入硬图像处理功能，第二代AI Edge系列在具备相近功率资源的前提下，其图像处理能力提升了4倍。

其次，在智慧城市场景中，第二代AI Edge系列在为边缘AI设备占板面积带来30%尺寸缩小的同时，却支持2倍视频流，意味着每路视频流占板面积缩小65%。

第三，在视频流中，与Zyng MPSoC的效率相比，第二代Versal Prime系列能够为多端口编码与流媒体提供2倍的视频处理能力，使得每路视频流占板面积缩小35%。

Versal AI Edge系列：AI驱动型嵌入式系统的未来

Versal AI Edge系列是AMD针对AI驱动型嵌入式系统推出的产品线。它不仅继承了第一代产品的优良特性，还通过集成可编程逻辑、AI引擎和高性能CPU，实现了对AI应用的全面加速。Manuel Uhm指出，Versal AI Edge系列将作为系统中央计算的核心，为高级自动驾驶辅助系统、智慧城市和专业音视频广播等领域提供强大的计算支持。

他以“预处理”环节为例解释说，如果使用基于处理器的方法，面对不同的传感器和不同类型的数据，固定I/O与接口和硬ISP在处理过程中数量有限，缺少灵活性，有时还必须通过外部存储器来实现存储和缓存，导致高时延和低效率。与之相反，当采用可编程逻辑的方法时，这些缺点都将被转变为优点。

进行“AI推理”时也类似，与第一代主要通过可编程逻辑来实现AI引擎控制不同，新一代产品的控制处理器包含在AI引擎阵列当中，并且进行了硬化处理，今后AI引擎控制的工作无需交由可编程逻辑处理，富余出来的可编程逻辑资源将被用于传感器和其他数据的处理工作。

为了更好地解决AI推理过程中面临的吞吐量和精度挑战，第二代Versal AI Edge系列器件中的Dense TOPS情况也得到了提升：数据类型是MX6/INT8时，最高端可以分别达到370 TFLOPS和184 TOPS，前者提供了高达60%的每瓦TOPS提升，且具备相近或更高的精度。如果采用稀疏度指标的话，性能还可以再翻番。

同时，为了实现更好更快速的模型部署，AMD通过提供Vitis AI开发环境帮助开发者使用原本非常熟悉的开源工具，例如PyTorch、TensorFlow等，在Vitis当中进行优化和推理。

在 “后处理”阶段，Versal自适应SoC的表现也很亮眼，新器件采用了Arm Cortex-A78AE内核，每核心最高频率高达2.2GHz，并且具备高达200.3K的DMIPS算力，为复杂的后处理提供高达10倍的标量算力奠定了基础。针对控制功能的实时处理单元，RPU可以有高达10倍的Arm Cortex-R52核心，每核心最高频率高达1.05GHz，以及高达28.5K的DMIPS算力。此外，增强的功能安全性也大幅减少了对外部安全微控制器的需求。

也就是说，第二代Versal AI Edge系列器件采用最优处理器组合，能为AI驱动型嵌入式系统的全部三个阶段进行加速，这种单芯片智能性消除了构建多芯片处理解决方案的需求，进而带来了更小、更高效的嵌入式AI系统，并为缩短上市时间提供了潜能。

Versal Prime系列：经典嵌入式系统的升级选择

与此同时，Versal Prime系列则为那些不以AI为主导，但仍需高性能处理能力的经典嵌入式系统提供了升级路径。能够为传统的非 AI 嵌入式系统提供端到端加速。这些器件旨在提供较之初代至高10倍的标量算力，可以高效地执行传感器处理和复杂的标量工作负载。

凭借针对高吞吐量视频处理（包括至高8K的多通道工作流程）的全新硬IP，第二代Versal Prime器件非常适合超高清（UHD）视频流与录制、工业PC等应用。

从加速器到中央计算，AMD提供广泛且可扩展的产品组合

AMD第一代Versal产品主要用于CPU加速，而第二代产品能够成为面向AI驱动型以及经典嵌入式系统的中央计算，其产品线在不断得到扩展。

从展示的产品规划图可以看到，AMD对于自适应计算的战略布局十分明确。Manuel Uhm表示，AMD将继续深化在自适应计算领域的研究和开发，不断推出创新产品，以满足市场不断变化的需求。同时，AMD也将积极参与开源人工智能生态系统的建设，通过与合作伙伴的紧密合作，共同推动技术进步和产业发展。

值得注意的是，目前AMD第二代Versal AI Edge系列和第二代Versal Prime系列产品早期试用计划已经展开，早期访问文档已经发布。AMD预计于2025年上半年提供第二代Versal系列芯片样片，随后于2025年年中提供评估套件及系统模块（SOM）样品，并预计于2025年末提供量产芯片。

结语

随着AI技术的不断进步和应用领域的日益扩大，边缘计算的重要性日益凸显。目前很多半导体公司都相继推出了针对边缘领域的产品，AMD的第二代Versal自适应SoC无疑是比较亮眼的一个。在新品发布会上，AMD提到了其与斯巴鲁的合作，将Versal AI Edge系列产品应用了斯巴鲁EyeSight系统中，实现了碰撞前制动、车道偏离预警等功能，并通过Versal自适应SoC的低时延和高吞吐量特性，确保了系统的高精度和高可靠性。

随着边缘计算越来越流行，AI驱动型嵌入式系统将会出现更多创新的应用案例。