近两年AI的发展速度犹如火箭发射一般,可以说一天一个景象。如今的AI开始走进人们的生活,变得无处不在,因此我们可以在很多终端设备中发现它们的身影。也就是说,现在有越来越多的算力开始下放给边缘的终端设备,包括医疗、交通、智能零售、智能工厂、智能城市等应用领域内的边缘嵌入式设备。
而边缘嵌入式设备长期以来都会遇到很多挑战,比如恶劣的环境条件,有高温、高湿环境,有的时候甚至高达125℃;电力供应受限,有的嵌入式设备是电池供电的;以及尺寸要求严苛、实时响应、信息安全、功能安全、高可靠性,以及长产品生命周期等挑战。如今随着AI的发展,加入AI功能后,这些挑战变得更加严峻。
AI驱动型嵌入式系统面临的挑战
那么如何应对嵌入式设备加入AI功能后出现的诸多挑战呢?在AMD自适应与嵌入式计算事业部的Versal产品营销总监Manuel Uhm看来,AI驱动型嵌入式系统有三个处理阶段,即预处理、AI推理,以及后处理。
预处理主要是将摄像头、雷达、激光雷达等传感器获得的数据,进行处理、融合及数据调节,这一阶段主要采用可编程逻辑(FPGA)来实现,因为可编程逻辑能连接到任意传感器和任意接口,降低时延并增强确定性,甚至可以在现场部署之后,还可以进行升级,从而实现灵活的实时处理。
AI推理主要是实现分析和情境感知,一般都是采用矢量处理器SoC。
后处理主要是实现决策、控制和反馈,一般是采用高性能的嵌入式CPU。
Manuel Uhm指出,如今AI驱动型嵌入式系统的构建方式各不相同,一般都是在预处理阶段采用FPGA或SoC,推理阶段采用矢量处理器SoC,后处理阶段采用嵌入式CPU。“AI为高度受限的嵌入式系统带来了更高要求的工作负载,因此,只有三个阶段都在高性能嵌入式系统中进行加速,才能获得真正的全系统性能。”
但目前,其实是“没有一类处理器能够针对所有三个阶段进行优化”的,而且这种多芯片解决方案还带来了巨大的开销—从更高的功率需求、占板面积、内存需求,到更多的安全漏洞、组件报废、设计时间与工作量。
单芯片智能--一颗芯片搞定三个阶段的加速
为了应对AI驱动型嵌入式系统带来的诸多挑战,AMD在不久前推出了第二代Versal自适应SoC产品组合,将预处理、AI推理与后处理集成于单器件中,能够为AI驱动型嵌入式系统提供端到端加速。其首批产品组合包括面向AI驱动型嵌入式系统的第二代Versal AI Edge系列,及面向经典嵌入式系统的第二代Versal Prime系列。
据Manuel Uhm介绍,AMD在第二代Versal自适应SoC中集成了AIE-ML v2 AI引擎,预计每瓦TOPS较之初代Versal AI Edge系列器件提升至多3倍;可编程逻辑能够实现灵活的实时预处理,尤其是在面对传感器融合、数据调节、硬图像/视频处理时;CPU性能方面,通过集成8X Arm Cortex-A78AE应用处理器和10X Arm Cortex-R52实时处理器,预计可提供比第一代Versal AI Edge和 Versal Prime系列器件至高10倍的标量算力。
此外,Versal自适应SoC还支持ASIL D级别的功能安全和SIL 3级别的信息安全,为自动驾驶汽车和工业应用提供了坚实的安全保障。这一安全性能的提升,使得Versal自适应SoC不仅能够应对严苛的工作环境,还能够满足长期可靠性的要求。

与前一代产品相比,第二代Versal自适应SoC在很多方面都有提升,具体数据如下:
首先,在L2+/L3 ADAS应用中,由于加入硬图像处理功能,第二代AI Edge系列在具备相近功率资源的前提下,其图像处理能力提升了4倍。
其次,在智慧城市场景中,第二代AI Edge系列在为边缘AI设备占板面积带来30%尺寸缩小的同时,却支持2倍视频流,意味着每路视频流占板面积缩小65%。
第三,在视频流中,与Zyng MPSoC的效率相比,第二代Versal Prime系列能够为多端口编码与流媒体提供2倍的视频处理能力,使得每路视频流占板面积缩小35%。
Versal AI Edge系列:AI驱动型嵌入式系统的未来
Versal AI Edge系列是AMD针对AI驱动型嵌入式系统推出的产品线。它不仅继承了第一代产品的优良特性,还通过集成可编程逻辑、AI引擎和高性能CPU,实现了对AI应用的全面加速。Manuel Uhm指出,Versal AI Edge系列将作为系统中央计算的核心,为高级自动驾驶辅助系统、智慧城市和专业音视频广播等领域提供强大的计算支持。
他以“预处理”环节为例解释说,如果使用基于处理器的方法,面对不同的传感器和不同类型的数据,固定I/O与接口和硬ISP在处理过程中数量有限,缺少灵活性,有时还必须通过外部存储器来实现存储和缓存,导致高时延和低效率。与之相反,当采用可编程逻辑的方法时,这些缺点都将被转变为优点。
进行“AI推理”时也类似,与第一代主要通过可编程逻辑来实现AI引擎控制不同,新一代产品的控制处理器包含在AI引擎阵列当中,并且进行了硬化处理,今后AI引擎控制的工作无需交由可编程逻辑处理,富余出来的可编程逻辑资源将被用于传感器和其他数据的处理工作。
为了更好地解决AI推理过程中面临的吞吐量和精度挑战,第二代Versal AI Edge系列器件中的Dense TOPS情况也得到了提升:数据类型是MX6/INT8时,最高端可以分别达到370 TFLOPS和184 TOPS,前者提供了高达60%的每瓦TOPS提升,且具备相近或更高的精度。如果采用稀疏度指标的话,性能还可以再翻番。
同时,为了实现更好更快速的模型部署,AMD通过提供Vitis AI开发环境帮助开发者使用原本非常熟悉的开源工具,例如PyTorch、TensorFlow等,在Vitis当中进行优化和推理。
在 “后处理”阶段,Versal自适应SoC的表现也很亮眼,新器件采用了Arm Cortex-A78AE内核,每核心最高频率高达2.2GHz,并且具备高达200.3K的DMIPS算力,为复杂的后处理提供高达10倍的标量算力奠定了基础。针对控制功能的实时处理单元,RPU可以有高达10倍的Arm Cortex-R52核心,每核心最高频率高达1.05GHz,以及高达28.5K的DMIPS算力。此外,增强的功能安全性也大幅减少了对外部安全微控制器的需求。
也就是说,第二代Versal AI Edge系列器件采用最优处理器组合,能为AI驱动型嵌入式系统的全部三个阶段进行加速,这种单芯片智能性消除了构建多芯片处理解决方案的需求,进而带来了更小、更高效的嵌入式AI系统,并为缩短上市时间提供了潜能。
Versal Prime系列:经典嵌入式系统的升级选择
与此同时,Versal Prime系列则为那些不以AI为主导,但仍需高性能处理能力的经典嵌入式系统提供了升级路径。能够为传统的非 AI 嵌入式系统提供端到端加速。这些器件旨在提供较之初代至高10倍的标量算力,可以高效地执行传感器处理和复杂的标量工作负载。
凭借针对高吞吐量视频处理(包括至高8K的多通道工作流程)的全新硬IP,第二代Versal Prime器件非常适合超高清(UHD)视频流与录制、工业PC等应用。
从加速器到中央计算,AMD提供广泛且可扩展的产品组合
AMD第一代Versal产品主要用于CPU加速,而第二代产品能够成为面向AI驱动型以及经典嵌入式系统的中央计算,其产品线在不断得到扩展。
从展示的产品规划图可以看到,AMD对于自适应计算的战略布局十分明确。Manuel Uhm表示,AMD将继续深化在自适应计算领域的研究和开发,不断推出创新产品,以满足市场不断变化的需求。同时,AMD也将积极参与开源人工智能生态系统的建设,通过与合作伙伴的紧密合作,共同推动技术进步和产业发展。
值得注意的是,目前AMD第二代Versal AI Edge系列和第二代Versal Prime系列产品早期试用计划已经展开,早期访问文档已经发布。AMD预计于2025年上半年提供第二代Versal系列芯片样片,随后于2025年年中提供评估套件及系统模块(SOM)样品,并预计于2025年末提供量产芯片。
结语
随着AI技术的不断进步和应用领域的日益扩大,边缘计算的重要性日益凸显。目前很多半导体公司都相继推出了针对边缘领域的产品,AMD的第二代Versal自适应SoC无疑是比较亮眼的一个。在新品发布会上,AMD提到了其与斯巴鲁的合作,将Versal AI Edge系列产品应用了斯巴鲁EyeSight系统中,实现了碰撞前制动、车道偏离预警等功能,并通过Versal自适应SoC的低时延和高吞吐量特性,确保了系统的高精度和高可靠性。
随着边缘计算越来越流行,AI驱动型嵌入式系统将会出现更多创新的应用案例。
全部评论