AMD推出“单芯片智能”新品,应对AI驱动型嵌入式系统挑战

来源: 芯查查资讯 作者:程文智 2024-04-17 09:42:11
一颗芯片搞定三个阶段的加速

近两年AI的发展速度犹如火箭发射一般,可以说一天一个景象。如今的AI开始走进人们的生活,变得无处不在,因此我们可以在很多终端设备中发现它们的身影。也就是说,现在有越来越多的算力开始下放给边缘的终端设备,包括医疗、交通、智能零售、智能工厂、智能城市等应用领域内的边缘嵌入式设备。

 

而边缘嵌入式设备长期以来都会遇到很多挑战,比如恶劣的环境条件,有高温、高湿环境,有的时候甚至高达125℃;电力供应受限,有的嵌入式设备是电池供电的;以及尺寸要求严苛、实时响应、信息安全、功能安全、高可靠性,以及长产品生命周期等挑战。如今随着AI的发展,加入AI功能后,这些挑战变得更加严峻。

 

AI驱动型嵌入式系统面临的挑战

 

那么如何应对嵌入式设备加入AI功能后出现的诸多挑战呢?在AMD自适应与嵌入式计算事业部的Versal产品营销总监Manuel Uhm看来,AI驱动型嵌入式系统有三个处理阶段,即预处理、AI推理,以及后处理。

 

 

预处理主要是将摄像头、雷达、激光雷达等传感器获得的数据,进行处理、融合及数据调节,这一阶段主要采用可编程逻辑(FPGA)来实现,因为可编程逻辑能连接到任意传感器和任意接口,降低时延并增强确定性,甚至可以在现场部署之后,还可以进行升级,从而实现灵活的实时处理。

 

AI推理主要是实现分析和情境感知,一般都是采用矢量处理器SoC。

 

后处理主要是实现决策、控制和反馈,一般是采用高性能的嵌入式CPU。

 

Manuel Uhm指出,如今AI驱动型嵌入式系统的构建方式各不相同,一般都是在预处理阶段采用FPGA或SoC,推理阶段采用矢量处理器SoC,后处理阶段采用嵌入式CPU。“AI为高度受限的嵌入式系统带来了更高要求的工作负载,因此,只有三个阶段都在高性能嵌入式系统中进行加速,才能获得真正的全系统性能。”

 

 

但目前,其实是“没有一类处理器能够针对所有三个阶段进行优化”的,而且这种多芯片解决方案还带来了巨大的开销—从更高的功率需求、占板面积、内存需求,到更多的安全漏洞、组件报废、设计时间与工作量。

 

单芯片智能--一颗芯片搞定三个阶段的加速

 

为了应对AI驱动型嵌入式系统带来的诸多挑战,AMD在不久前推出了第二代Versal自适应SoC产品组合,将预处理、AI推理与后处理集成于单器件中,能够为AI驱动型嵌入式系统提供端到端加速。其首批产品组合包括面向AI驱动型嵌入式系统的第二代Versal AI Edge系列,及面向经典嵌入式系统的第二代Versal Prime系列。

 

 

据Manuel Uhm介绍,AMD在第二代Versal自适应SoC中集成了AIE-ML v2 AI引擎,预计每瓦TOPS较之初代Versal AI Edge系列器件提升至多3倍;可编程逻辑能够实现灵活的实时预处理,尤其是在面对传感器融合、数据调节、硬图像/视频处理时;CPU性能方面,通过集成8X Arm Cortex-A78AE应用处理器和10X Arm Cortex-R52实时处理器,预计可提供比第一代Versal AI Edge和 Versal Prime系列器件至高10倍的标量算力。

 

此外,Versal自适应SoC还支持ASIL D级别的功能安全和SIL 3级别的信息安全,为自动驾驶汽车和工业应用提供了坚实的安全保障。这一安全性能的提升,使得Versal自适应SoC不仅能够应对严苛的工作环境,还能够满足长期可靠性的要求。

 

与前一代产品相比,第二代Versal自适应SoC在很多方面都有提升,具体数据如下:

 

首先,在L2+/L3 ADAS应用中,由于加入硬图像处理功能,第二代AI Edge系列在具备相近功率资源的前提下,其图像处理能力提升了4倍。

 

其次,在智慧城市场景中,第二代AI Edge系列在为边缘AI设备占板面积带来30%尺寸缩小的同时,却支持2倍视频流,意味着每路视频流占板面积缩小65%。

 

第三,在视频流中,与Zyng MPSoC的效率相比,第二代Versal Prime系列能够为多端口编码与流媒体提供2倍的视频处理能力,使得每路视频流占板面积缩小35%。

 

Versal AI Edge系列:AI驱动型嵌入式系统的未来

 

Versal AI Edge系列是AMD针对AI驱动型嵌入式系统推出的产品线。它不仅继承了第一代产品的优良特性,还通过集成可编程逻辑、AI引擎和高性能CPU,实现了对AI应用的全面加速。Manuel Uhm指出,Versal AI Edge系列将作为系统中央计算的核心,为高级自动驾驶辅助系统、智慧城市和专业音视频广播等领域提供强大的计算支持。

 

 

他以“预处理”环节为例解释说,如果使用基于处理器的方法,面对不同的传感器和不同类型的数据,固定I/O与接口和硬ISP在处理过程中数量有限,缺少灵活性,有时还必须通过外部存储器来实现存储和缓存,导致高时延和低效率。与之相反,当采用可编程逻辑的方法时,这些缺点都将被转变为优点。

 

 

进行“AI推理”时也类似,与第一代主要通过可编程逻辑来实现AI引擎控制不同,新一代产品的控制处理器包含在AI引擎阵列当中,并且进行了硬化处理,今后AI引擎控制的工作无需交由可编程逻辑处理,富余出来的可编程逻辑资源将被用于传感器和其他数据的处理工作。

 

为了更好地解决AI推理过程中面临的吞吐量和精度挑战,第二代Versal AI Edge系列器件中的Dense TOPS情况也得到了提升:数据类型是MX6/INT8时,最高端可以分别达到370 TFLOPS和184 TOPS,前者提供了高达60%的每瓦TOPS提升,且具备相近或更高的精度。如果采用稀疏度指标的话,性能还可以再翻番。

 

同时,为了实现更好更快速的模型部署,AMD通过提供Vitis AI开发环境帮助开发者使用原本非常熟悉的开源工具,例如PyTorch、TensorFlow等,在Vitis当中进行优化和推理。

 

在 “后处理”阶段,Versal自适应SoC的表现也很亮眼,新器件采用了Arm Cortex-A78AE内核,每核心最高频率高达2.2GHz,并且具备高达200.3K的DMIPS算力,为复杂的后处理提供高达10倍的标量算力奠定了基础。针对控制功能的实时处理单元,RPU可以有高达10倍的Arm Cortex-R52核心,每核心最高频率高达1.05GHz,以及高达28.5K的DMIPS算力。此外,增强的功能安全性也大幅减少了对外部安全微控制器的需求。

 

也就是说,第二代Versal AI Edge系列器件采用最优处理器组合,能为AI驱动型嵌入式系统的全部三个阶段进行加速,这种单芯片智能性消除了构建多芯片处理解决方案的需求,进而带来了更小、更高效的嵌入式AI系统,并为缩短上市时间提供了潜能。

 

Versal Prime系列:经典嵌入式系统的升级选择

 

与此同时,Versal Prime系列则为那些不以AI为主导,但仍需高性能处理能力的经典嵌入式系统提供了升级路径。能够为传统的非 AI 嵌入式系统提供端到端加速。这些器件旨在提供较之初代至高10倍的标量算力,可以高效地执行传感器处理和复杂的标量工作负载。

 

凭借针对高吞吐量视频处理(包括至高8K的多通道工作流程)的全新硬IP,第二代Versal Prime器件非常适合超高清(UHD)视频流与录制、工业PC等应用。

 

从加速器到中央计算,AMD提供广泛且可扩展的产品组合

 

AMD第一代Versal产品主要用于CPU加速,而第二代产品能够成为面向AI驱动型以及经典嵌入式系统的中央计算,其产品线在不断得到扩展。

 

 

从展示的产品规划图可以看到,AMD对于自适应计算的战略布局十分明确。Manuel Uhm表示,AMD将继续深化在自适应计算领域的研究和开发,不断推出创新产品,以满足市场不断变化的需求。同时,AMD也将积极参与开源人工智能生态系统的建设,通过与合作伙伴的紧密合作,共同推动技术进步和产业发展。

 

值得注意的是,目前AMD第二代Versal AI Edge系列和第二代Versal Prime系列产品早期试用计划已经展开,早期访问文档已经发布。AMD预计于2025年上半年提供第二代Versal系列芯片样片,随后于2025年年中提供评估套件及系统模块(SOM)样品,并预计于2025年末提供量产芯片。

 

结语

 

随着AI技术的不断进步和应用领域的日益扩大,边缘计算的重要性日益凸显。目前很多半导体公司都相继推出了针对边缘领域的产品,AMD的第二代Versal自适应SoC无疑是比较亮眼的一个。在新品发布会上,AMD提到了其与斯巴鲁的合作,将Versal AI Edge系列产品应用了斯巴鲁EyeSight系统中,实现了碰撞前制动、车道偏离预警等功能,并通过Versal自适应SoC的低时延和高吞吐量特性,确保了系统的高精度和高可靠性。

 

随着边缘计算越来越流行,AI驱动型嵌入式系统将会出现更多创新的应用案例。

0
收藏
0