AI大模型下沉手机,处理器SoC厂商面临哪些问题?

来源: 芯闻路1号 作者:Henry 2024-02-01 09:35:22
相关专题
#生成式AI:LLM与算力芯片

白牌手机和平板电脑盛行的2010年代,衍生出许多处理器SoC厂商:凭借高性价比的产品、定制化、产业链整合等策略,诸如全志科技、瑞芯微、紫光展锐等国内厂商迅速扩大市场份额,成为全球白牌手机和平板电脑芯片市场的主力供应商。现在,人工智能应用加速发展,这些厂商也逐步将AI处理单元集成到SoC中,为低端智能设备引入边缘计算和机器学习能力,以满足市场对边缘AI的实时响应、低功耗运算等需求。

 

 

同样布局AI的还有传统的手机应用处理器厂商,包括海思、紫光展锐、联发科等。相比嵌入式处理器,手机应用处理器更容易引入大模型,因为具有更强的CPU和GPU、更大的内存带宽和容量以及生态系统支持。

 

芯片是AI大模型运行的基础,嵌入式处理和手机应用处理器都具备AI计算能力,是否表明边缘AI应用水到渠成?可能没有这么简单。

 

AI大模型从云端下沉到边缘,70亿参数是分水岭?

 

图灵奖获得者Yann LeCun说过:AI大模型技术都是公开的,算不上底层技术上的创新,其背后没有任何秘密可言。正因如此,我国累计发布130个大模型,其中,垂直类大模型要多于通用类,功能也从内容生成拓展到视觉、决策,以及蛋白质预测、航天等重大学科领域。可见大模型的难点不在技术实现,而在于产业和应用能否落地。

在这个过程中,比较受关注的趋势之一是大模型从云端向边缘下沉,云端保留任务繁重的“训练”,而边缘设备则执行“推理”。2023年,主流手机厂商均有推出AI大模型,以手机为开端,AI大模型向边缘渗透的热潮有望从2023年一直延续到2024年。

 

 

从手机厂商推出的大模型来看,70亿参数比较常见,可能是兼顾了手机使用场景和先天的计算硬件局限。大模型往往包含数十亿甚至上千亿个参数,对计算力要求极高。而手机芯片相对PC或云端服务器在计算能力和内存方面有限,因此需要通过模型量化、剪枝等方式降低模型复杂度,同时优化硬件架构以提升移动端推理性能。

70亿参数是否为手机大模型的最佳规格?取决于应用场景、硬件资源、功耗限制、性能需求和用户体验等多方面因素,最佳参数量应由市场反馈、用户需求、软硬件协同优化以及持续的技术创新共同决定,并且随着技术和市场的演进不断调整。

此外,能耗与散热问题、存储空间挑战、实时响应性等这些也是手机大模型应用要面对的挑战,这些难题都转嫁到处理器芯片设计上。

 

NPU是更普遍的硬件加速方案

 

大模型背后的人工智能和机器学习(AI/ML)提供了识别复杂模式和快速做出决策的能力,这就要求AI/ML功能集成到处理器SoC中,或者使用独立的硬件AI/ML加速器。

多数处理器供应商都支持使用软件库在其处理器上运行AI/ML模型的方法,这些软件库接受来自某些标准AI/ML开发工具的模型。还可以获得专为非增强型处理器ISA开发的AI/ML工具。例如,面向微控制器的Tensorflow Lite专为集成了Arm Cortex-M处理器内核的微控制器和SoC而开发。该工具使用C++编写,已移植到其他处理器体系结构。但要看到的是,过度依赖软件库可能导致代码的可维护性和可读性降低,且无法完全满足特定项目的独特需求。

如果没有集成专门用于AI/ML任务的硬件,处理器速度慢且效率低下,因为运行AI/ML模型需要大量涉及乘法和加法的计算。因此通常使用张量处理单元TPU来获得良好性能,包括意法半导体、瑞萨电子、恩智浦和XMOS在内的许多微控制器供应商都增加了支持AI/ML模型执行的硬件,以提高其处理器的AI/ML性能。

另一种方法是将DSP添加到处理器SoC,该SoC可用作AI/ML协处理器,这样可提高AI/ML性能,但这些解决方案中乘法器/累加器(MAC)数量有限,限制了性能。

如果增强型处理器仍然不足以达到所需的性能和功率,还有其他选择:GPU和FPGA已用于AI/ML任务,但由于其相对较高的功耗,这些替代方案更常用于数据中心的训练和推理,而不是边缘的推理。

更常见的是,有30多家公司提供专用的神经处理器(NPU)和NPU IP,它们采用MAC阵列和微调网络,可在MAC之间传递数据,这些器件提供不同级别的性能和能效,优于具有AI/ML指令的微处理器和微控制器。现代的手机应用处理器往往包含NPU,针对AI和机器学习算法进行了优化,显著提高处理速度并降低功耗。

 

小模型、通用类模型对处理器SoC设计的挑战

 

向端侧、边缘侧应用转变的时候,必然需要对大模型进行优化,以符合边缘设备,比如在手机大模型应用中,轻量化参数能让手机助手接入AI大模型能力。资料显示,精简大模型有许多技术实现方法,比如:模型剪枝(Model Pruning)、量化(Quantization)、知识蒸馏(Knowledge Distillation)、轻量级架构设计(Lightweight Architecture Design)等。

对于处理器SoC设计形成的挑战首先是算力优化,集成NPU将更加普遍,确保其能够高效处理经过裁剪的小型化模型的运算。其次,在保证性能的同时,芯片需要具有更高的能效比,以实现更长的续航时间。再次,由于不同规模和结构的模型对硬件的需求各异,芯片架构应具备一定的灵活性和可扩展性,以便支持多种类型的AI模型。最后是内存带宽和延迟问题,芯片需要有足够的内存带宽以及低延迟特性,以便快速读取和处理模型数据。

此外,早期的AI/ML研究关注的是通用型模型,具有较强的泛化能力,旨在解决各种各样的问题。垂直类(或称为领域特定、行业专用)大模型随着AI技术进步和应用需求细化而逐渐兴起,比如金融风控模型、医疗诊断模型、法律文档分析模型等,往往拥有专门针对特定领域的训练数据和定制化的架构设计,能够在该领域内实现更好的性能和效果。

尽管一般情况下通用大模型更偏向于云端应用,而针对端侧优化的垂直类模型则更适用于嵌入式及移动环境,但这并不是固定的划分,一些简化版的通用大模型也可以逐渐向端侧迁移,实现终端智能应用,处理器SoC在应对通用大模型的时候可能比垂直类大模型更加棘手。

 

小结

 

手机大模型目前来看或许还不是用户的刚需,能否推动换机潮还有待观察。从应用和运营的角度来看,云端大模型的计算成本居高不下,将推理迁移到边缘更符合实际。从硬件层面来看,嵌入式处理器、手机应用处理器厂商、手机厂商都已经推出大模型相关的产品,这有利于加速AI大模型在手机以及更广阔的端侧应用场景中普及。

0
收藏
0