全民AI时代来了!但是你了解大模型AI芯片吗?(附国内外AI芯片参数对比)

来源: 芯闻路1号 2024-03-06 13:55:14
袁玉欣
hey,大家好我是编辑-玉欣,欢迎来到我的主页。想了解行业内的榜单,探讨行业发展,欢迎大家留言。
相关专题
#生成式AI:LLM与算力芯片

最近AI是越来越火,而且是很出圈的火,有点全民多少都知道AI的意思。到什么程度呢,就是小编那一直对新能源汽车嗤之以鼻的妈都开始向我普及AI方面的知识,并且对AI有着源源不断的幻想和期待,已经开始计划培养下下代做AI人才了。


AI再次出圈少不了Sora的推波助澜,Sora爆火,让越来越多的人和行业瑟瑟发抖。虽然AI生成视频也不是什么新鲜事了,在Sora发布之前,不乏一些视频生成AI,比如Pika、Stable video、RunwayML等等,但与Sora相比,其他模型生成视频的时长都比较短,在对物理世界的理解没Sora强,而且在运镜分镜等方面也要弱很多。


虽说Sora继承了GPT的技术和数据,但从语言文字到视频,训练的数据量成指数增长,视频AI生成的背后无疑需要大量的数据以及庞大的的算力作支撑,而且视频AI化只是个开始,各行各业都在全面拥抱AI,未来还会有层出不穷的大模型。如今还未到AI全面爆发时,AI芯片就已经紧张的不得了,可以预见的是,市场对于AI算力的需求将越来越大。
 

| 用于大模型的AI芯片


算力老大NVIDIA的H100芯片是目前市场上算力最高的产品,国外的科技公司一个赛一个的推出AI芯片,AMD、英特尔、谷歌这些。国内厂商还处于追赶状态,海思、昆仑芯、寒武纪、燧原、壁仞、沐曦、景嘉微、海光信息等厂商进展较快。各厂商推出的最新AI芯片、算力参数、内存参数可见下图。

 

| AI芯片以 GPU和ASIC为主


表格里的AI产品类型有GPU、ASIC、DPU等等。

GPU作为通用型芯片目前在AI芯片市场用量最大,因此NVIDIA、AMD这些本就在GPU赛道上的厂商有着天然的优势。


选用ASIC路线的厂商占了一大半,ASIC属于全定制的产品,主流产品包括流TPU芯片、NPU芯片、VPU芯片等等。谷歌、特斯拉、亚马逊、阿里、百度、华为这些自家业务场景原本就对AI芯片存在大量需求的企业,选择ASIC在量产制造上的难度是更低的。NVIDIA的芯片一片难求,价格高得离谱产能还不够,各个厂商最优解是自研AI芯片。由于使用场景非常具体,专为特定应用程序设计,可以被高度优化,以最大程度地减少功耗,科技公司供自己内部使用,大多选择ASIC。


推理市场远大于训练市场
 

AI芯片一般可以理解为能运行AI算法的芯片,能处理AI应用中大量计算任务的模块,AI大模型算力的需求主要来源于训练(training)和推理(inference)这两环节,但是这两有什么区别?


训练是指基于一大堆的数据训练出一个复杂的大模型,训练芯片主要用于机器学习和深度学习,需要有强大的并行处理能力,此外还需要配备空间够大且高效的存储器,以便能够快速地访问和更新数据。因此,训练芯片的设计注重高度并行化和大规模存储。一般训练场景下,需要支持FP32、FP64这样精度的数据。


推理是指利用训练好的大模型推理出各种结论,推理芯片主要是在已有模型上执行任务,不需要进行复杂的学习,只需要高效计算并减少功耗。因此,推理芯片比较关注低延时、低功耗,对于计算能力要求相对较低,一般对于推理芯片,只要支持int8精度就可以有相对准确的结果。


业界大佬们表示,推理市场将远大于训练市场,也就是说推理芯片的需求将大于训练芯片的需求。


AMD CEO苏姿丰表示:未来大模型推理市场的规模将远远大于模型训练市场。英特尔CEO基辛格也认为:当推理发生时,就不存在CUDA依赖性了,并不是说英特尔不会在训练领域展开竞争,而是从根本上说,推理市场才是竞争的焦点。


这和我们目前看到的生成式AI的普遍用途差不多,很多公司没有能力自己训练一个大模型,大多都是用别人已经训练好的模型来生成自己的产品,这和我们过年期间看到的龙年海报一样,海报放在一起好像在玩连连看,哪些图用的是同一个模型一眼就可以看出来。

就生成式图片的应用来说,基于“推理>训练”这个说法和用途,很难说这是简便了设计师的工作还是让设计师更难了,因为这大模型在某种意义上不是创意生成器,是别人创意的延展,以我们输入的需求为半径,原大模型为原点,最后生产的海报画地为牢。


| 支持FP32精度的芯片较少
 

前文提到,训练场景下,需要支持FP32、FP64这样精度的芯片。FP64一般用在传统意义上的科学领域,为保证准确的精度才会用得上。一般的AI训练,FP32就足够了,甚至FP16+FP32混合精度也可以确保训练收敛。


数据表格里,只有三分之一芯片的算力是能够上FP32的,其中壁仞的BR100在FP32单精度计算性能上算力为256TFLOPS,而且还是在7nm,550W的功耗下做到的,这难免让人发出疑问国内的AI芯片已经超越NVIDIA了吗?首先要承认的是这个数据是正确的,但是这里的数据并不是NVIDIA给出的标准向量性能, 应该是矩阵性能,有些许迷惑性。但具体好不好用,实际运用性能能不能达到厂商的使用需求,尚且还未知,对于其宣传的保持一个美好的期待。

| 小结


算力硬件是生成式AI的核心底座,核心环节包括服务器、网络设备、存储设备、芯片、IDC建设、光通信等。本文聚焦于AI芯片的芯片类型,后期将持续推出关于AI芯片的存储、带宽、功耗等内容的解读。

  

0
收藏
0