全民AI时代来了！但是你了解大模型AI芯片吗？（附国内外AI芯片参数对比）

最近AI是越来越火，而且是很出圈的火，有点全民多少都知道AI的意思。到什么程度呢，就是小编那一直对新能源汽车嗤之以鼻的妈都开始向我普及AI方面的知识，并且对AI有着源源不断的幻想和期待，已经开始计划培养下下代做AI人才了。

AI再次出圈少不了Sora的推波助澜，Sora爆火，让越来越多的人和行业瑟瑟发抖。虽然AI生成视频也不是什么新鲜事了，在Sora发布之前，不乏一些视频生成AI，比如Pika、Stable video、RunwayML等等，但与Sora相比，其他模型生成视频的时长都比较短，在对物理世界的理解没Sora强，而且在运镜分镜等方面也要弱很多。

虽说Sora继承了GPT的技术和数据，但从语言文字到视频，训练的数据量成指数增长，视频AI生成的背后无疑需要大量的数据以及庞大的的算力作支撑，而且视频AI化只是个开始，各行各业都在全面拥抱AI，未来还会有层出不穷的大模型。如今还未到AI全面爆发时，AI芯片就已经紧张的不得了，可以预见的是，市场对于AI算力的需求将越来越大。

| 用于大模型的AI芯片

算力老大NVIDIA的H100芯片是目前市场上算力最高的产品，国外的科技公司一个赛一个的推出AI芯片，AMD、英特尔、谷歌这些。国内厂商还处于追赶状态，海思、昆仑芯、寒武纪、燧原、壁仞、沐曦、景嘉微、海光信息等厂商进展较快。各厂商推出的最新AI芯片、算力参数、内存参数可见下图。

| AI芯片以 GPU和ASIC为主

表格里的AI产品类型有GPU、ASIC、DPU等等。

GPU作为通用型芯片目前在AI芯片市场用量最大，因此NVIDIA、AMD这些本就在GPU赛道上的厂商有着天然的优势。

选用ASIC路线的厂商占了一大半，ASIC属于全定制的产品，主流产品包括流TPU芯片、NPU芯片、VPU芯片等等。谷歌、特斯拉、亚马逊、阿里、百度、华为这些自家业务场景原本就对AI芯片存在大量需求的企业，选择ASIC在量产制造上的难度是更低的。NVIDIA的芯片一片难求，价格高得离谱产能还不够，各个厂商最优解是自研AI芯片。由于使用场景非常具体，专为特定应用程序设计，可以被高度优化，以最大程度地减少功耗，科技公司供自己内部使用，大多选择ASIC。

| 推理市场远大于训练市场

AI芯片一般可以理解为能运行AI算法的芯片，能处理AI应用中大量计算任务的模块，AI大模型算力的需求主要来源于训练（training）和推理（inference）这两环节，但是这两有什么区别？

训练是指基于一大堆的数据训练出一个复杂的大模型，训练芯片主要用于机器学习和深度学习，需要有强大的并行处理能力，此外还需要配备空间够大且高效的存储器，以便能够快速地访问和更新数据。因此，训练芯片的设计注重高度并行化和大规模存储。一般训练场景下，需要支持FP32、FP64这样精度的数据。

推理是指利用训练好的大模型推理出各种结论，推理芯片主要是在已有模型上执行任务，不需要进行复杂的学习，只需要高效计算并减少功耗。因此，推理芯片比较关注低延时、低功耗，对于计算能力要求相对较低，一般对于推理芯片，只要支持int8精度就可以有相对准确的结果。

业界大佬们表示，推理市场将远大于训练市场，也就是说推理芯片的需求将大于训练芯片的需求。

AMD CEO苏姿丰表示：未来大模型推理市场的规模将远远大于模型训练市场。英特尔CEO基辛格也认为：当推理发生时，就不存在CUDA依赖性了，并不是说英特尔不会在训练领域展开竞争，而是从根本上说，推理市场才是竞争的焦点。

这和我们目前看到的生成式AI的普遍用途差不多，很多公司没有能力自己训练一个大模型，大多都是用别人已经训练好的模型来生成自己的产品，这和我们过年期间看到的龙年海报一样，海报放在一起好像在玩连连看，哪些图用的是同一个模型一眼就可以看出来。

就生成式图片的应用来说，基于“推理＞训练”这个说法和用途，很难说这是简便了设计师的工作还是让设计师更难了，因为这大模型在某种意义上不是创意生成器，是别人创意的延展，以我们输入的需求为半径，原大模型为原点，最后生产的海报画地为牢。

| 支持FP32精度的芯片较少

前文提到，训练场景下，需要支持FP32、FP64这样精度的芯片。FP64一般用在传统意义上的科学领域，为保证准确的精度才会用得上。一般的AI训练，FP32就足够了，甚至FP16+FP32混合精度也可以确保训练收敛。

数据表格里，只有三分之一芯片的算力是能够上FP32的，其中壁仞的BR100在FP32单精度计算性能上算力为256TFLOPS，而且还是在7nm，550W的功耗下做到的，这难免让人发出疑问国内的AI芯片已经超越NVIDIA了吗？首先要承认的是这个数据是正确的，但是这里的数据并不是NVIDIA给出的标准向量性能，应该是矩阵性能，有些许迷惑性。但具体好不好用，实际运用性能能不能达到厂商的使用需求，尚且还未知，对于其宣传的保持一个美好的期待。

| 小结

算力硬件是生成式AI的核心底座，核心环节包括服务器、网络设备、存储设备、芯片、IDC建设、光通信等。本文聚焦于AI芯片的芯片类型，后期将持续推出关于AI芯片的存储、带宽、功耗等内容的解读。