随着大数据和深度学习得到越来越多应用,对于底层硬件和芯片也提出了新的要求。与传统的处理器强调“处理能力”不同,大数据和深度学习应用强调的往往是“算力”以及“能效比”。由于大数据和深度学习应用算法中的特征提取和处理使用的都往往是实打实的计算,因此需要高算力的芯片以期在尽可能短的时间里完成计算。另一方面,能效比也是重要指标。能效比指的是完成计算所需要的能量,能效比越好则完成相同计算消耗的能量越小。
对于终端芯片, 越来越多的数据由于数据隐私、网络传输带宽和处理延迟的问题无法传到云端数据中心完成计算,这也就需要终端芯片能在终端完成计算;同时终端设备的电池容量往往有限,因此终端芯片在完成计算的同时不能消耗太大能量,也就是需要很好的能效比。对于云端数据中心的芯片,同样也需要很好的能效比,因为散热成本是数据中心的重要开销,因此需要芯片散热不能太大。
在大数据和深度学习应用中,数据间往往都是独立的,因此可以并行计算。传统的CPU并行计算能力有限,因此难以实现算力的需求。GPU虽然有很高的算力(10TOPS数量级)而且在数据中心已经得到了应用,但是其功耗也很大(几百瓦),而且其架构决定了它无法做到终端需要较低功耗(如100mW以下)的场景。同时,即使在数据中心领域,因为GPU设计的初衷是为了图像渲染而并非大数据运算,因此也存在很大的改善空间。
因此,我们看到了许多在AI芯片领域来自学术界和来自工业界的项目,试图挑战CPU和GPU。这些项目大体可以分为两类,一类是基于传统的数字处理器模型,但是在处理器架构上加以改良,以提高算力以及能效比;第二类则是另辟蹊径,使用了与传统处理器完全不一样的方法来执行计算,从而在一些领域中获得远高于传统处理器的性能。今天我们为大家带来的是第二类技术的总结,我们预期在第二类技术中会有一些能经历时间的考验,最终成为主流技术。
全部评论