优化大规模AI运算,高质量连接解决了什么问题?

来源: Molex莫仕 2024-03-21 14:24:57
ChatGPT引发生成式AI应用风潮,数据中心的传输带宽和功耗问题日益突显

AI数据中心配备大量GPU、TPU等AI加速芯片,以及高速网络、存储系统和软件栈,以支持大规模AI训练和推理。在追求算力的今天,业界比较关注的是AI加速芯片的技术进步,以及大规模AI运算需求引发的数据传输带宽和系统高能耗问题,但是在解决这些问题的过程中,往往被忽略的是设备、芯片之间的连接发挥的作用。

 

根据商业顾问刘润提出的商业模型,一个行业发展往往经历三个阶段,早期经历的是“红利期”,随着更多卖家进入,当行业规模壮大并进入“效率期”,卖家就要提升管理水平,获得足以淘汰对手的成本或者价格。

 

如果这个商业模型运用在AI数据中心行业,随着竞争的加剧,系统的效率问题更加突显。下面就谈谈高质量连接解决了哪些问题,并提升系统效率。

 

图注:随着行业发展趋于成熟,厂商要保持竞争力就要提升效率

 

解决高速数据传输中的带宽和延迟瓶颈

 

“梅特卡夫”定律强调网络的价值与网络规模的平方成正比。网络规模越大,连接数量就越大。对于AI数据中心而言,更多连接意味着更大的数据吞吐量和更强大的计算能力。随着AI大模型的规模增大、实时性要求提高、数据密集型应用的增加,数据中心的存储子系统和计算节点之间的数据交换需求变得越来越大,数据传输带宽成为关键指标。

 

对带宽和延迟的追求促使业界研发并采用224 Gbps-PAM4等更高阶的互连技术。PAM4(4-Level Pulse-Amplitude Modulation,四电平脉冲幅度调制)是一种先进的调制技术,相较于传统的NRZ(Non-Return-to-Zero)调制,PAM4可以在相同的物理信道上传输更多信息,大幅度提高数据传输速率。

 

224 Gbps-PAM4技术意味着每个通道的数据传输速率达到了224千兆比特每秒,这对于数据中心的高速互联、云计算、大数据分析以及AI训练等需要大量数据传输的场景至关重要。

 

图注:224G、112G、56G传输率的优劣(图源:Molex莫仕)

 

虽然目前112 Gbps-PAM4技术比其前身56 Gbps-PAM4有了巨大飞跃,但是面向未来更大AI运算需求,系统将数据传输率升级到224 Gbps-PAM4。通过进一步提升数据传输速度和带宽,可确保AI模型训练和推理过程中的大量数据能够迅速地在服务器、存储系统以及GPU/TPU等加速器之间流动,加速训练和推理速度。对于实时性要求较高的AI应用,如自动驾驶、金融交易、在线推荐系统等,高速率高带宽连接能够有效降低数据传输延迟,确保AI算法能够迅速响应并做出决策。

 

降低总拥有成本TCO

 

AI数据中心服务商面对的一个问题是,如何降低托管CPU服务器或者GPU服务器的总拥有成本(TCO)。TCO除了资产成本,还包括电力、租赁等,特别是AI运算越大,电力消耗成本越大,从单个机架到多个完整机架,再到跨越数百万平方英尺并消耗千兆瓦功率的主机托管设施的中心,AI数据中心环境最终要为关键基础设施提供冗余电源、冷却、安全性和连接性。

 

图注:CPU、GPU服务器托管的总体拥有成本对比(图源:semianalysis)

 

PAM4技术通过在相同的物理通道上编码更多数据,在不增加物理通道数量的情况下,提高数据传输速率,这种方式有助于降低TCO:

 

首先,相比光纤通道、铜线接口,PAM4在相同的数据传输需求下,可以减少所需要的物理线路数目,这样一来,可以减少建设数据中心所需的光纤、电缆、连接器和其他基础设施数量,降低硬件成本,简化系统设计和架构,这也有助于降低能源消耗。

 

其次,减少接口和相应硬件数量,可以缩小数据中心占用空间,更紧凑的设备布局也有利于优化数据中心的运维成本,从而减少场地成本和电费支出。

 

提升系统架构的扩展性

 

AI运算规模增大,对计算资源的需求越来越高,如何无缝扩展GPU、TPU等高性能计算单元,并对存储系统扩容、保持数据访问的低延迟是一个难题。

 

随着节点数量增加,系统架构的扩展性更加棘手,这就需要更高效、更低延迟的网络互连技术。面向持续这种不断增长的数据中心需求,Molex莫仕推出了224G产品组合,包括下一代电缆、背板、板对板连接器和专用集成电路旁边的Near-ASIC连接器对电缆解决方案,传输速度高达224 Gbps-PAM4。

 

图注:224G产品组合在数据中心的实例

 

其中,Mirror Mezz Enhanced增强型连接器是无公母端区别的中间层板对板连接器Mirror Mezz系列中的新增产品,该产品可连接224 Gbps-PAM4速率电路,同时满足不同的连接高度要求,克服了PCB空间限制问题以及制造和组装方面的挑战,降低了应用成本并缩短了上市时间,其扩展了Mirror Mezz和Mirror Mezz Pro的功能,这些功能被开放计算项目(OCP)中的开放加速器基础设施(Open Accelerator Infrastructure Group)选为开放加速器模块(OAM)标准。

0
收藏
0