高性能计算 | HPC的“动脉”,主流高速互连网络技术对比

来源: 芯查查资讯 作者:程文智 2025-05-19 09:30:26
“AI工厂”的概念被越来越多地提及,指的是那些集成了数以万计GPU的数据中心,主要实现超大规模的AI模型预训练,其采用的网络连接技术的带宽和时延尤为重要。现在这种高性能计算领域的高速网络连接技术主要有哪些呢?

重点内容速览:

1. InfiniBand:架构、特性与演进

2. 高速以太网与RoCE (RDMA over Converged Ethernet)

3. NVIDIA NVLink与NVSwitch:以GPU为中心的通信

4. 新兴开放标准与架构

 

人工智能和加速计算的发展正进入一个前所未有的技术革命时代,随着生成式AI和大语言模型的兴起,推动了科技公司不断扩展其GPU计算集群,从过去几百个GPU,到如今的数万,甚至数十万个GPU并行运行,以满足模型训练和推理在计算性能和内存容量方面的极端需求。

图1:从组件到集群的概念性AI架构(来源:Open Systems for AI:Blueprint for scalable Infrastructure)

近年来,“AI工厂”的概念被越来越多地提及,所谓的AI工厂其实就是指那些集成了数以万计GPU的数据中心,主要实现超大规模的AI模型预训练。这类提供AI服务的新型数据中心与传统数据中心有很大的不同,传统数据中心主要运行一些关联度不高的松耦合应用程序,这些应用程序本身相对独立,对通信网络的带宽、时延、抖动,以及一致性要求并不高。
 

但生成式AI场景下的AI工厂对通信网络的需求完全不一样,因为AI工作负载具有计算密集型特性,尤其是涉及ChatGPT和BERT等大型复杂模型的工作负载。为了加速模型训练和处理大量数据,AI从业者转向了分布式计算,也就是将工作负载分配到多台服务器,并通过高速低延时网络将这些服务器连成一台超级计算机。此时,AI工厂内采用的网络连接技术的带宽和时延就显得特别重要了。那么现在这种高性能计算领域的高速网络连接技术主要有哪些呢? 

图:全球超级计算机TOP500互连网络趋势(截至2024年11月,来源:NVIDIA)

每年发布两次的全球超级计算机500强(TOP500)榜单给了我们很好的参考。根据近10多年来,全球最知名超级计算机采用的高速互连网络技术趋势来看,目前涨势最好,被采用最多的高速网络互连技术就是InfiniBand,其次是以太网、Cray、OmniPath等技术。
 

InfiniBand:架构、特性与演进

InfiniBand架构是当前HPC市场中主流的高速网络互连技术之一,它是一种为HPC设计的、基于交换结构的点对点互连技术标准,具有高带宽、低延迟和高可扩展性的特点。它支持远程直接内存访问(RDMA),允许网络适配器直接在应用程序内存之间传输数据,绕过操作系统内核,从而显著降低CPU开销和通信延迟。其架构组件包括服务器中的主机通道适配器(Host Channel Adapters, HCA)和I/O设备中的目标通道适配器(Target Channel Adapters, TCA),通过交换机连接构成网络。
 

InfiniBand架构规范主要由1999年创立的InfiniBand贸易协会(InfiniBand Trade Association,IBTA)负责,当时参与的企业有英特尔、微软、SUN、IBM、康柏、惠普,以及Mellanox等。2000年时,该协会推出了InfiniBand架构规范1.0版本,当时InfiniBand的目的就是为了取代PCI总线,因此,它引入了RDMA协议,以让其具有更低延迟,更大带宽,更高的可靠性,以实现更强大的I/O性能。
 

2002年,英特尔决定转向开发PCI Express总线,也就是PCIe(英特尔2004年推出),加上微软也退出了InfiniBand的开发,让InfiniBand的前景蒙上了一层阴影。2003年开始,InfiniBand及时转向了计算机集群互联。2004年,OFA(Open Fabrics Alliance,开放Fabrics联盟)成立,负责开发和维护InfiniBand协议和上层API,与IBTA相互配合。IBTA主要负责开发、维护和增强InfiniBand协议标准。2005年,InfiniBand进入存储设备连接领域。后来,InfiniBand技术逐渐深入人心,开始有了越来越多的用户。
 

随着InfiniBand市场份额越来越大,Mellanox开始不断壮大,逐渐成为InfiniBand市场的主要供应商。2010年,Mellanox与Voltaire合并,InfiniBand主要供应商就剩下Mellanox与QLogic两家。2012年,英特尔收购QLogic的InfiniBand技术,重回InfiniBand赛道。
 

2015年,InfiniBand技术在超级计算机500强榜单中采用的比例首次超过了50%,首次实现了对以太网(Ethernet)技术的逆袭,成为超级计算机最首选的内部连接技术。
 

2019年,NVIDIA花费69亿美元成功收购Mellanox,让InfiniBand技术在AI数据中心领域大放异彩。
 

这么多年来,InfiniBand物理层和链路层规范不断演进,从最初的SDR (Single Data Rate, 10Gbps) 发展到DDR (20Gbps)、QDR (40Gbps)、FDR (Fourteen Data Rate, 56Gbps)、EDR (Enhanced Data Rate, 100Gbps)、HDR (High Data Rate, 200Gbps)、NDR (Next Data Rate, 400Gbps) ,以及最新的XDR (Extreme Data Rate, 800Gbps),预计未来将会有更高速的标准出现。
 

InfiniBand主要具有以下关键特性:

  • RDMA (Remote Direct Memory Access) :允许网络中的一台计算机直接访问另一台计算机的内存,无需操作系统或CPU的干预,从而显著降低延迟和CPU开销。这是InfiniBand的核心优势之一,端到端延迟可低至5微秒。
  • 零拷贝 (Zero-Copy) :允许用户级应用程序在InfiniBand网络上执行I/O操作,而无需在用户空间和内核空间之间复制数据,进一步减少了系统调用开销和CPU使用率。
  • 可靠传输服务 :InfiniBand在硬件中实现了多种传输服务,如可靠连接(RC),这些服务由HCA硬件处理,减轻了主机CPU的协议处理负担。MPI实现通常利用RC服务,因为它提供端到端流控、RDMA支持和消息传递保证。
  • 虚拟通道 (Virtual Lanes, VL) :允许在同一物理链路上复用多达16个独立的虚拟数据通道,有助于服务质量(QoS)管理并减轻队头阻塞效应。
  • 基于信用的流控制 (Credit-Based Flow Control) :确保无损通信,防止因缓冲区溢出导致的数据包丢失。
  • 可扩展性 :支持数万个节点互联(基于交换机的Fat-Tree拓扑)。

软件方面,OpenFabrics Enterprise Distribution (OFED) 是InfiniBand事实上的标准软件包,为Linux、Windows等操作系统提供驱动和工具支持。此外,还有HPC-X、UFM、Magnum IO等软件和工具提供支持。
 

应用方面,InfiniBand因其卓越性能,广泛应用于全球顶级超级计算机集群、人工智能(AI)集群、大数据分析平台和金融建模等领域。InfiniBand之所以能在HPC领域保持强劲地位,源于其最初就针对低延迟、高带宽和CPU卸载(如RDMA)等HPC关键需求进行的设计。这些特性对于科学计算和日益重要的人工智能应用至关重要。其持续的速度演进也使其能够满足不断增长的性能需求。 

图:NVIDIA Quantum-X800 InfiniBand平台产品参数(来源:NVIDIA)

目前最新的产品有NVIDIA推出的Quantum-X800 InfiniBand平台,根据其官网信息,该系列有4种型号可供用户选择,分别是Q3200-RA、Q3400-RA、Q3401-RD,以及Q3450-LD。
其中,Quantum-X800 Q3400-RA 4U交换机有144个端口,每个端口的速率为800Gbps,总容量可达115.2Tbps,支持72个OSFP连接。不过值得注意的是Q3400是仅支持风冷,要想液冷版本需要选用Q3450-LD。
 

高速以太网与RoCE (RDMA over Converged Ethernet)

以太网技术从最初的局域网(LAN)应用,已演进成为数据中心高速交换网络的主流技术之一,支持10GbE、25GbE、100GbE、200GbE、400GbE乃至800GbE等多种速率。
 

为了应对InfiniBand架构的挑战,以太网技术也在不断创新,保持技术生命力。2010年4月,IBTA发布了RoCE (RDMA over Converged Ethernet,基于融合以太网的远程直接内存访问) ,它是一种允许在以太网上实现RDMA的网络协议,结合了RDMA的低延迟、高吞吐量优势与以太网的广泛普及性和成本效益。

 

RoCE主要有两个版本:

  • 2010年推出的RoCE v1:一种以太网链路层协议(Ethertype 0x8915),因此通信限制在同一个以太网广播域内。
  • 2014年更新的RoCE v2 (或RRoCE - Routable RoCE):一种网络层协议,通常运行在UDP/IP之上(UDP目标端口号4791),这意味着RoCE v2数据包可以被路由,从而跨越不同的广播域。

为了使RoCE达到类似InfiniBand的无损网络性能,通常需要一个无损的以太网环境。这一般通过数据中心桥接(Data Center Bridging, DCB)技术实现,特别是利用其中的优先流控制(Priority Flow Control, PFC)等机制来防止数据包在传输过程中丢失。
 

有了RoCE v2的支持,以太网缩小了与InfiniBand之间的技术性能差距,再结合本身固有的成本和兼容性优势,以太网开始在HPC市场重新站稳脚跟,并逐渐扩大战果。不过,为了实现无损操作,以太网通常需要更复杂的配置,并且在超低延迟方面可能仍然落后于InfiniBand,在GPU为主的AI工厂和HPC业务上,InfiniBand占据一定的优势。
 

NVIDIA不仅在InfiniBand技术上有投入,以太网技术也没有落下。针对以太网网络平台,他们推出了NVIDIA Spectrum-X平台。Spectrum-X平台采用了无损RoCE(RDMA over Converged Ethernet)技术,实现了端到端无丢包的通信,大大提升了网络的效率和可靠性。此外,Spectrum-X平台还带来了动态路由和先进的拥塞控制等重要特性,为网络性能提供了强有力的支持。
 

其最新的NVIDIA Spectrum-X800 SN5600拥有64个端口,单个端口的速率达到了800Gbps,总容量达到了51.2Tbps,接口类型为OSFP。
 

当然,除了NVIDIA,博通的Tomahawk与思科的Silicon One G200也是支持RoCE的高速网络连接芯片系列。速度跟NVIDIA的这款差不多。
 

除了InfiniBand和以太网这两种主流的HPC节点高速网络连接技术,还有Cray、OmniPath等技术。其中Cray已经在2019年被HPE所收购,现在HPE负责Cray产品的开发。
 

至于Omni-Path技术,前面有提到,英特尔在2012年以1.25亿美元收购了QLogic的InfiniBand网络业务,不就后,他们又以1.4亿美元收购了Cray的Gemini XT和Aries XC超级计算互连业务,后面基于InfiniBand和Aries打造出了Omni-Path互连技术。

NVIDIA NVLink 与 NVSwitch:以GPU为中心的通信

NVLink 是NVIDIA开发的一种高速、点对点的GPU到GPU(以及部分CPU到GPU)的互连技术,旨在克服传统PCIe总线在多GPU通信中的带宽瓶颈。NVLink已经发展了多代,第五代NVLink能够为每颗NVIDIA Blackwell架构GPU提供高达1.8 TB/s的总带宽,通过18条NVLink连接实现,每条连接100GB/s。

图: NVLink示意图(来源: NVIDIA)
图: NVLink各代规格参数(来源: NVIDIA)

NVSwitch 是一种专用交换芯片,用于连接多个NVLink接口,从而在服务器内部甚至跨服务器机架实现GPU间的全互联通信,支持更大规模的GPU集群。 NVSwitch集成了NVIDIA的SHARP™ (Scalable Hierarchical Aggregation and Reduction Protocol) 技术,支持网络内归约操作,加速集合通信。 例如,第五代NVLink Switch芯片拥有144个NVLink端口,总交换容量达14.4TB/s,能够支持多达576个GPU的全连接,实现任意GPU对之间1800GB/s的通信速率。

图: NVSwitch各代的规格参数(来源: NVIDIA)

NVLink和NVSwitch主要应用于NVIDIA的GPU加速系统(如DGX系列服务器),用于扩展AI训练和HPC工作负载的性能。 它们是NVIDIA HPC/AI平台不可或缺的组成部分,为多GPU并行计算提供了必要的带宽和低延迟通信基础。 这种紧密集成为NVIDIA构建了一个强大但专有的生态系统。

 

新兴开放标准与架构

2023年7月,AMD、博通、思科、英特尔、Meta和微软等10家来自芯片、通信、互联网行业的企业联合成立了超以太网联盟(Ultra Ethernet Consortium,UEC),旨在完善以太网标准,以更好地满足AI、机器学习和高性能计算不断增长的需求。
 

目前UEC发展迅速,截止到2025年1月,已经有超过100家厂商加入了该联盟,包括芯片设计、计算、通信、互联网等主流企业。比如IBM、谷歌、Synopsys、戴尔等,国内企业也积极加入该联盟,比如华为、中信通讯、新华三、百度、联想、阿里巴巴等。其中,阿里巴巴加入了UEC技术委员会,与Meta、AMD、博通和微软等其他12名成员,一同推进以太网核心计算的研发工作和相关标准制定工作。
 

根据该官网的信息,UEC将会在今年正式推出Ultra Ethernet 1.0规范标准。此外,在2024年5月,AMD、AWS、博通、思科、谷歌、HPE、英特尔、Meta、微软等联合组建了一个新的行业联盟,即UALink Promoter Group(简称UALink)。这一联盟的成立标志着这些科技巨头将共同推动AI加速器芯片之间连接组件的发展,直接对抗NVIDIA的NVLink技术。目前该联盟成员已经超过85家。
 

UALink,即Ultra Accelerator Link,是一项开放的行业标准,旨在连接数据中心内的AI加速器芯片,以满足日益增长的计算密集型工作负载的需求。
 

与NVLink不同,UALink的目标是提供一个可扩展的、高性能的连接解决方案,支持AI和HPC应用,并允许多达1024个GPU AI加速器的连接,组成一个计算“集群”(pod),意指服务器中的一个或多个机架。
 

2025年4月7日,UALink联盟正式公布了UALink 200G 1.0规范标准。根据官网介绍,该规范定义了AI集群内加速器和交换机之间通信的低延迟、高带宽互连。最多1024个加速器与交换机之间实现每通道200G的扩展连接。
具体来看:

  • 速度 :每通道200G(信号速率212.5 GT/s,以容纳前向纠错和编码开销);支持x1、x2、x4配置,每连接(x4)可提供高达800 GT/s(或GB/s,不同来源表述略有差异,但均指原始双向能力)的带宽。
  • 延迟: 针对小于4米的线缆长度进行优化,可实现小于1微秒的往返延迟(使用64B/640B负载)。部分资料称端口到端口的跳跃延迟小于100纳秒。
  • 协议 :采用内存语义(memory semantic),支持简单的加载/存储(load/store)协议。其协议栈包含硬件优化的物理层(基于以太网组件,但为降低延迟和支持FEC做了修改)、数据链路层(将64字节flit打包成640字节单元,支持CRC和可选重传)、事务层(实现压缩寻址,支持加速器间的直接内存读、写和原子操作,并保持本地与远程内存空间的顺序一致性)和协议层。
  • 安全性: UALinkSec提供硬件级加密和流量认证,支持可信执行环境(如AMD SEV, Intel TDX)下的机密计算。规范还允许通过交换机级配置实现虚拟Pod分区,以支持共享基础设施上的多租户工作负载隔离。

UALink对“开放标准”和“多供应商生态系统”的强调,旨在打破供应商锁定,促进更广泛的创新,并可能降低成本。UALink作为一种“内存语义解决方案” ,支持直接内存操作(读、写、原子操作),表明其专为紧密耦合的加速器集群设计,在此类集群中,GPU/加速器可以高效共享数据,如同在一个大型分布式共享内存池中一样,这对于训练大型AI模型至关重要。
根据公开信息,Synopsys在2024年12月推出了超以太网IP和UALink IP解决方案,包括控制器、PHY和验证IP。
 

另外,还有增强内存一致性与池化的CXL连接技术、光互联等高速网络连接技术。

结语

HPC硬件经历了从同构到异构的演进,专用处理器(CPU、GPU、FPGA、AI加速器)成为计算核心,而高速互连网络则扮演着连接这些强大组件、确保数据高效流动的关键角色。带宽、延迟和消息速率是衡量互连性能的核心指标,不同技术(如InfiniBand、高速以太网/RoCE、NVLink、UALink、CXL以及新兴的光互连)在这些指标和特性上各有侧重。

图片来源:资料来源网络,芯查查制图

未来,HPC互连网络将朝着更高带宽、更低延迟、更高能效、更强可扩展性和更高智能化的方向发展。 光互连、Chiplet集成、AI驱动的网络优化以及网络与计算存储的深度融合将是重要的技术趋势。 克服功耗、成本、软件生态等方面的挑战,将是推动HPC互连技术持续进步的关键。 随着这些技术的不断成熟和应用,HPC系统将能够更好地应对日益复杂的科学计算、大规模数据处理和人工智能等领域的挑战,为科技进步和社会发展提供更强大的算力支撑。

0
收藏
0