Broadcom现已推出 Jericho4 以太网结构路由器——一个用于分布式 AI 基础设施的平台。
Jericho4 系列在大多数企业网络中并不常见。这款 ASIC 专为大规模 AI 集群而设计,这些集群的目标是 100 万个 AI 加速器,并具有线速 MACsec 加密等功能。
随着 AI 模型规模和复杂性的增长,基础设施需求已超出单个数据中心的功率和物理极限。将 XPU 分布在多个设施中(每个设施配备数十至数百兆瓦的功率)需要一种新型路由器,该路由器经过优化,可实现跨区域、高带宽、安全且无损的传输。
单个 Jericho4 系统可扩展到 36,000 个 HyperPort,每个 HyperPort 的运行速度为 3.2 Tb/s,具有深度缓冲、线速 MACsec 和 RoCE 传输功能,传输距离超过 100KM。
维持长距离以太网链路的无损传输是标准数据中心交换机设计无法解决的挑战。
“RoCE 必须是无损的,否则就行不通,”Broadcom 的副产品线总监Amir Sheffer说。“现在它已经不再是 RoCE 了。如果不使用像 Jericho 这样的解决方案,支持长距离传输可能会成为阻碍。”
博通通过基于高带宽内存 (HBM) 的集成深度缓冲解决了这个问题,使路由器能够吸收拥塞,而无需将优先级流量控制 (PFC) 事件传播到相邻的数据中心域。通过这种方式,Jericho4 将长距离拥塞效应与本地计算结构隔离,从而在突发性 AI 工作负载下保持稳定性和吞吐量。
Broadcom 的 3.2T HyperPort 技术将四个 800GE 链路整合为一个逻辑端口,消除了负载平衡效率低下的问题,将利用率提高高达 70%,并简化了大型结构中的流量。
得益于深度缓冲和智能拥塞控制,Jericho4 可确保 100 多公里范围内的无损 RoCE,从而实现真正分布式的 AI 基础设施,不受单一位置的电力和空间限制。
Jericho4 支持每个端口全速进行 MACsec 加密,以保护数据中心之间移动的数据,即使在最高流量负载下也能提供强大的安全性而不影响性能。
HyperPort 基于博通 3 纳米工艺节点的 200-G PAM4 SerDes 构建,是一个 3.2 Tbps 以太网端口,可将四个 800-G 通道聚合为单个逻辑链路。虽然该设计尚未根据 IEEE 或 MSA 定义进行标准化,但每个 HyperPort 都保持完全的以太网数据包兼容性,同时在带宽效率和拥塞减少方面实现了显著提升。
该技术解决了跨多个 800-G 端口的传统 ECMP 负载均衡方法的缺陷,这些方法会因哈希冲突和流量分配不当而导致效率低下。在“大流量”占主导地位的 AI 工作负载下,这个问题尤为突出。HyperPort 通过增加有效流量宽度和提高端口级链路利用率来缓解这些问题。博通报告称,与 800GE 相比,带宽利用率提升高达 70%,这意味着设备间数据传输速度更快、作业完成时间更短,并且整体系统性能更佳,而无需更改现有的光纤或物理基础设施。
Jericho4 完全符合超级以太网联盟 (UEC) 制定的规范,确保跨开放式、基于标准的以太网 AI 结构实现互操作性。这使其能够与符合 UEC 标准的广泛 NIC、交换机和软件堆栈生态系统无缝集成。
具体而言,通过在 HyperPort 接口中保留了以太网数据包结构,以简化与现有软件定义网络堆栈和监控工具的集成。这为运营商提供了跨本地和区域域的统一、基于标准的结构。
符合标准的方法还使博通的技术成为未来开放架构的可扩展基础,特别是当超大规模企业寻求在通用编程和管理框架下统一分散的基础设施时。
博通软件产品/生态系统负责人 Hasan Siraj 表示:“任何构建加速器的人现在都可以采用该规格,并在其加速器中安装一个基于以太网的芯片,该芯片可以连接到任何以太网交换机。”
互操作性简化了采购和部署,同时减轻了供应商锁定,使 Jericho4 对构建长期 AI 基础设施路线图的客户具有吸引力。
博通表示,Jericho4 可作为广域横向扩展互连的补充,与该公司的 Tomahawk 和 Trident 平台形成互补。Tomahawk Ultra 和 Tomahawk 6 满足机架内和设施内互连需求,注重超低延迟和大交换基数,而 Jericho4 则支持设施间连接,同时保留相同的管理模型和路由策略。完全基于 Jericho4 的结构可以充当单个逻辑路由器,从而抽象出管理分布式系统的复杂性。
这种统一的架构理念使系统设计人员能够根据延迟、规模和地理限制,将 Tomahawk 和 Jericho 元素进行组合。据博通称,Jericho4 可以使用相同的基础芯片构建容量高达 51.2 Tbps 的固定尺寸或基于机箱的路由器。该平台还支持灵活的拓扑结构,适用于中央交换平面、模块化结构元素或分解式计算节点互连。
总结而言,Jericho4 系列专为跨数据中心扩展而构建,提供一系列满足 AI 工作负载特定需求的功能:
- 51.2 Tbps 可扩展深度缓冲容量: Jericho4 系列提供高达 51.2 Tbps 的惊人交换容量,位居业内前列。对于需要在数千个 GPU 或加速器之间传输海量数据的 AI 工作负载而言,如此高的吞吐量至关重要。其“深度缓冲”功能使其能够处理大量突发数据而不丢失数据包,即使在网络拥堵的情况下也能确保分布式 AI 训练的高性能和可靠性。
- 3.2T HyperPort 接口: HyperPort 将四个 800 千兆以太网 (800GE) 端口合并为一个 3.2 兆兆位/秒 (3.2T) 的通道,从而简化网络设计和管理。这减少了交换机和服务器之间所需的链路数量,同时最大限度地减少了数据包重新排序和网络效率低下的问题。因此,用户可以将作业完成速度提高 40%,并将网络利用率提高 70%,从而加快 AI 模型训练速度并更高效地利用计算资源。
- 线速 MACsec,支持超过 20 万条安全策略: MACsec(媒体访问控制安全)是以太网层数据加密的标准。Jericho4 交换机支持全线速 MACsec,可在不降低性能的情况下进行加密和解密。它支持超过 20 万条安全策略,可实现详细的安全控制,这对于多租户环境或“Neo Clouds”至关重要。这确保了敏感的 AI 数据在大型共享基础架构中快速传输时的安全。
- 端到端拥塞管理和 RoCE 无损传输: AI 工作负载容易受到网络拥塞和数据包丢失的影响,从而降低分布式训练的速度。Jericho4 的深度缓冲架构和基于硬件的拥塞管理功能支持使用 RoCE(基于融合以太网的远程直接内存访问 (RDMA))进行无损传输,确保在超过 100 公里的距离内实现可靠的数据传输。这些功能对于连接分布式数据中心或 AI 集群至关重要,能够提供始终如一的性能和可靠性。
- 每比特功耗降低 40%:随着数据中心不断发展壮大,以支持更大规模的 AI 模型和更多用户,能源效率至关重要。与前几代产品相比,Jericho4 的架构将每比特数据传输功耗降低了 40%。这降低了运营成本,并帮助企业实现可持续发展目标,从而能够在不显著增加能耗的情况下扩展 AI 基础设施。
- 业界领先覆盖范围的 200G PAM4 SerDes: SerDes(串行器/解串器)技术可在铜缆或光纤链路上实现高速数据传输。Jericho4 芯片支持 200G PAM4 SerDes,相比现有技术,可在更长距离上实现更快的数据速率。这使得交换机和服务器能够在更大的数据中心园区或建筑物之间进行连接,而无需牺牲速度或可靠性。
- 符合超级以太网联盟标准:超级以太网联盟致力于推广高性能计算和人工智能的以太网标准。Jericho4 的合规性确保了与其他超级以太网设备的无缝兼容,从而保护了投资,并为即将到来的人工智能和云工作负载做好了网络的保障。
- 端点 无关: Jericho4 兼容任何使用以太网的网卡 (NIC) 或 XPU,例如 GPU 或 DPU。这种灵活性使组织能够集成各种计算和存储端点,支持各种 AI 架构和供应商解决方案,而不局限于单一生态系统。
- AI 网络: Jericho4 架构以其管理持久、高带宽 AI 流量的能力而脱颖而出。通过利用 HyperPort 技术,它消除了传统的瓶颈和低效率,为可扩展的 AI 网络提供了更高的吞吐量和更低的延迟。这对于跨园区、大都市乃至更广阔地域部署 AI 工作负载的企业尤为重要。
Jericho4 是博通完整以太网 AI 平台的重要组成部分,该平台还包括:
- Tomahawk 6:用于 AI 横向扩展和纵向扩展的 102.4 Tbps 交换机。
- Tomahawk Ultra:用于 HPC 和 AI 扩展的 51.2 Tbps 低延迟交换机。
- Thor 系列:针对 AI 优化的以太网 NIC。
- 物理层产品:包括重定时器、DSP 和第三代共封装光学器件 (CPO)。
这些产品共同提供了一个开放、可扩展的平台,用于开发任何规模的基于以太网的 AI 基础设施——从紧密互连的 GPU 集群到区域部署。
博通核心交换事业部高级副总裁兼总经理Ram Velaga表示:“Jericho4系列旨在将AI规模以太网结构扩展到单个数据中心之外,支持无拥塞的RoCE和3.2 Tbps HyperPort,实现前所未有的互连效率。Scale Up以太网(SUE)、Tomahawk Ultra、Tomahawk 6和Jericho4在以开放且可互操作的方式在机架内、跨机架和跨数据中心实现大规模分布式计算系统方面都发挥着非常重要的作用。”
博通认为 Jericho4 标志着以太网的成熟,使其成为能够满足最苛刻的 AI 工作负载需求的完全可行的传输方式。Infiniband 或专有架构曾经主导着横向扩展的讨论,而博通的“以太网优先”战略则为在 AI 和非 AI 领域实现统一基础架构提供了一条途径。
博通的 Jericho4 进入了一个竞争激烈的市场,超大规模数据中心运营商和 AI 基础设施提供商都致力于突破传统 InfiniBand 和以太网解决方案的局限性。NVIDIA 凭借其基于 InfiniBand 的 Quantum 和 Spectrum-X 以太网交换机,继续在 AI 网络领域占据主导地位,尤其是在紧密耦合的 GPU 集群领域。然而,以太网的开放性、经济性和生态系统支持正在推动人们转向基于以太网的 AI 架构,尤其是在横向扩展和多站点部署方面。
其他竞争对手,例如拥有 Nexus 系列的思科和 Arista Networks,也在大力投资高性能、AI 优化的以太网交换。然而,博通的深度缓冲、无损架构,加上其在芯片创新和生态系统整合方面的领先地位,赋予了 Jericho4 极具吸引力的价值主张,尤其对于那些致力于开发开放、可扩展且面向未来的 AI 基础架构的组织而言。
全部评论