Meta与NVIDIA合作打造最大超算系统RSC, 2022年底将扩展到16,000个GPU
Facebook 母公司 Meta 宣布继 2017 年后再度采用 NVIDIA GPU 技术打造第二世代 AI 研究基础设施 RSC ( Research SuperCluster ),目前已经完成第一阶段的架设,采用 760 套 NVIDIA DGX A100 节点、共 6,080 个 A100 GPU ,并预计在 2022 年末第二阶段完工后一举扩展到 16,000 个 GPU ,预计性能达 5 exaflops 混合精度 AI 性能,规模胜于微软 AI 研究室的 10,000 个 GPU ,届时 RSC 将成为地表最大型的 A100 系统。
RSC 的目的是作为 Meta 新一代 AI 应用的基础设施与研究系统,例如提供多人即时语音翻译功能,使不同语言的使用者能够在协作或游戏时进行即时沟通,或是即时判断有害内容、自然语言处理等,届时第二阶段完工后, Meta 的目标将是利用 RSC 训练超过一兆的 AI 模型。
▲ RSC 基于 NVIDIA SuperPOD架构,自规画到完成仅花费 18 个月时间
受惠于 NVIDIA SuperPOD架构, RSC 的建设过程纵使多少受到 COVID-19 影响,自规划到落成仍仅花费 18 个月时间即完成第一阶段的安装,目前由 760 套 DGX A100 系统,以 NVIDIA Quantum 200Gb/s InfiniBand 连接,以 6,080 个 NVIDIA A100 提供 1,895 petaflops 的 TF32 算力,并由 Penguin Computing 提供托管服务与 AI 优化基础设施,其中包括 46PB 储存系统的 Altus 系统。
相较于 2017 年 Meta 所建设的第一代 AI 研究机构,当时使用 22,000 个 NVIDIA V100 Tensor Core GPU 组成,乍看下 RSC 系统的 GPU 数量完工后的 GPU 总数反而减少,但在新一代架构加持下, RSC 进行大型自然语言模型训练速度较第一世代快 3 倍,而在机器视觉的性能一口气提升 20 倍。
全部评论