在AI创新的激烈竞争中,NVIDIA云合作伙伴(NCP)——专注于规模化企业级AI部署的专业云服务商——正站在技术前沿,为全球客户提供高性能GPU算力资源。Vultr、CoreWeave、Nebius、Core42以及Lambda和Crusoe等领先厂商,正通过灵活的按需云服务模式,彻底改变企业在生成式AI、大语言模型和科学模拟等领域的工作方式。随着NCP不断扩展服务规模,其基础设施必须满足下一代工作负载的爆发式需求。
为此,NVIDIA推出革命性的Blackwell架构,通过HGX B300和GB300 NVL72系统实现GPU加速能力的跨越式发展。这些计算平台搭载Blackwell Ultra GPU,其中HGX B300系统可提供高达144 PFLOPS的FP4算力与72 PFLOPS的FP8算力,每个HGX机架配备2.1 TB HBM3e显存,而GB300 NVL72机架更具备百亿亿级计算能力,集成72个Blackwell Ultra GPU、37 TB高速内存和130 TB/s NVLink互联带宽,在实现高性能的同时保持出色的能效表现。
然而,对于服务多元化客户群体的NCP而言,仅靠算力提升远远不够。要充分发挥Blackwell架构潜力并确保服务无缝交付,必须配备能够全速支撑Blackwell GPU的存储系统,提高GPU利用率,在实现PB级吞吐性能的同时消除瓶颈,全面支持多租户隔离、快速资源调配和经济高效的扩展能力。
我们正式发布两款专为NVIDIA云合作伙伴(NCP)打造的DDN AI工厂解决方案参考架构(A3I):全面支持NVIDIA HGX H200/B200/B300平台及GB200 NVL72/GB300 NVL72系统。这些经过全面验证和深度优化的高性能存储(HPS)蓝图,专门针对云环境中Blackwell Ultra的部署需求而设计。基于我们久经考验的集成经验,新架构将DDN AI400X3存储设备与Insight软件平台,与NVIDIA B300及GB300 NVL72系统完美融合。这些方案已通过大规模实践验证,目前全球已有上百万个GPU采用该架构,成功助力CoreWeave和Nebius等NCP为其客户提供稳定可靠的高可用GPU云服务。
无论您是像Vultr这样为新兴AI初创企业构建千卡级入门集群的NCP,还是如Core42这般为超大规模企业客户部署41,000卡云区域的行业领导者,这些参考架构都能确保获得可预测的性能表现、无缝的扩展能力和坚如磐石的可靠性,契合提供"AI即服务"的云服务商的独特需求。接下来,我们将深入解析为何这些设计对NCP客户而言具有颠覆性意义。
Blackwell Ultra GPU如何重塑云AI生态,及存储系统为何必须紧跟步伐
NVIDIA Blackwell架构并非渐进式改良,而是一场彻底的技术革命,特别适合提供差异化GPU云服务的NCP。集成在HGX B300八卡平台中的B300 GPU,每个芯片配备279 GB HBM3e显存,提供约8 TB/s的带宽(达到前代产品的两倍),并为高要求的AI工作负载显著提升FP4/INT8计算吞吐量。与此同时,GB300 NVL72机架整合72个Blackwell Ultra GPU和36个Grace CPU,通过液冷散热和NVLink互联设计,为大规模的云级AI应用提供惊人算力,支持高达20 TB的GPU显存容量和576 TB/s的总带宽。
对NCP客户而言,这意味着:
- 算力吞吐飞跃:更高的FP4吞吐量和更强的INT8性能,可实时处理万亿参数模型,吸引高端AI客户;
- 能效与空间优化:较前代产品显著提升能效,降低云服务碳足迹,同时实现在更紧凑的机架内部署更多算力(每个GB300机架功率约150 kW),提高数据中心空间收益;
- 统一互联架构:NVLink 5.0为每个GPU提供1.8 TB/s双向带宽,这就要求存储系统能够无延迟地跨架构输送数据,确保客户工作负载的服务等级协议。
正如NVIDIA企业参考架构所强调的,NCP的成功离不开经过验证的、支持多客户隔离和弹性扩展的端到端设计方案。若缺乏优化存储,Blackwell GPU将因I/O等待而闲置,计算周期浪费可能导致生产效率降低50%以上,这种GPU利用率低下的状况将直接损害客户信任和利润空间。DDN AI400X3从根本上解决了这一难题,其架构专为云环境中“加速、任意规模AI”需求而设计。我们的共享并行架构确保从NVMe驱动器到Blackwell GPU容器化应用的每个层级都能协同工作,在大规模并发场景下提供高吞吐、低延迟的数据服务,并内置完善的多租户支持。
为百亿亿级Blackwell Ultra GPU加速提供核心动力:DDN的独特价值
DDN全新参考架构并非通用解决方案,而是与NVIDIA深度合作研发的成果,通过HGX兼容性认证,并经过多云拓扑环境验证,可帮助Vultr、Core42等NCP加速部署进程、服务更多客户。核心组件DDN AI400X3存储设备单单元即可提供超过1 TB/s的读取吞吐性能,并支持跨机架的线性扩展。结合DDN Insight智能管理平台,提供直观的系统监控、预测性分析和与NVIDIA AI Enterprise、NVIDIA Spectrum-X以太网及NVIDIA Quantum-2 InfiniBand的无缝集成,满足按客户分配独立存储池的需求。
经过验证的认证部署方案
新架构覆盖NCP业务发展各阶段需求,从概念验证到生产环境全面支持:
- 1,152卡(GB300 NVL72)或1,024卡(B300 HGX)集群:适合初步尝试Blackwell技术的新兴NCP,通过LACP绑定实现多路径网络,从容应对客户突发需求;
- 16,128卡(GB300)或16,384卡(B300)区域部署:满足Nebius等企业级用户需求,在提供高达100 PB原始容量同时确保冗余设计,实现99.999%运行时间,支持跨租户动态资源分配;
- 41,472卡超大规模部署:为CoreWeave级别的超大规模运营做好准备,集成用于读缓存的热节点和NUMA感知优化,轻松处理全球客户的EB级数据集。
每个方案均提供详细的存储规格指南和网络拓扑规划,确保在多租户云环境中实现开箱即用的部署体验。
端到端优化:提高云服务中Blackwell Ultra GPU利用率
为何DDN AI400X3能在NCP眼中脱颖而出?关键在于其与NVIDIA深度协同优化的集成方案——该方案可消除工作流阻碍,助力客户高效完成上线部署:
- 共享并行架构:实现从驱动器到GPU的真正端到端并行处理,配备冗余设计和自动故障切换,确保可靠性。数据在高吞吐、低延迟状态下持续流动,保证所有Blackwell计算周期完全有效,彻底杜绝客户使用高峰期的GPU资源闲置;
- 流线型深度学习流水线:通过统一文件接口实现数据摄取、训练和检查点等阶段的并发执行。神经网络变体的并行训练可将研发效率提升5倍,且完全避免数据移动开销——特别适合提供托管AI服务的NCP;
- 多路径网络与LACP聚合:通过聚合多个HGX/GB300接口,使单节点总带宽突破800 Gb/s。动态负载均衡和健康监控使高性能网络架构的部署管理简单高效,全面支持实现租户隔离的软件定义网络;
- NUMA感知客户端与热节点:自动实现I/O本地化,减少延迟,同时为重复读取操作(如训练数据集)提供本地NVMe缓存。这不仅大幅降低网络流量,还将检查点速度提升15倍,为关键业务释放共享存储资源,所有优化对应用和用户完全透明,有效降低客户成本;
- 智能驱动管理:提供丰富的缓存利用率指标、预测性扩展能力和调度器集成功能,赋能NCP优化数据加载策略、精准预测需求,并在多客户环境中实时提高投资回报。
实测数据显示,这些特性可带来恢复周期加快15倍、GPU利用率高达99%的效果,让您的Blackwell投资真正成为如Core42主权AI云服务的利润增长引擎。
Blackwell + DDN AI400X3:为NCP云构建可扩展、高可靠、面向未来的基础设施
对NCP而言,升级至NVIDIA Blackwell不仅是追求速度提升,更是构建无限扩展的云平台,以更低总体拥有成本服务更多客户。DDN AI工厂解决方案参考架构支持从机架级验证到多区域大规模部署的灵活扩展,无需架构重构即可实现容量无缝扩展。通过高能效设计降低TCO,经过交钥匙验证简化运营,并通过确保每个Blackwell GPU为终端用户持续提供峰值性能来提高投资回报率。
这些架构蓝图已成功应用于NVIDIA旗舰部署,现专门为Vultr、CoreWeave、Nebius、Core42等NCP量身定制,将超级计算级技术引入您的云平台:这套支撑全球顶级AI工厂的相同技术栈,现已为您的Blackwell演进之路和以客户为中心的服务全面优化。
常见问题解答:
DDN参考架构如何提升Blackwell部署中的GPU利用率?
DDN AI400X3架构提供高吞吐、低延迟的存储服务,确保持续稳定地向Blackwell GPU输送数据,消除I/O瓶颈,减少GPU闲置。即使在多租户云工作负载环境下,也能实现高达99%的GPU利用率。
热节点在GPU加速扩展中发挥什么作用?
热节点通过在计算节点近端提供智能NVMe缓存,有效减少网络流量,加速重复数据读取,为Blackwell GPU集群提供最高15倍的检查点加速效果。
这些架构如何解决大规模云环境的GPU资源闲置问题?
通过并行文件访问、NUMA感知客户端和多路径网络的协同设计,DDN确保持续以线速向Blackwell GPU输送数据,防止资源闲置,为所有租户提供稳定可靠的性能保障。
DDN参考架构是否通过NVIDIA HGX平台认证?
是的。这些架构与NVIDIA共同研发,已通过HGX兼容性认证,并在包括B300和GB300部署在内的多种云拓扑环境中完成验证。
该架构是否支持从小型GPU集群到超大规模部署的平滑扩展?
完全支持。DDN蓝图涵盖从千卡级入门集群到40,000+卡超大规模部署的全场景需求,NCP可在无需重构存储架构的前提下,无缝扩展GPU加速能力。
DDN参考架构是否通过NVIDIA DGX SuperPOD认证?
是的。这些架构与NVIDIA共同研发,已通过DGX SuperPOD兼容性认证,并在包括B300和GB300部署在内的多种云拓扑环境中完成验证。


全部评论