数据中心如今已成为与电力以及通、信同等重要的社会基础设施。然而,大多数人只是将数据中心视为一个巨型计算机系统,类似日常使用的诸如计算机、笔记本电脑、智能手机等信息处理设备。实际上,数据中心采用了与个人电脑不同的专有技术,硬件构成包括三个更为关键的要素——半导体、网络、冷却技术。
数据中心 ≠≠≠ “巨型计算机”
数据中心的规模各不相同。单个公司或远程办公室使用约100台服务器的微型数据中心,大型数据中心则可能拥有5000多台服务器,有些设施甚至部署多达百万台服务器。因此,人们很可能顺理成章地认为数据中心相当于“巨型的计算机”。
无论规模大小,这些数据中心都配备了执行信息处理的大量服务器和存储数据的存储器,并通过复杂的网络相互连接在一起。并且,根据情况的不同,有时会单独执行多样且庞大的处理任务,有时则多台设备协同工作,灵活有效地处理众多用户发起的多样化任务(信息处理作业)。
对比数据中心这种专有的运行模式,普通个人电脑与数据中心在系统架构、构成要素及设计理念上产生了差异(下图)。
我们日常使用的电脑原本就是以个人使用为前提设计的。因此,它具有易于识别使用目的和处理任务的特点,同时也便于定制所需电脑的配置规格。例如,经常外出办公的用户会选择便携性出众的笔记本电脑,而热衷3D游戏的玩家则会购买图形处理功能强劲的游戏电脑。
相比之下,数据中心需要迅速有效地处理来自众多用户的多种多样的任务。在多数情况下,业务内容迥异的多家企业会共用同一数据中心的服务器。因此,需要并行设置大量搭载了高通用性CPU(Central Processing Unit)的服务器,通过无缝连接多个服务器来应对待处理任务的变化。这种由多台高通用性服务器组成的系统架构,还具有能够根据需求的增长而灵活扩展服务器的可扩展性优势。
此外,由于待处理数据量庞大,引入能够实现高速、大容量数据传输的网络技术显得至关重要。通常,会采用100Gbps以上的高速互联网线路。此外,下一代数据中心正朝着引入光通信技术的方向发展,以满足高速、大容量、低延迟、能源节省和高安全性的需求。
为了迅速处理数据中心的大量任务,还需要一种能够在CPU和存储器之间更高速读写数据的机制。因此,近年来出现了在CPU邻近的DRAM与存储器之间使用新式内存的趋势,这类被称为SCM(Storage Class Memory)的技术兼具高速数据访问与大容量存储功能,旨在提升系统的性能和效率。
近年来,人工智能(AI)相关任务急剧增加,搭载了GPU(Graphics Processing Unit)和TPU(Tensor Processing Unit)等虽需略微牺牲通用性却能有效执行AI相关处理的芯片的服务器应用案例也日益增多。在AI相关处理中,GPU等与内存之间或内存与存储器之间的数据传输,相比传统任务需要更高速且更大容量的数据交换。因此,引入了更高带宽的网络。通常来说,专门用于此类AI相关处理的服务器与通用服务器混合部署的情况较为少见,它们往往作为AI数据中心被单独设置。
核心理念:“可靠性”与“冗余化”
个人电脑并不需要24小时365天持续使用。此外,即便发生故障,基本上只会给用户带来困扰。数据中心发生严重缺陷或故障,可能会给整个社会带来严重混乱。
首先,数据中心需要持续稳定地处理支撑人们生活和社会活动的各项任务。因此,服务器内用于处理信息的CPU、内存,以及存储数据的存储器等,都需要具备能够持续运行的高可靠性。特别是内存方面,会使用具备保护数据完整性、检测并纠正比特误码功能的ECC(Error-Correcting Code)DRAM。用于存储器的闪存也需选择能够承受频繁数据访问的类型。
其次,在系统方面,数据中心需要引入了预防缺陷和故障发生的机制。数据中心所使用的服务器配备了高性能的冷却系统。特别是在AI数据中心,高负荷连续运行已成为常态,除了常规的风冷系统外,还会采用液冷或将服务器直接浸入高导热液体中进行散热的浸没式冷却等精良技术。
此外,数据中心采用冗余系统结构,可在发生故障时迅速切换至备用设备。具体而言,数据中心系统采用了虚拟化技术,可在服务器发生缺陷时,将正在执行的任务迅速切换至另一台服务器。另外,若用于运行服务器等的电源系统发生故障,根据情况不同,可能会造成无法挽回的损失。因此,数据中心还引入了冗余电源系统,并且为了确保在停电时数据中心仍能持续运行一段时间,在系统的电力接入端还设置了UPS(不间断电源装置)。
当今的数据中心都已引入多项专有技术,核心硬件架构中的半导体、网络、和冷却系统三大要素是保障数据中心稳定运行的关键。
可以预见,未来还需开发更多面向多方面课题解决的技术。特别是在近年来,以减少电力消耗为首的环境负荷降低技术的重要性日益凸显。预计将逐步引入新技术,例如搭载能源节省设计芯片的服务器,以及采用直流供电以减少电源系统中电力转换次数等措施。
OCP(Open Compute Project)是一个促使有效硬件规格和设计的开源社区,旨在满足日益增长的数据中心需求。据称,符合OCP规格和设计的硬件可为大型数据中心带来高处理能力、高经济效益和低能耗。村田是OCP(开放计算项目)的成员之一,下期,我们将为您介绍什么是符合OCP的数据中心集中供电系统?
全部评论