数据中心的机架密度:何以见高峰

人工智能( AI )和高性能计算(HPC)已将计算、存储容量和网络资源的需求推向了极限。更强大的芯片是推动机架密度不断提升的主要驱动力之一。仅仅十年前,平均处理器的功耗还不到100瓦,但如今它们的功耗已经达到了约500瓦。

随着电力在有限的空间内变得更加充裕,应用开发人员不断寻找利用这一潜力的方法,并迫切需要更多的算力。Hyperion Research的首席执行官Earl Joseph指出,HPC的增长主要源于更加复杂和苛刻的应用程序的涌现。

“人工智能、机器学习和深度学习每年以接近30%的速度增长,” Joseph表示。

现在让我们一起来探讨机架密度的演变以及它可能达到的高度。

饥不择食的需求

数据中心正以前所未有的数量进行规划、建设和投入运营。根据Uptime Institute的统计数据,预计到2025年,数据中心的电力占地面积将增加50%,而2019年至2025年的全球数据产量将增长500%。数据中心的兴建数量创下历史新高,计算密度远远超越以往。为了满足这种需求,数据中心必须在每个机架或每平方英尺的空间内提供更多的算力。

十多年前,根据Uptime Institute的数据,每个机架的平均功率密度仅在4-5千瓦左右。然而,到了2020年,这个数字已经飙升至每个机架8-10千瓦。值得注意的是,在美国进行的数据中心调查中,有三分之二的数据中心表示,它们已经在每个机架16-20千瓦的功率密度范围内迎来了峰值需求。而截止到2022年的最新数据则显示,有10%的数据中心报告每个机架的功率密度已达到20-29千瓦,7%的数据中心每个机架的功率密度达到30-39千瓦,3%的数据中心每个机架的功率密度达到40-49千瓦,还有5%的数据中心每个机架的功率密度高达50千瓦或更高。显然,现代应用程序和数据量正在推动机架密度达到前所未有的高水平。

巨头主导的推力

在过去的十年里,像亚马逊、Facebook、谷歌和微软等超大规模数据中心一直在密度增长方面发挥着引领作用。他们开创了更佳冷却和供电方法,同时在有限的空间内提供尽可能多的算力。一些数据中心的机架已经演化到每个机架50千瓦甚至更高的功率密度。

然而,有趣的是,这些超大规模数据中心现在更愿意将最高密度的机架留给其他玩家。虽然他们曾将整个行业推向新的密度水平,但如今更倾向于在每个机架约30千瓦左右的密度范围内稳健运营。由于他们拥有规模庞大和高效率的优势,他们能够满足大多数用户的需求。超大规模数据中心所追求的是优化。他们需要的是高度(但不过高)的机架密度,这种密度可扩展,并且要以有吸引力的价格提供。

专业高密度数据中心

针对高性能计算(HPC)和人工智能(AI)市场,出现了专业的高密度数据中心供应商,它们正在从意想不到的领域赢得业务。

“尽管过去,HPC主要是亿美元营业额的大企业和研究机构的专属领域,但如今,越来越多规模较小的企业正在将其用于获取竞争优势,” Oper8 Global的首席执行官Mike Andrea指出。

他指出,HPC应用程序的民主化已经从大型、经济充裕的组织扩展到规模较小的研发单位,以及航天、地震工程、三维建模、自动驾驶汽车仿真、各种AI应用案例、能源、石油和天然气生产、天气预测、数据分析、医疗保健和三维电影渲染等领域。对HPC的需求不断增加。

“延迟问题仍然是HPC的主要驱动因素,与此同时,数据中心必须支持每个机架超过100千瓦的高机架密度,” Andrea表示。他的公司正在与多个客户合作,这些客户要求每个机架的功率从80千瓦到200千瓦不等。

为了在这一市场竞争中脱颖而出,高密度数据中心必须位于其客户附近,以减小延迟。因此,这些专门提供高密度服务的数据中心很可能只会在一些特定地区找到市场,这些地区有一批对高密度要求非常苛刻的客户。

逐步拓展的HPC机架

另一个趋势是,数据中心开始通过部署仅有一个或两个高密度机架来服务不断增长的HPC市场。一些边缘和合作数据中心开始实施一个高密度HPC机架单元,包括两到十二个机架,或者将高密度HPC机架与更常规密度的机架组成的集群并置。这种策略有助于数据中心满足一两个客户的需求,同时无需大规模投资对整个数据中心进行彻底重新设计。

然而,即使只引入一个或两个机架,也需要大量的工作。除了新的服务器和支持设备外,还需要进行布线和其他改进。这还要求有足够的额外电力供应,并确保HPC机架可以获得足够的冷却。因此,高密度数据中心可能需要投资计算流体动力学(CFD)技术,以增强空气和冷却流动,以避免出现热点问题。

此外,它们需要采用先进的冷却技术,甚至可能需要某种形式的液体冷却来保持新机架的温度在可接受范围内。极高温度的机架可能会导致电力配电单元(PDU)发生故障,因为机架后部积聚了大量的热空气。特别是在超过35千瓦的机架上,这一问题尤为明显。

“当高功耗元件安装在有限的空间内时,采用液冷技术可能变得不可或缺,”戴尔科技高性能计算(HPC)和新兴工作负载高级工程总监Onur Celebioglu指出。

基于水冷的方案,如主动冷却机架门、采用冷板直接液冷和液体浸没冷却,正在HPC机架中变得越来越常见。但需要注意的是,采用液冷的HPC应用可能需要更宽更深的机柜,以容纳额外的电力供应和液体管道。这些成本,再加上需要对现有数据中心进行大规模重新配置的情况,可能会使一些人望而却步,不进入HPC市场。

未来的高密度

不久前,高密度机架被认为是10千瓦或更多。与现代的密度数字相比,这看起来相当微不足道。没有人知道密度能够达到多高。但在未来几年,让我们为一些惊人的数字做好准备吧。

“如今,高密度机架大约在40千瓦到125千瓦之间,而极高密度机架甚至可达到200千瓦甚至更高,” Andrea表示。