YouTube的ServeTheHome用户近日对xAI Colossus超大型集群中心进行访问,对集群的液冷机架、计算、存储、网络等多方面做了详细介绍。虽然根据保密协议,功耗、CDU尺寸等详细信息未做披露,而且发布前部分内容做了模糊处理,但不影响对集群的大体认识。

supermicro为集群打造提供了很大帮助,包括supermicro 4U通用液冷服务器、supermicro 1U NVMe存储节点等。经过 122 天的组装,xAI Colossus的第一阶段已经完成,超级集群也已上线近两个月。下一阶段计划将系统规模增长至20万级别,新增5万个H100和5万个H200,musk承诺的30万个H200可能要到第三阶段了。

supermicro液冷机架

GPU服务器采用HGX H100,每个服务器包含8个H100 GPU。HGX H100平台封装在Supermicro 的4U通用GPU液体冷却系统内,为每个 GPU 提供轻松的热插拔液冷方案。

每个机架可容纳 8 台服务器,也即每个机架可容纳64个GPU。1U  manifold位于每个HGX H100之间,提供服务器所需的液冷方案。每个机架的底部是另一个 Supermicro 4U单元,带有冗余CDU泵系统和机架监控系统。每台服务器都有四个冗余电源,GPU 机架的后部有三相(3-phase)电源且也可热插拔、以太网交换机和机架大小的mailfold用于提供所需液冷。

机架按8个一组排列组成机架阵列,共可以容纳8*64 = 512个GPU,通过网络可以将集群规模扩大。Colossus集群内有超过 1,500个GPU机架,差不多近200个机架阵列。

下图则展示了supermicro在sc23分享的cpu托盘,包含两个x86 cpu液冷设计原型。比较独特的设计点是右侧在主板上集成了4个broadcom pcie交换机,并使用定制的冷却块做冷却。其他的AI服务器一般采用风冷+液冷技术方案,而该设计则全部采用液冷,且来自supermicro同一家供应商。

xAI Colossus 10万级GPU集群一览

以太网网络

集群整体采用以太网连接,每个GPU都有一个 400GbE 的专用 NIC(基于bluefield3 supernic和spectrum-x网络),每台服务器还有一个专用的 400Gb NIC,也就意味着每台 HGX H100 服务器都拥有每秒(8个nic+1个专用)* 0.4 = 3.6Tbps的以太网。

训练grok模型时,采用3层网络架构,系统未出现因流量冲突导致的延迟增长或丢包情况,凭借spectrum-x的先进拥塞控制能力,系统吞吐一直保持在95%。

网络带宽大部分为RDMA网络,且CPU间也通过400GbE做连接。

基于supermicro的存储

下图展示了2.5英寸NVMe存储托架及1U NVMe存储节点,目前AI集群中存储已从磁盘转向flash,除了节能方面考量外,同时还提供更高性能和存储密度。

基于supermicro的cpu计算

集群中虽然利用gpu做计算,但仍存在大量的cpu节点用来处理数据等任务。下图则展示了当前colossus数据中心的cpu计算机架,橙色部分为NVMe存储托架。

基础设施

由于采用液冷机架,所以对于电力和水基础设施也非常重要,下图则展示了水管设施,里面有凉水和温水不同的管道,通过CDU循环进行水回路的运行,以达到冷却的作用。

同时值得借鉴的一点是,AI服务器并非以24*7 100%额定功耗运行,而是存在电力消耗的波峰和波谷。为了减少ms级功率峰值和功率下降对集群的影响,数据中心利用tesla megapack(每个最多可容纳 3.9 MWh)集装箱在电网和数据中心间做储能缓冲管理。

更多资料:

https://www./inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/