xAI Colossus 10万级GPU集群一览（gpu集群软件）

YouTube的ServeTheHome用户近日对xAI Colossus超大型集群中心进行访问，对集群的液冷机架、计算、存储、网络等多方面做了详细介绍。虽然根据保密协议，功耗、CDU尺寸等详细信息未做披露，而且发布前部分内容做了模糊处理，但不影响对集群的大体认识。

supermicro为集群打造提供了很大帮助，包括supermicro 4U通用液冷服务器、supermicro 1U NVMe存储节点等。经过 122 天的组装，xAI Colossus的第一阶段已经完成，超级集群也已上线近两个月。下一阶段计划将系统规模增长至20万级别，新增5万个H100和5万个H200，musk承诺的30万个H200可能要到第三阶段了。

supermicro液冷机架

GPU服务器采用HGX H100，每个服务器包含8个H100 GPU。HGX H100平台封装在Supermicro 的4U通用GPU液体冷却系统内，为每个 GPU 提供轻松的热插拔液冷方案。

每个机架可容纳 8 台服务器，也即每个机架可容纳64个GPU。1U manifold位于每个HGX H100之间，提供服务器所需的液冷方案。每个机架的底部是另一个 Supermicro 4U单元，带有冗余CDU泵系统和机架监控系统。每台服务器都有四个冗余电源，GPU 机架的后部有三相（3-phase）电源且也可热插拔、以太网交换机和机架大小的mailfold用于提供所需液冷。

机架按8个一组排列组成机架阵列，共可以容纳8*64 = 512个GPU，通过网络可以将集群规模扩大。Colossus集群内有超过 1,500个GPU机架，差不多近200个机架阵列。

下图则展示了supermicro在sc23分享的cpu托盘，包含两个x86 cpu液冷设计原型。比较独特的设计点是右侧在主板上集成了4个broadcom pcie交换机，并使用定制的冷却块做冷却。其他的AI服务器一般采用风冷+液冷技术方案，而该设计则全部采用液冷，且来自supermicro同一家供应商。

以太网网络

集群整体采用以太网连接，每个GPU都有一个 400GbE 的专用 NIC（基于bluefield3 supernic和spectrum-x网络），每台服务器还有一个专用的 400Gb NIC，也就意味着每台 HGX H100 服务器都拥有每秒（8个nic+1个专用）* 0.4 = 3.6Tbps的以太网。

训练grok模型时，采用3层网络架构，系统未出现因流量冲突导致的延迟增长或丢包情况，凭借spectrum-x的先进拥塞控制能力，系统吞吐一直保持在95%。

网络带宽大部分为RDMA网络，且CPU间也通过400GbE做连接。

基于supermicro的存储

下图展示了2.5英寸NVMe存储托架及1U NVMe存储节点，目前AI集群中存储已从磁盘转向flash，除了节能方面考量外，同时还提供更高性能和存储密度。

基于supermicro的cpu计算

集群中虽然利用gpu做计算，但仍存在大量的cpu节点用来处理数据等任务。下图则展示了当前colossus数据中心的cpu计算机架，橙色部分为NVMe存储托架。

基础设施

由于采用液冷机架，所以对于电力和水基础设施也非常重要，下图则展示了水管设施，里面有凉水和温水不同的管道，通过CDU循环进行水回路的运行，以达到冷却的作用。

同时值得借鉴的一点是，AI服务器并非以24*7 100%额定功耗运行，而是存在电力消耗的波峰和波谷。为了减少ms级功率峰值和功率下降对集群的影响，数据中心利用tesla megapack（每个最多可容纳 3.9 MWh）集装箱在电网和数据中心间做储能缓冲管理。

更多资料：

https://www./inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/

微精选

xAI Colossus 10万级GPU集群一览

发表回复取消回复

标签云

最近文章

分类

微精选

xAI Colossus 10万级GPU集群一览

相关文章

发表回复 取消回复

发表回复取消回复