为了进一步推动液冷技术发展和生态成熟,浪潮信息联合英特尔深耕通用高密服务器液冷优化设计

除了业界目前广泛尝试的CPU和GPU液冷,对高功耗内存,固态硬盘,OCP网卡,PSU电源,PCIe和光模块液冷也进行了深入的探索和研究,打造行业最高液冷覆盖率,满足用户多种液冷覆盖占比部署要求,为互联网、通讯等行业客户提供通用基础能力及多样化技术支持。

此次全液冷冷板系统开发是基于浪潮信息2U四节点高密计算服务器i24,每个液冷节点支持两颗英特尔第五代至强平台可扩展处理器,搭配16根DDR5内存,1张PCIe扩展卡和1张 OCP3.0网卡。整机可支持8张SSD固态硬盘,在实现高密算力的同时满足客户存储需求。服务器主要的发热部件包括CPU、内存, I/O 板卡, 本地硬盘,机箱电源等。

液冷方案实现了系统中95%左右的热量通过冷板接触热源由液体直接带走,剩余5%左右的热量经由PSU电源后置的风液式换热器里面的冷却水带走,系统级即可实现接近100%液冷热捕获率。

1. 系统组成及管路布局

1)全液冷服务器整机介绍

2U四节点全液冷服务器系统由节点、机箱、中背板、固态硬盘模组组成。节点和机箱组件间 通过快接头、电源及信号连接器实现水、电、信号盲插。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

2)全液冷服务器单节点介绍

全液冷服务器的节点由节点外壳、主板、CPU芯片、内存模组、内存冷板、CPU冷板,IO冷板,电源及电源后置换热器等组成。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

2. 通流方式选择及流量计算

为了简化流路设计的复杂性,此全液冷服务器的散热冷却工质流路选用串联流路设计,冷却 工质整体由低功耗器件往高功耗器件流动和散热,详细流动方向见下图及表所示。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

全液冷服务器流量需要满足系统散热需求:

1)为了确保二次侧管路材料的长期可靠性,二次侧回水温度不超过65⁰C;

2)确保全液冷服务器各零部件在定义的边界条件下满足散热需求,选取铜冷板 PG25作为流量设计分析。

为了满足二次侧回水温不超过65⁰C要求,通过下列公式计算出单节点PG25最小流量Qmin:Qmin=Psys/(ρ*C*∆T) ≈1.3 (LPM)

3.全液冷服务器冷板关键部件设计

1)CPU冷板设计

CPU冷板模组是基于英特尔第五代至强平台可扩展处理器冷板的设计要求,综合考虑散热, 结构性能,成品率,价格及不同材质冷板设计兼容性等因素优化而成的一款CPU冷板参考设计,主要由CPU冷板铝支架,CPU冷板及冷板接头等部件组成。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

2)内存液冷设计

内存液冷设计采用的是创新型的枕木散热器液冷方案,因内存插满如铁轨上的枕木而得名。它 将传统风冷散热和冷板散热相结合,通过内置热管的散热器(或纯铝/铜板、Vapor Chamber 等) 把内存上的热量传递至两端,与冷板通过选定的导热垫片接触,最终通过冷板内的冷却工质把 热量带走实现内存散热。

内存跟散热器可在系统外通过治具进行组装形成最小维护单元(下文称之为内存模组)。内存 冷板上设计有内存模组固定结构可确保散热器和内存冷板之间良好接触,内存模组固定结构根 据需要可以用螺丝固定或者无工具维护。内存冷板顶部给内存散热,底部则可以根据需要给主 板其他发热元器件散热,比如VR,最大化利用内存冷板。为简化内存冷板设计,内存和主板之 间可以设计转接支架来满足不同主板的限高区。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

与市场上现有的管路(Tubing)内存液冷方案相比,枕木散热器液冷方案的主要优势有:

  • 易于维护。内存维护时只需像维护风冷内存一样维护内存模组,无需将散热器和扣具取下,极 大地提高了液冷内存组装效率和可靠性,降低了内存在系统内拆装时可能对内存颗粒和导热垫 片造成的损伤。
  • 通用性好。不同内存的颗粒厚度和内存间距不影响该方案的散热性能,该方案最小适应7.5毫 米的内存间距,往上兼容。散热器和冷板解耦设计,可重复利用和内存液冷标准化。
  • 更高的性价比。内存散热器可根据内存功耗选取不同的工艺和散热技术,且数量可根据内存按 需配置。在7.5毫米内存间距情况下,即可满足30W以上内存的散热需求。
  • 易于制造和组装。内存插槽之间没有液冷管路,无需复杂的管路焊接和工艺控制,可以采用传 统风冷散热器和通用的CPU冷板制造工艺。组装散热器时,散热性能对散热器和主板在垂直于 内存颗粒平面方向的公差不敏感,不会出现热接触不良,更容易组装。
  • 可靠性好。枕木液冷方案避免了组装过程中可能对内存颗粒和导热垫片造成的损伤,并可满足 多次插拔需求。此外,它还避免了内存和管路液冷散热方案安装后内存与插槽间由于倾斜而造 成信号接触不良的风险,极大地提升系统可靠性。

3)硬盘液冷设计

创新的固态硬盘液冷方案是通过内置热管的散热器把硬盘区域的热量导出与硬盘区域外的冷 板通过导热垫片垂直接触实现换热。

此固态硬盘液冷方案主要由装有散热器的固态硬盘模组,固态硬盘冷板,硬盘模组锁紧机 构,及硬盘支架组成。硬盘模组锁紧机构固定在硬盘支架上提供合适的预紧力来保证固态硬 盘模组和固态硬盘冷板的长期接触可靠性。为了方便硬盘冷板环路在狭小空间内的安装,硬 盘支架在服务器深度方向采用了抽屉式的安装方式设计。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

相比业界已有的硬盘液冷尝试,此方案的先进性主要体现在:

  • 可支持30次以上系统不断电热插拔
  • 硬盘安装过程中对导热界面材料无剪切破环风险,锁紧机构的设计可以保证长期的接触 可靠性
  • 液冷散热方案对加工工艺要求低,只需采用传统的风冷和CPU冷板加工工艺
  • 硬盘间无水设计,多硬盘可供用同一冷板,减少了接头数量,降低漏液风险
  • 可灵活适配不同厚度和数量的固态硬盘系统

4)PCIe/OCP卡液冷设计

1.1 PCIe液冷方案

PCIe卡液冷方案是基于现有风冷PCIe卡,通过开发一款可以与系统冷板接触的PCIe卡散热模 块来实现对光模块及PCIe卡上主要芯片的散热。光模块的热量通过热管传导到与PCIe卡主芯 片上的散热模块主体,散热模块主体与IO冷板通过合适的导热界面材料接触实现换热。液冷PCIe卡主要由QSFP散热板夹子、PCIe芯片散热模块及PCIe卡组成。QSFP散热板夹子要 设计合适的弹性量,确保与PCIe散热模块上的QSFP散热板和笼子配合实现光模块安装时的合 适浮动量,以保证良好的用户体验,避免损坏光模块,并实现良好的接触稳定性而达到预期 的散热效果。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

1.2 OCP3.0液冷方案

OCP3.0卡液冷方案跟PCIe卡类似,通过给OCP3.0卡定制一款液冷散热器,把卡上发热芯片 热量传导到液冷散热器,最终通过散热器与系统IO冷板的接触把热量带走实现散热。

OCP3.0液冷模组主要由散热器模块,OCP3.0卡及其支架组成。锁紧机构由于空间限制采用 了弹簧螺钉,以保证液冷OCP3.0卡组装后散热器模块与IO冷板之间的长期接触可靠性。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

考虑到后期维护的便利性及OCP3.0卡的多次热插拔需求,锁紧机构的设计和导热界面材料的 选型也做了很多优化来提高整体方案的可靠性及运维的便利性。

1.3 IO冷板方案

IO冷板是具有多功能的冷板,不仅仅实现主板IO区域内的发热部件的散热,也实现了液冷 PCIe卡和液冷OCP3. 0卡的散热。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

IO冷板主要由IO冷板主体和铜管流道组成。IO冷板主体采用铝合金材质,铜管主要承担冷却 工质流道和加强散热的作用,具体设计需要根据主板布局及部件的散热要求进行优化。液冷 PCIe卡及液冷OCP3.0卡上的散热模块与IO冷板沿箭头方向接触。冷却工质流道材料的选型需 要考虑与系统管路冷却工质及浸润材料的兼容性。

此IO冷板液冷方案实现了多个部件在多维度的组装需求,铜铝材质的混合使用,解决了材料 兼容性问题,保证散热效果,同时帮助减轻60%冷板重量并降低了成本。

5)电源冷板设计

电源液冷解决方案是在现有风冷电源的基础上通过外接一个风液换热器来冷却PSU风扇吹出 的热风,以减少系统对外界数据中心环境的预热。

PSU后置换热器为多层结构,流道与鳍片相互叠加。PSU后置换热器的尺寸须在不影响电源 线的插拔功能和满足系统机柜空间限制的条件下,平衡散热需求,重量及成本做出最优选 择。PSU后置换热器独立组装在节点支架上。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

此创新的电源液冷解决方案,无须重新开发新的液冷专用电源,缩短开发周期,降低开发成 本;良好的通用性可以灵活适配多家厂商的电源方案,比定制化液冷电源节约成本60%以上。

针对于整机柜的应用场景,电源液冷还可以采用集中式风液换热器的解决方案,即对整机柜 前后门进行封闭,在机柜底部布置一个集中式风液换热器,借助集中式结构替代PSU后置的 分布式风液换热器结构。

集中式风液换热器是由喷涂亲水涂层强化换热的铝制波纹翅片,配合高换热系数铜管组成的 换热器,可在能够在10℃温差下提供不低于8kW冷却能力;换热器流路仿真优化,在低阻下 承载更多流量;具备防凝露设计和全方位漏液检测,杜绝安全隐患。采用特殊的铰链设计, 满足高承重要求;同时卡盘式连接设计,方便安装,易于维护。

按照单台全液冷服务器超过95%热量均由冷板解热,仅有不足5%热量需要风液换热器解热计 算,单个节点仅有40-50W风液解热量,单台集中式风液换热器支持8kW换热量,可支持不 低于150节点的电源风液散热,且成本远低于150个分布式风液散热器价格。

利用该种方案,服务器电源可以不做任何改造,产生的热量在机柜后部由集中式风液换热器 统一收集与热交换,同时该部分热量在机柜内形成自有循环,不会对机房环境造成任何影 响,真正做到“Rack as a computer”。

【浪潮& Intel】全液冷冷板式服务器是如何设计的?

版权声明:部分内容由互联网用户自行发布,该文仅代表作者本人观点。如有不适或侵权,请联系我们进行反馈,一经查实本站将予以删除。