2023年12月29日,国家发展改革委、国家数据局、中央网信办、工业和信息化部以及国家能源局联合印发了《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,从通用算力、智能算力和超级算力一体化布局,东中西部算力一体化协同,算力与数据、算法一体化应用,算力与绿色电力一体化融合,算力发展与安全保障一体化推进等5个方面统筹出发,推动建设联网调度、普惠易用和绿色安全的全国一体化算力网。传统数据中心组网主要需求包括:
① 高带宽和低延迟:数据中心组网需要提供高带宽和低延迟的网络连接,以满足大规模数据传输和实时应用的需求,包括快速的数据存取、实时数据备份和恢复以及远程访问等。
② 冗余和高可靠性:数据中心组网需要具备冗余和高可靠性,以确保数据中心的连续性和可用性,
包括冗余网络链路、备份设备和冗余电源等,保证其可以应对网络故障、硬件故障或电力故障等情况。
③ 可扩展性:数据中心组网需要具备可扩展性,以适应不断增长的数据量和业务需求,包括快速部署新设备、添加新网络节点和调整网络容量等,以满足不断变化的需求
。
④ 虚拟化和软件定义:数据中心组网通常采用虚拟化和软件定义网络(SoftwareDefinedNet
work,SDN)等技术,提供灵活性、管理简化和资源优化的特性,包括虚拟网络、虚拟机迁移和网络切片等功能,以提高网络资源利用率和性能。
随着由数十亿到数万亿个参数组成的大模型
(Large-ScaleModel,LSM)的出现,需要极其庞大的参数量和计算能力支撑。LSM的出现主要得益于计算硬件的不断发展和可用性的提高以及对更复杂任务和更大规模数据的需求。人工智能计算(ArtificialIntell
igent Computing,AIC)利用人工智能和机器学习技术来提升计算系统的智能化和自动化能力。AIC在各个领域取得了显著的进展,
并在人工智能应用中发挥了重要作用。
在LSM/AIC的背景下,数据中心组网还面临一些新的挑战:
① 高带宽和低延迟:智算数据中心(Artificial
IntelligentDataCenter,AIDC)之间的通信带宽呈现层级式递增趋势,接入交换机单端口速率将从10/25Gbit/s向25/100Gbit/s过渡,汇聚交换机单端口速率将从40/100Gbit/s向100/200Gbit/s扩容,而数据中心间出口路由器则会持续向400/800Gbit/s,甚至1.6Tbit/s演进。通常为了满足实时数据传输和处理的要求,确保训练过程的高效性,需要端到端ms级时延,分解到端侧、交换节点的时延要求会进一步提升,目前主流交换技术的极限为ns级,结合缓存和调度,能够实现节点间ns级切换已属不易。
② 可扩展性和可重构性:LSM的深度学习模型和AIC的计算需求可能会发生较大的变化,以现
在超算数据中心(SuperComputingDataCenter,
SCDC)的基本配置来看,一个架顶(TopofRack,
ToR)交换机下挂10个服务器,每个服务器含有8个100Gbit/s出口的图形处理器单元(Graphics
ProcessingUnit,GPU),而一个机架集群至少含有上百个机柜,按100个计算,总出口容量将达到800Tbit/s。此规模的节点需要数据中心组网具备弹性和可扩展性。网络架构和资源配置应能够根据需求进行自动调整和适应,以满足不同规模和复杂度的计算任务。同时还需要具备可重构性,即可根据需求重新配置网络拓扑和资源,以适应不同的应用场景,此灵活性可让数据中心快速适应不断变化的工作负载和需求。
③ 分布式计算:LSM深度学习模型的训练和2400推理通常需要分布式计算资源,涉及多台服务器的
协同工作。数据中心网络需要支持分布式计算框架,
使各个节点之间能够高效地进行通信和数据交换。
④ 网络虚拟化和软件定义智能管理:LSM和AIC对资源的灵活配置和利用率的最大化提出了要求,数据中心组网正朝着网络虚拟化和软件定义的方向发展,以实现更高的灵活性和可管理性。通过虚拟化网络功能和使用SDN技术,数据中心可以更加灵活地配置和管理网络资源,实现网络资源的动态分配和优化。
⑤ 能耗:随着数据中心规模的不断扩大,能源
消耗的增长十分显著。2021年12月,国家发改委四部门发布新政提出,到2025年,全国新建大型、超大型数据中心平均能源使用效率(PowerUsageEf
fectiveness,PUE)值降至1.3以下,国家枢纽节点还将进一步降至1.25以下。谷歌公司的数据中心机房PUE年平均值达到1.21,美国惠普的新一代数据中心机房夏季PUE值可以达到1.6~1.7。我国与世界先进数据中心机房的能耗水平还存在差距,新型数据中心组网需要考虑资源利用效率并降低能耗,以降低运营成本。
综上所述,在LSM和AIC背景下的数据中心组网面对新挑战和新需求,需要网络技术的发展和
创新,以不断适应LSM计算和数据处理的要求。
1 光电融合交换网络基础架构
光电融合交换多应用在以脊-叶(Spine-Leaf)
网络架构为主的数据中心中,脊(Spine)交换机具有高吞吐量、低延迟且端口密集的特点,其与每个叶
(Leaf)交换机都有直接的高速(40~400Gbit/s)连接。Leaf交换机与传统ToR交换机非常相似,其通常是24或48端口1、10或40Gbit/s的接入层连接。面对成倍增长的通信容量,Leaf或Spine层交换机可以完全或部分由光交换机替代,同时在各层交换机上或统一调度层部署适应于光电融合交换的路由策略和交换机制,来满足光交换技术的波长交换特点。为了满足以上需求,国内外高校、科研机
构和商业公司相继推出不同的解决方案,从不同的维度提升交换节点性能。
在光电融合交换方案中,光交换功能模块的主要方案分为光电路交换、光突发交换(OpticalBurst
Switching,OBS)和光包交换(OpticalPacketSwitc
hing,OPS)3种。光电路交换的交换粒度较粗,导致包交换完成时间长,带宽利用率低,但实现复杂度低,易于部署。相比之下,OPS得益于较细的交换粒度,可以快速完成带宽利用率较高的业务流交换。然而,其实现的复杂性和较高的控制开销限制了其在未来LSM光交换AIDC的实际应用。作为一种折衷,OBS的特点介于光电路交换和OPS技术之间。
2 基于光电路交换的方案
2.1 Helios方案
Helios是2010年前后由美国加利福尼亚大学研究团队提出的一种基于模块化数据中心混合光电交换机的体系架构,是最早提出光电融合交换的几
种方案之一,其网络架构如图1所示。
Helios作为一个由节点(PointofDelivery,
PoD)交换机和核心交换机(CoreSwitch,CS)组成
的2级多根树,其CS由传统的电交换机和基于微
机电系统 (Micro-Electro Mechanical System,
MEMS)的光电路交换机(OpticalCircuitSwitch,
OCS)组成。每个PoD内部都有许多服务器通过铜
缆连接到PoD交换机。PoD交换机包含多个光收
发器连接到核心交换阵列,其中一半的上行链路连
接到电包交换机(ElectricalPacketSwitch,EPS),
每个EPS也需要一个光收发器,另一半上行链路通
过无源光波分复用(WavelengthDivisionMultiple
xing,WDM)器连接到光交换机,称为超级链路。超
级链路的容量大小受到WDM和波长数量的限制。PoD之间通过CS连接,电交换部分为PoD交换机间通信的突发部分提供全对全带宽,光交换部分负
责处理需要高带宽且持续时间长的流量。
通过实验对比和评估Helios与电交换网络在传统多根树拓扑结构中的性能,结果表明,结合
WDM收发器的MEMS光交换机给每个端口提供可扩展带宽的成本和功耗明显低于电交换机,例如一个含有48个10GE端口的电交换机每端口耗电量12.5W(不含光模块功率),而 Helios只有240mW。在PoD交换机间通信稳定的情况下,Helios可以提供与非阻塞电交换相当的性能(除去内部信号处理时间,交换时延约30ms),且成本相比电分组交换降低1/3,约四千万美元。
但Helios方案也存在一定缺陷:一是端口规模有限,无法大规模组网;二是交换配置时间长,光带宽利用率低;三是MEMS插损较大。
2.2 C-Through方案
莱斯大学、卡耐基梅隆大学和匹兹堡英特尔实验室的研究团队同期提出一种集成了光电路和分组交换的光/电混合网络架构,并通过构建一个名为C-Through的原型系统验证了该网络的可行性,其网络架构如图2所示。
该网络ToR的电交换网络使用传统的树状分层结构,底部的光交换网络通过MEMS光交换机与
ToR交换机连接。由于每个机架在一个时刻最多
只能有一条连接到其他机架的高带宽光链路,需要
通过光网络的重新配置来匹配不同的机架,这一过
程需要几ms,在此期间快速路径是不可用的。因此
为了确保对延迟敏感的应用程序能正常运行,保留
了电交换网络,任何节点都可以在任意时刻通过分
组交换链路与其他节点通信。
尽管C-Through能够在提供高通信带宽的同时保持网络的低复杂度,但在实际部署中却遇到了较多的挑战。主要原因在于数据中心的实际流量远比初始设计架构时的假设流量复杂,需要从应用层、任务调度层和网络层多个维度解析应用的流量需求,目前还未有关于该问题解决方案具体配置细节的报道。
Helios和C-Through的关键区别是,Helios在交换机上实现流量估计和流量解复用功能。这种方法使流量控制对终端主机透明,但需要修改所有交换机。C-Through的优点是,通过缓冲主机中的数据可批处理流量,并在光链路可用时有效地填充光链路。
2.3 Mordia方案
Mordia是2013年由加州大学圣地亚哥分校和谷歌的研究团队提出的光电路交换原型,其网络架构如图3所示。
Mordia光电路交换原型是一个24端口OCS,
由一个通过6个站点传输N(N=24)个波长的环组成,利用6个1×4交换机和旁路端口构建单个24×24端口交换机,支持输入到输出端口映射的任意重新配置,为了解决MEMS光交换机链路切换速度慢的问题,采用了具有μs级配置延迟的WSS交换机,
切换时间为11.5μs。每个波长都是连接输入输出
端口的单独通道,每个输入端口都被分配了特定的
波长,该波长不被其他输入端口使用。输出端口可
以调谐以接收环中的任何波长,并从任何输入端口
传输数据包。每个源ToR交换机以自己的波长传
输,每个站点将4个波长的子集转发给与其相连的
ToR,来自每个端口的流量在返回到源之前传输整个环。
Mordia是对Helios、C-Through和光交叉结构
(OpticalSwitchingArchitecture,OSA)等研究的补充,该结构采用的调度方式都是热点调度(HotSpot
Scheduling,HSS)方法,这种被动策略通过测量机架间的流量需求矩阵来识别流量热点,重配置光交换机为流量矩阵热点建立光链路,从而最大化总体吞吐量。但是这种方法可能存在局部最优等问题,
导致电路非饱和,在当前配置的持续时间内剩余容量反而被浪费掉。Mordia采用的流量矩阵调度
(TrafficMatrixScheduling,TMS)主动调度方法克服了这一问题,提高了网络利用率。但是该结构的扩展性较差,考虑 WDM最多只能扩展到44个端口,超过88个端口就需要扩展成多环,但是这种堆叠体系结构是阻塞的,不能实现任意的输入输出端口映射。虽然可以通过可调谐激光器引入新的自由度,但代价是额外的光学和算法复杂性。
2.4 RotorNet
RotorNet是加州大学圣地亚哥分校的研究团队提出的一种可扩展的、基于OCS的低复杂度光数据中心网络,其互连架构如图4所示。
RotorNet采用传统的基于分组交换的ToR交换机实现与服务器的电互连,ToR交换机之间则通过Rotor交换机实现光互连。每个ToR交换机连接到一组Rotor交换机,可以在指定的时间间隔内提供任意一对ToR之间的直接连接。这种结构不需要通过重新配置光交换机来匹配网络流量,且允许完全分散的控制平面,可以最大化网络吞吐量。每个交换机都通过一组固定的静态配置轮循,这些配置在所有端点之间提供统一的带宽。这种设计消除了集中的控制平面,因为轮循交换机调度不需要需求估计、调度分配或全网同步。
RotorNet作为一种运行开环切换调度的设计,
将光电路交换机的控制与网络的其他部分解耦,极大地简化了网络的控制和部署,同时带来更高的可扩展性。通过模拟不同通信类型的实验表明,对于数据中心流量模式,RotorNet提供的吞吐量是理想的电交换网络的70%~95%,但是成本更低,与成本大致相同的胖树(Fat-Tree1)结构相比,RotorNet在最坏情况下能提供1.6倍的吞吐量,在数据中心流量模式下提供2.3倍的吞吐量,在均匀流量下提供高达3倍的吞吐量。
SpaceOptical,FSO)的可重构光互连架构,其架构如图5所示。
cromirrorDevice,DMD)和镜面组件组合作为发射器实现高敏捷性和高扇形输出,使所有机架对建立直接链接,并能在12ms内重新配置这些链接。DMD包含成千上万个可以独立调整开关状态的微镜,可以通过对微镜的精确控制调整衍射光的方向,
与基于MEMS的光交换机相比,DMD的特性使其适用于超高端口数光交换机。但是由于DMDs的角度范围有限,限制了物理空间的覆盖范围。为了不使其扇出优势失效,在数据中心上方悬挂一个球状镜像组件,这个多面镜负责将源ToR交换机通过DMD衍射的激光反射到目的ToR交换机。
与全对分、电交换网络和FireFly相比,ProjecToR可以将流完成时间(FlowCompletionTimes,FCT)
提高30%~95%,组件成本将比全对分网络便宜
25%~40%。
新配置的无线链路连接到其他ToR交换机。为了保证FSO设备之间不互相遮挡,利用机架上方的空间建立无阻碍光路,需要在天花板部署反射镜。FSO系统的两个光纤端点直接与自由空间链路耦合,不需要经过任何光/电转换,因此节省了电力和成本。源ToR交换机通过光纤将激光束发送到自由空间,经过天花板镜面反射进入目标区域,激光束再被目的ToR交换机接收到光纤中。为了使激光束从光纤进入自由空间时的发散最小化,并使激光束在接收端点附近聚焦回光纤,在收发端设置了设计合理的透镜来准直光束。
FireFly更灵活且消除了布线成本,可扩展性更高。与光/电混合架构相比,FSO的使用避免了这种光学设计所带来的布线复杂性,通过在每个机架上部署多个FSO设备,FireFly可以创建更丰富的机架级拓扑。研究结果表明,FireFly的总成本比Fat
Tree低40%~60%,性能接近全等分带宽网络。
示。
于系统的重构方法能提升网络带宽,实现更高的网络资源利用率。
gularMomentum,OAM)空分复用,还能实现多条波束并行相位调控和调向。因此,针对现有数据中心FSO互连系统网络单一维度复用的局限性,探索支持WDM、偏振分复用(PolarizationDivisionMul
tiplexing,PDM)、OAM多维复用的、基于超表面的FSO交换,可以实现大容量数据中心内服务器间短距光互连。
也可以是机架交换机。节点通过上行链路连接到由单层阵列波导光栅路由器(Arrayed Waveguide
GratingRouter,AWGR)或光栅组成的无源核心网。每个上行端口都配有包含可调谐激光器的收发器,并通过光纤连接到光栅,因此节点可以通过改变激光的波长将数据发送到相连光栅输出的所有其他节点。
效的无阻塞连接和超快速重构。首先,所有机架之
间的带宽都是统一的,与理想的电交换网络的性能非常接近,而功耗和成本显著降低,无源的网络核心
不依赖于互补金属氧化物半导体(Complementary
MetalOxideSemiconductor,CMOS)组件,不需要跨代升级,具有良好的未来扩展潜力。通过基于机架的部署,Sirius可以连接多达25600个机架,这是当今大型数据中心规模的6倍。其次,因为允许在ns级的时间尺度上重新配置,其模拟了电交换网络的逐包交换,表明了用全光核心支持广泛工作负载的可行性。相比之下,以前的光交换架构交换的粒度从μs到ms不等,且对延迟敏感的工作负载通常依赖于单独的电交换网络。第三,通过消除光网络内部的缓冲并仔细管理节点本身的缓冲,可实现非常低且可预测的延迟。Sirius的循环调度消除了调
度平面,但是任何一对节点之间的流量都需要通过中间节点进行额外的跳转,可能对网络的吞吐量和延迟产生不利影响,负载均衡技术能保证任何流量模式下的最坏吞吐量不低于理想的非阻塞网络的1/2。
别连接到MEMS光交换机的k个端口,k表示ToR交换机的度,则每个ToR交换机都可以同时与其他ToR交换机通信,通过MEMS的配置决定连接哪一组ToR交换机。对于未连接到MEMS的ToR交换机,可以从已连接的k个ToR交换机中选择一个作为中间节点转发数据。由于每个ToR交换机都有k度,将光纤的WDM与WSS相结合,ToR交换机将多个端口输出的多波长信号通过多路复用器复用到一条光纤上,再通过1×k的WSS将这些波长拆分并送入MEMS光交换机。
OSA)是2014年由ChenK研究团队提出的一种动态可重构的数据中心网络全光互连架构,如图10所示。
OSA还引入了循环器,这是一种能同时在两个方向上传输的双向功能组件,它能使光交换机端口的使用量增加一倍。
ToR交换机都可以同时与其他ToR交换机通信,
MEMS通过配置来决定连接哪一组ToR交换机。给定由MEMS光交换机连接的ToR交换机拓扑, 光通信研究2024年第5期总第245期
使用这种电路的逐跳拼接来实现网络范围的连接,
为了到达没有直接连接的远程ToR交换机,需要选择一个已连接的ToR交换机作为第一跳,数据包经过光/电转换读取包头信息后,再将其路由到目的ToR交换机。ToR交换机之间循环使用同一组波长,每个端口都在一个固定的波长发送和接收流量,
以保证源ToR交换机的所有波长进行多路复用,并在解复用后发送到目标ToR交换机的各个端口。
OSA避免使用ToR交换机以外的电子元件。OSA提供了比Helios或C-Through更大的灵活性,能够满足更大的非平均流量需求,性能与非阻塞网络相似。通过与抽象混合架构模型的粗略定量比较,表明OSA实现了更高的对分带宽。但当ToR交换机的通信对等点数量大于4个时,一些流必然会使用多跳路径,从而导致性能下降。
eterServerSynchronization,PSS)、基于网格的同步
(MeshSynchronization,MS)和基于环的同步(Ring
Synchronization,RS)。同步算法具有不同的通信特性,对网络架构提出了不同的要求,传统的数据中心网络很难满足这些需求,因此提出了一种基于AWGR的面向机器学习的光/电混合架构Lotus。
mainSwitch,IS),DS与计算节点、DS与IS之间通过电链路连接,每个交换机组内使用完全二部图来提高对分带宽和可伸缩性。不同分组间的间接交换机通过光链路连接构成系统,光链路提供的高带宽可以快速传输组内节点产生的聚合流量。组之间的数据传输只能在一跳中完成,因为每个组与任何其他组之间都有链路。
交换系统(ReSAW)主要解决同机房内、不同机架间的流量调度任务。与传统流量结构不同,基于AIDC和SCDC机房主要面对半数以上的东西向流量。这意味着同一个数据中心内,甚至同一个机房内的交互流量将面临巨大的交换压力。在这种情况下,北邮团队提出了使用具有流量分类功能的传统ToR交换机出彩光,配合AWGR,将识别到的相同目的地的长报文通过光学路径转发,而类似控制面和短消息报文,则维持原来的电交换策略,该方案的拓扑示意图如图12所示。
分别代指长包和短包。识别出的流量需要一个统一
的调度器来进行端口波道和时隙配置。按照配置的
25 Gbit/s 端 口 速 率,实 现 了一个时钟周期
(2.56ns)内 1.6ns的同步精度和极低的抖动
(40.04ps)。核心交换功能通过服务器产生随机流
量进行测试,测试结果显示,当ToR交换机遇到老
鼠流时,光口处于关断状态,AWGR无流量经过;当
某时刻出现大象流时,开启光通道交换,在AWGR
中监测到去往不同机架的流量。
cessingUnit,TPU)数据中心两大应用场景,其中后者为专注于人工智能算力的数据中心。
架构演进到Aggregation块的直接光互联,其整体架构如图14所示。由于OCS采用光交换,对传输的速率无感,通过进一步引入WDM和环行器等技术可以实现在单根光纤上传输通道数的增加以及Tx/Rx双路信号,提升单光纤的数据传输速率,实现整个Jupiter网络互联带宽的数倍增长。基于以上的技术,Jupiter现超过6Pbit/s带宽容量,即相对于初代实现约5倍带宽提升的同时,电力消耗减
少了41%,成本降低30%。
berCommunicationConference,OFC)上展示了未来GPU光互联架构的设想。随着GPU间带宽的急剧增长,电互联距离急剧降低,同时噪声会越来越大,从而影响信号传输质量,英伟达认为硅光互联是GPU的互联目标架构。表1给出了中介层(InterPoser,IPoser)、印刷电路板(PrintedCircuitBoard,PCB)、光电合封装(Co
PackagedOptics,CPO)、电缆(ElectricalCables,
ECable)和有缘光缆(ActiveOpticalCables,AOC)
在功耗、成本、密度和距离4个维度的对比。
witch结构的双向带宽。因此,具有6个光引擎的NVSwitch的原始速率为28.8Tbit/s,去掉编码开销后的速率为25.6Tbit/s。
计,还有一种思路是直接对芯片进行光/电互联设
计,将芯片内部的电信号直接在板卡上转化成光信号与其他板卡上的芯片进行光互联。这种思路在高性能的服务器内部或存储设备间呈现一定潜在应用价值,例如xPU(GPU、TPU、数据处理单元(Data
ProcessingUnit,DPU)、中央处理器(CentralPro
cessingUnit,CPU))间或xPU与存储器间。硅光是实现这种思路的最佳选择,利用成熟的CMOS工艺,将光源、调制器、波导和探测器等光学芯片组件进行集成,利用片上接口,实现高速传输,实现设备小型化和低功耗要求。
CommunicationsStandardsAssociation,CCSA)和国际电信联盟(InternationalTelecommunication
UnionTelecommunicationStandardizationSector,
ITU-T),已经开始出现关于光电融合架构中某些关键器件的标准化建议,包含可调谐激光器和AWGR等。
(AWGR)》和《N×N阵列光交换矩阵开关》两个项目的立项申请,同意制定基于AWGR的光电融合交换方案中AWGR器件和基于N×N全连接交叉矩阵光器件标准。《平面光波导集成光路器件第4部分:阵列波导光栅路由器(AWGR)》定义了光交换系统中适用于可调谐激光器的AWGR相关内容,
尤其是通道波长的选择、差损的限制和通道串扰等几个关键指标。该标准是国内首个关于数据中心光交换器件的标准。《N×N阵列光交换矩阵开关》规范了大端口阵列光交换矩阵开关的技术要求。
teristicsofOpticalComponentsandSubsystems》
的修订,引入“N×NArrayedWaveguideGrating
Routers(AWGRs)”。该修订从2023年2月SG15
Q6中间会开始提出,从交换系统开始介绍,引入AWGR在下一代交换系统中的作用。同年7月,
Q6中间会再次讨论,将快速可调谐激光器引入关键器件修订讨论。最终,在全会通过了G.671修订提议,并提出加注附录,详细说明可调谐激光器和AWGR在交换系统中配合使用实现交换功能的方案。至此,在ITU-T的首个关于光电交换关键核心器件的国际标准诞生。需要注意,该标准提出了快速可调激光器的指标建议,为了实现ns级切换和ms级端到端时延,必须对可调谐激光器相关指标做出规定。ITU-T在5G前传方向存在基于可调谐机制的光模块标准G.698.4,为该AWGR标准提供了制定依据。
自由空间和可重构等技术方案来提升带宽、时延和功耗等指标。通过不同方案的对比,给出了光电融合交换技术的部署建议。然而,光电融合交换商业前景尚不明朗,使用光电交换技术的企业相对较少,
产业化程度低。综合来看,光电融合交换是未来数据中心的一种演进手段,需要在真实业务环境下验
证其性能,找到适合的应用场景,完善产业链,建立商业模式。
来源:光通信研究 2024年 第5期
总第245期
作者:唐雄燕,魏步征,沈世奎,王创业,王泽林,张贺,王光全,张晨芳
DKC交流群邀请
深知社创立于2017年,是数据中心技术人员深度知识的交流、学习和分享虚拟社区平台。深知社提倡全球视野、交流分享、终身学习的知识理念,感兴趣的读者同学可以扫描下方二维码进群交流学习。
公众号声明: