高级搜索
您当前的位置:首页 > 技术前沿

面向人工智能的光纤连接技术

时间:2024-06-14 18:12:15
提到人工智能(AI)时,您的脑海中会浮现什么?对于我而言,这一切始于去年11月,我的一位老友在领英(LinkedIn)上发了一篇帖子,表达他对ChatGPT的印象有多深刻。然而当我也注册了OpenAI账号后,真正让我着迷的是ChatGPT能够像人类一样提供答案,这些答案既符合语境,又具有技术上的合理性。
 
当然,它的局限性也比较明显,那就好似我在跟一个聪明但有点迟钝的人类朋友互动。它会以要点形式给出回答,并不断提醒我,它其实是一个人工智能模型,进而督促我对它的回答保持一丝怀疑。在我看来,最吸引人的是屏幕输出答案的方式——每个字母和词都缓慢地出现,如同连接另一端的人在打字输入一样。
 
1.jpg
 
六个月时光飞逝。如今,当我在ChatGPT上输入一个问题时,它的反应快得让我有点不知所措。在过去的六个月时间里,究竟发生了什么?ChatGPT的开发者们做了哪些更新调整?
 
最有可能的情况是,OpenAI扩展了其人工智能集群的推理能力,从而满足超过1亿用户的需求。据报道,在人工智能芯片制造商中处于领先地位的英伟达(NVIDIA)已供应大约20,000个图形处理单元(GPU),用于支持ChatGPT的开发,并且有大幅增加图形处理单元使用的计划。据推测,即将推出的人工智能模型可能需要多达1000万个图形处理单元。
 
GPU集群架构——
生成式人工智能的基础
 
现在,让我们退一步想想。对我而言,努力去理解20000颗GPU的概念并非难事,但是,通过1000万颗GPU的光连接来执行智能任务的想法很有挑战性。
 
经过数小时的互联网搜索,我偶然发现各种设计指南,其中详细介绍如何构建高性能网络,以提供人工智能工作负载所需的高速连接。
 
在这里我想探讨一下,如何从最初的规模较小的配置,逐渐将其扩大至包含数千颗GPU,从而创建GPU集群。我们将以英伟达设计指南为例,这些指南源于高性能计算(HPC)网络的传统。
 
2.jpg
 
根据英伟达在该组设计指南中的建议,此过程涉及使用多个具有256颗GPU的pod的较小单元(可扩展单元)来构建大型GPU集群。每个pod包括8个计算机架和2个位于一排中间位置的网络机架。这些pod内部和pod之间的连接是通过 InfiniBand(一种高速、低时延的交换协议)建立的,采用的是英伟达公司的Quantum-2交换机。
 
当前的InfiniBand交换机利用800G OSFP端口,采用下一代数据速率为400G(NDR)的双工端口。在该配置中,每个端口使用8根光纤,因而每台交换机使用64x400G端口。下一代交换机,无论名称如何,都很有可能采用极限数据速率 (XDR) 。这意味着,每台交换机使用64x800G端口,每个端口也使用8根光纤——主要是单模光纤。该4通道(8光纤)模式似乎是InfiniBand路线图中反复出现的图示(如下表所示),而未来将使用更快的速度。
 
3.png
 
就布线方法而言,在高性能计算(HPC)领域,普遍采用的最佳做法需要采用点对点有源光缆(AOC)。这些光缆在光纤收发器之间建立牢固的连接,一根光缆连接两台光纤收发器。
 
但是,随着带有多芯光纤连接器(MPO)接口的最新800G NDR端口的面世,点对点连接的方式已从AOC光缆转变为MPO-MPO无源跳线。在考虑单个具有256个GPU的pod时,利用点对点连接没有什么大问题。我个人的做法是选择MPO跳线,以简化装置。
 
 
 
大规模运行

 

到目前为止,进展仍然相对顺利,但如果要实现更大的规模(例如实现16K GPU需要将64个具有256-GPU的pod互连起来),挑战就会出现,这是因为这些高性能GPU集群使用的计算结构具有线路优化特性。在线路优化设置中,来自各个计算系统的全部主机通道适配器(HCA)均连接至同一个叶交换机(leaf switch)。

据说,该设置对于在多任务(multi-job)环境中最大限度提高深度学习(DL)训练性能至关重要。一个标准的H100计算节点配备4x双端口QSFP,转换为8个上行链路端口(每个GPU一个独立上行链路)与8个不同的叶交换机连接,由此建立一个8条线路优化(8-rails-optimized)结构。

4.jpg

在处理单个具有256颗GPU的pod时,该设计的工作可实现无缝衔接。但是,如果目标是构建一个包含16,384个GPU的结构,该怎么办?在这种场景中,有必要增加两个交换层。来自每个pod的第一个叶交换机与脊组一(SG1)中的每个交换机连接,每个pod内的第二个叶交换机与脊组二(SG2)中的每个交换机连接,以此类推。为取得完全实现的胖树(fat-tree)拓扑结构,则需加入第三层核心交换组(CG)。
 
让我们再次回顾一套搭载16,384颗 GPU集群的一些数据。在计算节点和叶交换机(每个pod有8个叶交换机)之间建立连接时需要16,384根光缆,意味着每个pod有256根MPO跳线。在我们开始网络扩展的过程时,建立叶-脊连接和脊-核心连接的任务变得更具有挑战性。这涉及首先捆扎多根点对点MPO跳线,然后将其敷设跨越50米至500米不等的距离。
 
5.png
 
有没有更高效的运作方式?建议之一是采用结构化布线系统,该系统采用两个接线板设计,利用大芯数MPO干线,可能采用144根光纤。这样,我们就能把18根MPO跳线(18x8=144)合并成一根Base-8干线光缆。合并后的光缆可以一次性敷设和连通数据中心场地。通过在端点使用适合8光纤连接的接线板和MPO适配器面板,我们可将其拆开并连接至我们的优化线路架构。该方法无需捆绑许多MPO跳线。
 
为说明这一点,让我们考虑以下场景:对于一个非阻塞架构,每个pod需要256条上行链路。我们可选择自每个pod拉出15x144根光纤干线,生成15x18=270上行链路。值得注意的是,这只需使用15个电缆护套即可实现。另外,该设置提供270-256=14个备用连接,这些备用连接可作为备份,甚至用于存储或管理网络连接。
 
最终,人工智能在理解我们的问题方面取得了重大进展,我们将见证其持续演变。在实现这一转变的过程中,寻求能够支持大规模GPU集群(无论是16K还是24KGPU)的布线解决方案是难题的重要组成部分,也是光通信行业正在迎接的一项挑战。

 

 

 
作者简介
 
7.png
本文作者Mustafa Keskin
 
Mustafa Keskin在光纤行业拥有19余年的经验,目前担任康宁光通信公司应用解决方案经理,常驻德国柏林,是一位颇有建树的专业人士。他擅长根据行业趋势和客户洞察研究,为数据中心和运营商中央办公空间确定架构解决方案。此前,作为全球团队的一员,他在数据中心EDGE8光缆系统的开发中发挥了重要作用。他也将自己的专业知识运用在所发表的创新应用文章中,比如他介绍了在脊叶网络架构中使用康宁网格模块的方法。
 

 



  来源:  
来顶一下
返回首页
返回首页

免责声明:本文仅代表作者个人观点,与网络电信无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

 
推荐资讯
《网络电信》微杂志——2024年12月刊
《网络电信》微杂志—
《网络电信》微杂志——2024年光通信竞争力报告(摘要版)
《网络电信》微杂志—
亨通受邀亮相2024年南网技术论坛,助力能源电力行业创新发展
亨通受邀亮相2024年南
中天科技获颁2024中国移动优秀供应商(A级)等三项荣誉
中天科技获颁2024中国