面向人工智能的光纤连接技术

提到人工智能（AI）时，您的脑海中会浮现什么？对于我而言，这一切始于去年11月，我的一位老友在领英（LinkedIn）上发了一篇帖子，表达他对ChatGPT的印象有多深刻。然而当我也注册了OpenAI账号后，真正让我着迷的是ChatGPT能够像人类一样提供答案，这些答案既符合语境，又具有技术上的合理性。

当然，它的局限性也比较明显，那就好似我在跟一个聪明但有点迟钝的人类朋友互动。它会以要点形式给出回答，并不断提醒我，它其实是一个人工智能模型，进而督促我对它的回答保持一丝怀疑。在我看来，最吸引人的是屏幕输出答案的方式——每个字母和词都缓慢地出现，如同连接另一端的人在打字输入一样。

六个月时光飞逝。如今，当我在ChatGPT上输入一个问题时，它的反应快得让我有点不知所措。在过去的六个月时间里，究竟发生了什么？ChatGPT的开发者们做了哪些更新调整？

最有可能的情况是，OpenAI扩展了其人工智能集群的推理能力，从而满足超过1亿用户的需求。据报道，在人工智能芯片制造商中处于领先地位的英伟达（NVIDIA）已供应大约20,000个图形处理单元（GPU），用于支持ChatGPT的开发，并且有大幅增加图形处理单元使用的计划。据推测，即将推出的人工智能模型可能需要多达1000万个图形处理单元。

GPU集群架构——

生成式人工智能的基础

现在，让我们退一步想想。对我而言，努力去理解20000颗GPU的概念并非难事，但是，通过1000万颗GPU的光连接来执行智能任务的想法很有挑战性。

经过数小时的互联网搜索，我偶然发现各种设计指南，其中详细介绍如何构建高性能网络，以提供人工智能工作负载所需的高速连接。

在这里我想探讨一下，如何从最初的规模较小的配置，逐渐将其扩大至包含数千颗GPU，从而创建GPU集群。我们将以英伟达设计指南为例，这些指南源于高性能计算（HPC）网络的传统。

根据英伟达在该组设计指南中的建议，此过程涉及使用多个具有256颗GPU的pod的较小单元（可扩展单元）来构建大型GPU集群。每个pod包括8个计算机架和2个位于一排中间位置的网络机架。这些pod内部和pod之间的连接是通过 InfiniBand（一种高速、低时延的交换协议）建立的，采用的是英伟达公司的Quantum-2交换机。

当前的InfiniBand交换机利用800G OSFP端口，采用下一代数据速率为400G（NDR）的双工端口。在该配置中，每个端口使用8根光纤，因而每台交换机使用64x400G端口。下一代交换机，无论名称如何，都很有可能采用极限数据速率 (XDR) 。这意味着，每台交换机使用64x800G端口，每个端口也使用8根光纤——主要是单模光纤。该4通道（8光纤）模式似乎是InfiniBand路线图中反复出现的图示（如下表所示），而未来将使用更快的速度。

就布线方法而言，在高性能计算（HPC）领域，普遍采用的最佳做法需要采用点对点有源光缆（AOC）。这些光缆在光纤收发器之间建立牢固的连接，一根光缆连接两台光纤收发器。

但是，随着带有多芯光纤连接器（MPO)接口的最新800G NDR端口的面世，点对点连接的方式已从AOC光缆转变为MPO-MPO无源跳线。在考虑单个具有256个GPU的pod时，利用点对点连接没有什么大问题。我个人的做法是选择MPO跳线，以简化装置。

大规模运行

到目前为止，进展仍然相对顺利，但如果要实现更大的规模（例如实现16K GPU需要将64个具有256-GPU的pod互连起来），挑战就会出现，这是因为这些高性能GPU集群使用的计算结构具有线路优化特性。在线路优化设置中，来自各个计算系统的全部主机通道适配器（HCA）均连接至同一个叶交换机（leaf switch）。

据说，该设置对于在多任务（multi-job）环境中最大限度提高深度学习（DL）训练性能至关重要。一个标准的H100计算节点配备4x双端口QSFP，转换为8个上行链路端口（每个GPU一个独立上行链路）与8个不同的叶交换机连接，由此建立一个8条线路优化（8-rails-optimized）结构。

在处理单个具有256颗GPU的pod时，该设计的工作可实现无缝衔接。但是，如果目标是构建一个包含16,384个GPU的结构，该怎么办？在这种场景中，有必要增加两个交换层。来自每个pod的第一个叶交换机与脊组一（SG1）中的每个交换机连接，每个pod内的第二个叶交换机与脊组二（SG2）中的每个交换机连接，以此类推。为取得完全实现的胖树（fat-tree）拓扑结构，则需加入第三层核心交换组（CG）。

让我们再次回顾一套搭载16,384颗 GPU集群的一些数据。在计算节点和叶交换机（每个pod有8个叶交换机）之间建立连接时需要16,384根光缆，意味着每个pod有256根MPO跳线。在我们开始网络扩展的过程时，建立叶-脊连接和脊-核心连接的任务变得更具有挑战性。这涉及首先捆扎多根点对点MPO跳线，然后将其敷设跨越50米至500米不等的距离。

有没有更高效的运作方式？建议之一是采用结构化布线系统，该系统采用两个接线板设计，利用大芯数MPO干线，可能采用144根光纤。这样，我们就能把18根MPO跳线（18x8=144）合并成一根Base-8干线光缆。合并后的光缆可以一次性敷设和连通数据中心场地。通过在端点使用适合8光纤连接的接线板和MPO适配器面板，我们可将其拆开并连接至我们的优化线路架构。该方法无需捆绑许多MPO跳线。

为说明这一点，让我们考虑以下场景：对于一个非阻塞架构，每个pod需要256条上行链路。我们可选择自每个pod拉出15x144根光纤干线，生成15x18=270上行链路。值得注意的是，这只需使用15个电缆护套即可实现。另外，该设置提供270-256=14个备用连接，这些备用连接可作为备份，甚至用于存储或管理网络连接。

最终，人工智能在理解我们的问题方面取得了重大进展，我们将见证其持续演变。在实现这一转变的过程中，寻求能够支持大规模GPU集群（无论是16K还是24KGPU）的布线解决方案是难题的重要组成部分，也是光通信行业正在迎接的一项挑战。

作者简介

本文作者Mustafa Keskin

Mustafa Keskin在光纤行业拥有19余年的经验，目前担任康宁光通信公司应用解决方案经理，常驻德国柏林，是一位颇有建树的专业人士。他擅长根据行业趋势和客户洞察研究，为数据中心和运营商中央办公空间确定架构解决方案。此前，作为全球团队的一员，他在数据中心EDGE8光缆系统的开发中发挥了重要作用。他也将自己的专业知识运用在所发表的创新应用文章中，比如他介绍了在脊叶网络架构中使用康宁网格模块的方法。

来源：