我们预计未来五年高速线缆的销售额将增长两倍多,到2029年将达到67亿美元。有源电缆(AEC)和有源铜缆(ACC)的市场份额将逐渐超过无源直连铜缆(DAC)。与DAC相比,AEC和ACC的传输距离更长,厚度更薄。ACC的另一个优势是延迟更低,这对人工智能集群至关重要。
尽管增长率较低,但到2029年,DAC仍将占高速电缆总出货量的50%。由于DAC不耗电,因此是数据中心提高能效的默认连接解决方案。对于人工智能集群而言,最大限度地降低功耗最为关键。Nvidia的策略是尽可能多地部署铜缆,只有在绝对必要时才使用光缆。
以最新的Nvidia NVL72服务器为例,DAC也在与AI服务器中的背板连接竞争。单个NVL72的背板内包含5000根铜缆,支持72个GPU之间的NVLink连接。背板还使用双轴铜缆,但这些都不是可插拔电缆。Nvidia没有透露背板的设计,但黄仁勋在2024 GTC上首次展示厚重的背板组件时,显然对此引以为豪。
Nvidia和许多其他公司面临的下一个挑战是如何将高带宽互连扩展到单个机架之外。将 GPU集群从36-72个芯片扩展到500-1000个芯片是加速人工智能训练的最佳选择。在未来3年内,即使是推理集群也可能需要多达 1,000 个GPU才能支持更大的模型。
Meta目前使用ACC将两个机架上的GPU互连起来,每个机架上有36个GPU,但这种方法可能无法扩展到更多机架和更高的GPU数量。
共封装光学器件(CPO)可能是在4-8机架系统中提供数万个高速互连器件的唯一选择。我们对CPO的最新预测包含了传输距离50m内的1.6T和3.2T CPO的出货量。
下图比较了1.6T线缆类和1.6T 50m CPO端口的发货量。
我们看到了CPO开发的新一波浪潮。CPO的有限部署应很快开始。到2028-2029年,CPO极有可能成为1.6T及更高速互联的可行选择。我们的预测还包括对3.2T CPO端口的估计,预计到 2029年将超过1,000万个。
我们的模型配置假设有1,024个GPU行大小的扩展集群使用CPO互联。如果每个GPU有 8个3.2T NVLink端口,这样的集群将消耗16,384个3.2T CPO端口(或3.2T等效光模块)。如果将一百万个这样的GPU互连到这样的集群中,将需要超过1,500万个CPO端口。请注意,这一计算结果不包括扩展网络和前端网络中的InfiniBand和以太网连接,这些网络可能仍然使用可插拔光模块。
部署50米长的CPO不会减少可插拔光模块或任何高速线缆的市场机会。它将NVLink连接从板载或铜缆背板扩展到多机架配置。这确实是光互连的一个新市场。
来源:LightCounting |