近日,由中国电信集团公司统一组织,中国电信研究院、中国电信北京公司、天翼云公司共同参与,在中国电信现网基于800G C+L技术,为1024卡规模的分布式集群提供大容量带宽,实现120公里千亿参数大模型分布式训练,性能达到集中训练的95%以上,重点验证了大带宽、高可靠和高效率的光传输网络可为智算互联构建坚实底座。
当前,随着智算卡数达到千卡、甚至万卡,所需带宽往往高达百T比特级、甚至超P比特级。因此,光传输系统的大带宽、高可靠与高效率的特点是保证分布式训练高算效的关键。针对数据传输的大带宽问题,采用高阶调制格式的单波长800G技术以提高频谱效率,配合当前的业界热点的C+L波段技术实现超大传输带宽,在中国电信武清与润泽机房之间采用华为公司传输设备,通过多次环回构建了大带宽互联的智算验证网,距离达到120km;针对数据传输的高可靠问题,完成了链路误码、波长故障、光纤故障等异常测试试验,结果表明,一个800G业务波中断会导致超40%的算效降低,而百毫秒级以上光纤故障会导致算效大幅下降甚至训练中断,采用WSON重路由恢复技术,此次在两点间将重路由恢复时间控制在50ms以内,可保证分布式智算业务的高可靠互联,最大程度释放算效;针对传输链路的高效率问题,中国电信提出分钟级波长动态拆建解决方案来实现算与网的协同分时复用,有效提升网络资源利用率。此次验证为跨地域、跨层级、跨主体高可靠的算力协同调度奠定基础,标志着中国电信“云网融合”工作再上新台阶。
未来,中国电信将不断创新,继续践行“以网强算”的技术路线,通过大带宽、高可靠和高效率的光传输网络建设打造智算互联光层底座,加快推进云网融合一体化数字基础设施建设,走出一条具备中国电信特色的新型智算基础设施发展道路,赋能千行百业智能化升级。
来源:中国电信研究院 |