组网扩展性要求高
不同的金融客户对GPU算力投入有差异,小规模起步到规模化使用要求智算网络具备较高的可扩展性。
网络性能要求高
大模型的机间网络通信占比大幅提升,带宽接入能力及带宽利用率成为影响训练效率的网络关键指标。
训练连续性要求高
大模型采用多机多卡集群,机间网络一旦出现故障将会导致集群训练任务中断,拉长训练周期,降低训练效率,机间网络的可靠性对于训练效率的影响愈发明显。
投产运营复杂度高
智算中心建设投产复杂、业务上线慢,大规模网络并行计算导致故障节点难定位,网络设备、光模块的高密度部署造成以电力换算力的高成本运行模式。