智谱宣布部署了名为ZCube的网络架构创新,该架构旨在提升大模型推理效率。据悉,在同等GPU配置下,将网络带宽从200Gbps提升至400Gbps,可使推理总吞吐提升约百分之十,首响时延下降百分之十九,且此效果随推理规模扩大而更显著。
在千卡级GLM-5.1的线上推理集群中进行实际应用,在保持GPU型号、软件栈和业务代码不变的前提下,仅升级网络架构。与传统方案相比,其GPU平均推理吞吐提升百分之十五以上,TTFT P99尾时延下降百分之四十点六。
这意味着在相同的硬件投入下,智谱GLM大模型每秒能响应更多的API请求,有助于提升平台并发能力与用户体验。同时,ZCube架构所需交换机和光模块比原有方案减少三分之一,规模效应下成本优势更明显。
此次升级的边际成本极低,无需更换GPU、服务器或修改软件代码,仅通过替换组网架构即可释放现有算力资产的更高效率。据悉,该技术已被国际顶会给予高度评价,并首次在真实大规模推理集群中完成生产验证。

粤公网安备 44010602000162号
网友评论