3月19日,英伟达在NVIDIA GTC 2025上宣布其NVIDIA Blackwell DGX系统创下DeepSeek-R1大模型推理性能的世界纪录。据悉,在单个DGX系统上运行6710亿参数的满血DeepSeek-R1模型可实现每用户每秒超250 token的响应速度,最高吞吐量突破每秒3万token。通过硬件和软件的结合,他们自2025年以来成功将DeepSeek-R1 671B模型的吞吐量提高了约36倍。Blackwell架构与TensorRT软件相结合可实现显著的推理性能提升,并在对模型进行量化时精度损失微乎其微。
网友评论