首页 > 业界资讯 > 正文

性能1.55倍于NV 350W RTX!寒武纪发布全新AI训练GPU

  3月21日,中国本土AI创新企业寒武纪正式发布了新款训练加速卡“ MLU370-X8 ”,搭载双芯片四芯粒封装的思元370,集成寒武纪MLU-Link多芯互联技术,主要面向AI训练任务。

  寒武纪MLU370-X8智能加速卡 首次整合了双芯片四芯粒的思元370,也就是每张卡两颗芯片,每颗芯片内封装两个Die ,因此可提供两倍于思元370加速卡的内存、编解码资源。

  架构基于Cambricon MLUarch03,支持AI训练加速中常见的 FP32、FP16、BF16、INT16、INT8、INT4 数据格式计算,峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。

  该卡采用7nm制造工艺,集成48GB LPDDR5内存 ,内存带宽614.4GB/s, PCIe 4.0 x16系统接口,整卡最大训练功耗250W ,全高全长双插槽设计,系统被动散热。


单卡架构图

  通过MLU-Link多芯互联技术,提供卡内、卡间互联功能,并专门设计了MLU-Link桥接卡, 可实现4张加速卡为一组、8颗思元370芯片全互联。

  每张加速卡通讯吞吐性能200GB/s,带宽为PCIe 4.0的大约3.1倍,可高效执行多芯多卡训练、分布式推理任务。


4卡桥接


单机8卡部署配置


4卡桥接拓扑

  根据官方数据,Cambricon NeuWare SDK实测, 在常见的4个深度学习网络模型上,MLU370-X8单卡性能与主流350W RTX GPU相当。

  多卡加速,借助MLU-Link多芯互联技术、Cambricon NeuWare CNCL通讯库的优化, 8卡环境下达到更优的并行加速比,YOLOv3、Transformer、BERT、ResNet101训练任务中,8卡并行平均性能达350W RTX GPU的155%。

  寒武纪未透露对比的NVIDIA 350W RTX GPU是哪一款,从规格来看, 350W功耗的目前只有RTX 3090、RTX 3080 Ti。

  当然,一个是专用AI加速卡,一个是GPU通用游戏卡,其实没有太大可比性。

  MLU370-X8产品定位中高端,与高端训练产品思元290、玄思1000相互结合,进一步丰富了寒武纪的训练算力交付方式,同时与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同,形成完整的云端训练、推理产品组合。


单卡性能对比


8卡性能对比

  【来源:快科技】【作者:上方文Q】

网友评论

三日内热门评论文章
热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·
为您推荐
  • 相关阅读
  • 业界资讯
  • 手机通讯
  • 电脑办公
  • 新奇数码
  • 软件游戏
  • 科学探索