据悉,DeepSeek在OpenSourceWeek活动中宣布开放了DeepGEMM代码库。该代码库专为简洁高效的FP8通用矩阵乘法而设计,支持普通和专家混合分组运算。使用CUDA编写,并无需编译,通过即时编译模块来运行所有内核。目前仅支持英伟达Hopper架构运算,并采用两级累加方法解决了FP8张量核心累加不精确的问题。代码量约为300行。
据悉,DeepSeek在OpenSourceWeek活动中宣布开放了DeepGEMM代码库。该代码库专为简洁高效的FP8通用矩阵乘法而设计,支持普通和专家混合分组运算。使用CUDA编写,并无需编译,通过即时编译模块来运行所有内核。目前仅支持英伟达Hopper架构运算,并采用两级累加方法解决了FP8张量核心累加不精确的问题。代码量约为300行。
热点播报 2025-02-26 09:02:23
热点播报 2025-02-26 08:03:03
热点播报 2025-02-26 02:35:14
热点播报 2025-02-25 22:15:08
热点播报 2025-02-25 14:26:22
网友评论