DeepSeek宣布推出NSA,用于超快速的长上下文训练和推理。据悉,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,通过针对现代硬件的优化设计,加快了推理速度并降低了预训练成本。在基准测试、长上下文任务和基于指令的推理方面表现优秀。
DeepSeek宣布推出NSA,用于超快速的长上下文训练和推理。据悉,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,通过针对现代硬件的优化设计,加快了推理速度并降低了预训练成本。在基准测试、长上下文任务和基于指令的推理方面表现优秀。
热点播报 2025-02-18 16:32:58
热点播报 2025-02-18 15:32:23
热点播报 2025-02-18 15:32:26
热点播报 2025-02-18 15:07:27
热点播报 2025-02-18 13:56:52
网友评论