首页 > 热点播报 > 正文

DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目

鏀惰棌鎴愬姛锛�鍘绘煡鐪嬫敹钘�>>

快科技2月19日消息,近日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,其主要内容是关于 NSA(即Natively Sparse Attention,原生稀疏注意力)

与此同时,在论文署名中,第一作者 袁景阳 是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名, DeepSeek创始人梁文锋 现身论文著作者之中,在作者排名中位列倒数第二。

根据论文,DeepSeek团队认为,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加, 标准注意力机制的高复杂度 成为了关键的延迟瓶颈。

据了解, NSA通过高效的长序列处理能力, 使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。

同时, NSA通过针对现代硬件的优化设计, 在提高推理速度的同时、降低预训练成本,而不会牺牲性能。

它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。

DeepSeek团队表示,稀疏注意力为提高效率同时保持模型能力,提供了一个有前景的方向。

公开资料显示, NSA(即Natively Sparse Attention,原生稀疏注意力)是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

它专为长文本训练与推理设计,能够利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现。

鏀惰棌 (0) +1 璧� (0) +1 韪� (0) +1

网友评论

热门IT产品
  1. ¥7599
    苹果iPhoneX 64GB
    ·
  2. ¥5799
    三星S9
    ·
  3. ¥4498
    vivo NEX旗舰版
    ·
  4. ¥4999
    OPPO Find X
    ·
  5. ¥1799
    努比亚Z18mini
    ·
  6. ¥1499
    OPPO A5
    ·
  7. ¥1999
    荣耀Play(4GB RAM)
    ·
  8. ¥1598
    vivo Y85
    ·
  9. ¥3499
    坚果R1(6GB RAM)
    ·
  10. ¥3599
    一加6(8GB RAM)
    ·
以科技敬生活
下载太平洋科技APP