首页 > 热点播报 > 正文

清华团队开源第二代InfLLM模型 稀疏注意力技术实现同尺寸三倍加速

长序列高效处理已成为大模型应用的关键。为解决传统稠密注意力在长序列场景下计算开销大的问题,清华、OpenBMB和哈工大联合推出InfLLM-V2稀疏注意力框架。该框架无需额外参数,在短文本保持高效率,长文本切换为稀疏模式,实现端到端加速。

InfLLM-V2相比稠密注意力机制可实现4倍速度提升,在长文本理解任务保持98.1%的稠密模型性能,深思考任务保持99.7%性能。其特点包括:仅需5B长文本数据训练、短长序列无缝切换、针对硬件优化的高效算子实现。

在标准Transformer自注意力机制中,长上下文会导致难以承受的计算开销。InfLLM-V2采用稀疏注意力范式,每个查询词元仅与选定子集交互,显著降低计算成本。该模型仅需5B词元即可完成训练,在A100和4090芯片上实现4-9倍算子加速。

在MiniCPM4.1模型中,InfLLM-V2结合投机采样等算法,在代码和数学推理任务中比同尺寸开源模型快3倍以上。研究人员表示将持续优化训练和推理算子,并将该技术集成至主流推理框架,同时开源基座模型和训练数据。

网友评论

热门IT产品
  1. ¥5999
    苹果iPhone17
    ·
  2. ¥9999
    苹果iPhone17 Pro Max
    ·
  3. ¥5999
    Xiaomi 17 Pro Max
    ·
  4. ¥4699
    HUAWEI Pura 80
    ·
  5. ¥1399
    荣耀X70
    ·
  6. ¥2699
    HUAWEI nova 14
    ·
  7. ¥3399
    荣耀400 Pro
    ·
  8. ¥4399
    vivo X300
    ·
  9. ¥2799
    OPPO Reno14
    ·
  10. ¥6499
    vivo X200 Ultra
    ·