长序列高效处理已成为大模型应用的关键。为解决传统稠密注意力在长序列场景下计算开销大的问题,清华、OpenBMB和哈工大联合推出InfLLM-V2稀疏注意力框架。该框架无需额外参数,在短文本保持高效率,长文本切换为稀疏模式,实现端到端加速。
InfLLM-V2相比稠密注意力机制可实现4倍速度提升,在长文本理解任务保持98.1%的稠密模型性能,深思考任务保持99.7%性能。其特点包括:仅需5B长文本数据训练、短长序列无缝切换、针对硬件优化的高效算子实现。
在标准Transformer自注意力机制中,长上下文会导致难以承受的计算开销。InfLLM-V2采用稀疏注意力范式,每个查询词元仅与选定子集交互,显著降低计算成本。该模型仅需5B词元即可完成训练,在A100和4090芯片上实现4-9倍算子加速。
在MiniCPM4.1模型中,InfLLM-V2结合投机采样等算法,在代码和数学推理任务中比同尺寸开源模型快3倍以上。研究人员表示将持续优化训练和推理算子,并将该技术集成至主流推理框架,同时开源基座模型和训练数据。


粤公网安备 44010602000162号
网友评论