在当今各类大语言模型以及视频模型中,长序列场景越来越普遍,而 Attention 的计算复杂度随着序列长度呈平方增长,成为长序列任务下的主要计算瓶颈。此前,清华大学陈键飞团队提出的即插即用量化的 SageAttention 系列工作已实现 3 ...