解密稀疏注意力：爱丁堡大学和Cohere公司团队揭示Transformer语言模型中的效率与精度权衡

微信扫一扫，关注公众号

科技行者
算力行者

见证连接与计算的「力量」

首页

解密稀疏注意力：爱丁堡大学和Cohere公司团队揭示Transformer语言模型中的效率与精度权衡

作者：科技行者

2025-04-29 12:23

分享至：

想象你在一个拥挤的派对上。虽然房间里有50个人，但你不可能同时与所有人交谈。你的注意力自然会集中在几个关键人物身上——也许是你的朋友，或者正在讲有趣故事的人。大型语言模型（LLM）中的"稀疏注意力"机制正是基于类似原理：让模型只关注真正重要的信息，而忽略次要内容。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-04-29 12:23 • 科技行者

在人工智能领域，大型语言模型处理长文本的能力一直是研究热点。最近，来自爱丁堡大学和Cohere公司的研究团队发表了一篇题为《稀疏前沿：Transformer语言模型中的稀疏注意力权衡》（The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs）的重要论文。这项研究由爱丁堡大学的Piotr Nawrot和Edoardo M. Ponti，以及Cohere公司的Robert Li、Renjie Huang和Kelly Marchisio共同完成，同时还有Meta公司的Sebastian Ruder参与。论文于2025年4月24日在arXiv上发布（arXiv:2504.17768v1），目前正在审核中。

想象一下，你拥有一台能够阅读整本百科全书的超级电脑，但它需要同时记住每个单词与其他所有单词的关系。这台电脑的内存和处理能力很快就会不堪重负，对吧？这正是当今大型语言模型面临的挑战。本文将带你了解研究团队如何通过"稀疏注意力"这一巧妙技术，让这些人工智能模型在处理超长文本时既能保持高质量输出，又能大幅降低计算资源消耗。

一、为什么稀疏注意力如此重要？

Transformer模型（几乎所有现代大型语言模型的基础架构）在处理长文本时面临两大瓶颈：

预填充阶段（Prefilling）：当模型首次阅读输入文本时，需要计算每个词与所有其他词的关联度。这个计算量随文本长度呈二次方增长。比如，文本长度翻倍，计算量会增加四倍！

解码阶段（Decoding）：当模型生成回复时，需要不断查阅之前的信息。这就像从一个巨大的记忆库中反复检索，随着文本变长，这个记忆库也越来越庞大，访问速度显著变慢。

稀疏注意力通过一个简单而巧妙的想法解决这些问题：不必关注所有内容，只需关注真正重要的部分。这有点像阅读一篇长文章时，你不会记住每个单词，而是自然地抓住关键点和重要段落。

尽管稀疏注意力听起来前景光明，但研究团队发现目前学术界缺乏对这种技术的系统评估。特别是，我们不清楚稀疏注意力在不同模型规模、序列长度和稀疏程度下的表现如何，以及什么任务最适合使用稀疏注意力。这就是这项研究的出发点。

二、研究团队如何进行这项大规模实验？

研究团队对稀疏注意力进行了迄今为止规模最大的系统评估。他们使用了从7B到72B参数的各种规模模型，测试了从16K到128K的超长文本序列，稀疏度范围从0%（完全密集注意力）到95%（极度稀疏）。

这就像测试一辆新设计的汽车——你不会只在一种天气或一种道路上试驾，而是会在各种极端条件下测试其性能。研究团队同样对稀疏注意力进行了全方位的"压力测试"。

他们首先梳理了现有的稀疏注意力方法，发现这些方法可以沿着四个关键维度进行分类：

稀疏化单元（Unit of Sparsification）：决定模型关注信息的基本单位，可以是单个词（tokens）、整块文本（blocks）、垂直列（垂直地选择关键词）或对角斜线（选择相互关联的词组）。

重要性估计（Importance Estimation）：如何判断哪些信息最重要。可以使用固定模式（比如总是关注前几个词）或动态内容感知方法（根据具体内容决定重要性）。

预算分配（Budget Allocation）：如何在模型的不同层和注意力头之间分配计算资源。可以是均匀分配或自适应分配（根据需要动态调整）。

KV缓存管理（KV Cache Management）：如何管理存储历史信息的内存。可以选择永久删除某些信息（缓存驱逐）或保留完整缓存但智能地访问所需部分。

基于这个分类框架，研究团队选择了6种代表性方法进行测试，包括：

垂直-斜线模式（Vertical-Slash）和弹性预填充（FlexPrefill）：用于预填充阶段
块稀疏（Block-Sparse）：同样用于预填充阶段
SnapKV、Ada-SnapKV和Quest：用于解码阶段

为了评估这些方法的表现，研究团队精心设计了9种长序列任务，涵盖了不同的难度级别和数据类型。这些任务就像是为稀疏注意力设计的"健身房"，测试它在各种"训练项目"中的表现：

简单检索任务：在长文本中找到特定信息
多跳推理任务：需要连接分散在文本各处的信息
信息聚合任务：需要处理大量分散的信息来得出结论

这些任务既包括基于人造数据的标准任务（如RULER基准测试），也包括研究团队新设计的基于自然语言的任务，更贴近真实应用场景。

三、研究发现了什么惊人结果？

研究团队通过大量实验，揭示了四个关键发现，这些发现对未来大型语言模型的设计和优化具有重要意义：

第一个重要发现关于计算效率与模型规模的权衡。想象你有两个选择：一个小型但处理所有信息的模型，或一个大型但选择性处理关键信息的模型——哪个更有效？研究表明，答案取决于处理的文本长度。

对于相对较短的文本（约32K标记），任何提高密度或增大模型规模的方法都能提升性能。这有点像在小型项目中，无论是增加团队人数还是让每个人工作更努力，都能加快进度。

但对于超长文本（128K标记），情况发生了显著变化。只有高度稀疏的大型模型才能在同等计算预算下提供最佳性能。这就像处理复杂项目时，聘请少数高效专家比雇佣大量全面但效率较低的人员更有效。具体来说，研究发现在预填充阶段，压缩比在5-15倍的模型表现最佳；而在解码阶段，即使20倍的高压缩比也能保持良好效果。

更有趣的是，研究发现模型对稀疏性的敏感度与其规模密切相关。小型模型（7B参数）在高压缩率下性能剧烈下降，而大型模型（32B、72B参数）即使在高压缩率下也能保持稳定性能。这就像经验丰富的专家即使在信息有限的情况下也能做出准确判断，而新手则需要更全面的信息。

第二个重要发现回答了一个关键问题：我们可以将稀疏度提高到什么程度，同时保证性能不会下降？

研究团队使用统计测试方法，发现在解码阶段可以实现比预填充阶段更高的稀疏度，而且这种能力随模型规模增大而提高。对于最大的模型（72B参数）在解码阶段，即使是20倍的压缩率也不会导致显著性能下降。

但这里有一个重要警告：即使是中等稀疏水平，在至少一个任务上通常也会导致显著性能下降。这就像一个全能运动员可能在大多数项目中表现优秀，但在某个特定项目上可能有明显劣势。因此，稀疏注意力不是放之四海而皆准的解决方案，而是需要根据具体任务谨慎评估的工具。

第三个关键发现探讨了是否存在"万能"的稀疏注意力方法。答案是否定的——没有一种方法在所有多样化的长序列任务上都表现最佳。

对于预填充阶段，垂直-斜线模式在检索任务上表现最佳，而块稀疏方法在聚合和多跳推理任务上更胜一筹。对于解码阶段，Quest方法因其保留完整KV缓存的灵活性而表现优异，特别适合处理复杂任务。

研究还发现，非均匀预算分配策略在不同推理阶段表现不同。在预填充阶段，弹性预填充的自适应、基于阈值的方法通常不如垂直-斜线模式的简单均匀分配。而在解码阶段，Ada-SnapKV的自适应分配明显优于均匀的SnapKV，特别是对于复杂的多查询检索任务。

第四个重要发现是关于稀疏注意力的扩展规律。研究团队成功建立了预测下游准确率的数学模型，考虑了任务类型、模型大小、序列长度和稀疏度。这些模型在预测保留数据上的表现中显示出很高的相关性（0.57-0.74的R²值），证明了发现的普遍性超出了实验范围。

四、这些发现对未来AI发展有何启示？

这项研究的发现具有深远的实践意义，可能改变大型语言模型的设计和部署方式：

首先，研究表明，在处理超长上下文时，使用更大但高度稀疏的模型比使用小型密集模型更有效。这就像建议企业在处理复杂项目时，应该投资少数高级专家而非大量初级员工。这一发现可能影响模型设计者在有限计算资源下的架构选择。

其次，研究证实了稀疏注意力能显著提高长上下文处理能力，但也警告这不是放之四海而皆准的解决方案。特别是对于性能敏感的应用，需要针对特定任务类型和序列长度进行定制优化。这就像提醒厨师，虽然有优质刀具很重要，但不同食材需要不同的切割技巧。