来自MIT 与 MIT-IBM Watson AI Lab 的研究人员提出了一种新的注意力架构,用于改善大语言模型在长文本中的状态跟踪与序列推理能力。
在自然语言、代码或复杂文档中,词序与上下文会随着文本推进不断变化,模型需要持续跟踪实体状态与条件关系。然而,当前大多数基于 Transformer 的模型在处理这类长期依赖时存在局限。其核心原因之一在于主流位置编码方法——旋转位置编码(RoPE)——采用静态、与内容无关的方式表示位置信息,只考虑词元之间的相对距离,而不反映路径中内容的变化。
为此,研究团队提出了一种新的位置编码机制,称为 PaTH Attention。与 RoPE 不同,该方法将两个词元之间的关系视为一条由中间词元构成的“路径”,并通过一系列与数据相关的数学变换逐步累积位置信息。每一步变换会根据当前词元内容进行调整,使模型能够感知语义与状态沿路径的变化过程。
研究人员还设计了一种计算方式,使这种累积变换能够被拆解为更小的运算单元,从而在 GPU 上保持较高的计算效率,避免对硬件资源造成明显负担。
在实验评估中,PaTH Attention 被应用于多类任务,包括合成推理任务、长上下文理解测试以及中等规模语言模型的完整训练。结果显示,该方法在状态跟踪、顺序推理和长文本建模方面均表现出更稳定的效果,并在未专门训练的推理基准上取得较好的泛化表现。
研究团队还将 PaTH Attention 与一种具备“遗忘”机制的位置编码方法结合,使模型能够在必要时降低对早期、相关性较低信息的权重,从而进一步改善长序列处理能力。整体来看,该工作为提升 Transformer 架构在复杂序列建模中的表达能力提供了一种新的技术路径。









