一种提升大语言模型能力的新方法-新东方前途出国

首页好录取，有前途 English Website

大咖说留学官方小程序

前途出国官方微信小程序微信扫一扫

国内城市/境外分公司

B: 北京

C: 长春; 长沙; 常州; 成都; 重庆

D: 大连; 东莞; 东营

F: 福州; 佛山

G: 广州; 贵阳; 赣州

H: 杭州; 哈尔滨; 合肥; 呼和浩特

J: 济南; 金华

K: 昆明

L: 兰州; 洛阳

M: 绵阳

N: 南昌; 南京; 南宁; 宁波; 南通

Q: 青岛; 泉州

S: 上海; 沈阳; 石家庄; 苏州; 深圳

T: 太原; 唐山; 天津

W: 温州; 武汉; 乌鲁木齐; 无锡; 潍坊; 芜湖

X: 厦门; 西安; 徐州

Y: 宜昌; 扬州; 烟台

Z: 郑州; 珠海; 中山

特别行政区: 中国香港

海外: 伦敦; 悉尼; 墨尔本; 东京; 加拿大

留学顾问卜凡

卜凡

北美硕博咨询主管

成都

擅长方案：考研留学双保险,高端申请,职业规划
擅长专业：计算机,商科,工科
录取成果：哥伦比亚大学,西北大学,南加州大学,CMU

从业年限: 7-10年

帮助人数: 50人

平均响应: 15分钟

向TA提问立即抢占申请名额95%用户选择

顾问服务

1对1定制 · 专业服务 · 官网保障

在线咨询 顾问在线解答疑问

电话咨询 电话高效沟通留学问题

微信1对1咨询

您的位置：首页>顾问中心>卜凡>日志>一种提升大语言模型能力的新方法

一种提升大语言模型能力的新方法

原创

发布者：: 卜凡

分类：: 留学新闻

2025-12-31

162
浏览

播放

分享至

微信扫码分享给好友和朋友圈

来自MIT 与 MIT-IBM Watson AI Lab 的研究人员提出了一种新的注意力架构，用于改善大语言模型在长文本中的状态跟踪与序列推理能力。

在自然语言、代码或复杂文档中，词序与上下文会随着文本推进不断变化，模型需要持续跟踪实体状态与条件关系。然而，当前大多数基于 Transformer 的模型在处理这类长期依赖时存在局限。其核心原因之一在于主流位置编码方法——旋转位置编码（RoPE）——采用静态、与内容无关的方式表示位置信息，只考虑词元之间的相对距离，而不反映路径中内容的变化。

为此，研究团队提出了一种新的位置编码机制，称为 PaTH Attention。与 RoPE 不同，该方法将两个词元之间的关系视为一条由中间词元构成的“路径”，并通过一系列与数据相关的数学变换逐步累积位置信息。每一步变换会根据当前词元内容进行调整，使模型能够感知语义与状态沿路径的变化过程。

研究人员还设计了一种计算方式，使这种累积变换能够被拆解为更小的运算单元，从而在 GPU 上保持较高的计算效率，避免对硬件资源造成明显负担。

在实验评估中，PaTH Attention 被应用于多类任务，包括合成推理任务、长上下文理解测试以及中等规模语言模型的完整训练。结果显示，该方法在状态跟踪、顺序推理和长文本建模方面均表现出更稳定的效果，并在未专门训练的推理基准上取得较好的泛化表现。

研究团队还将 PaTH Attention 与一种具备“遗忘”机制的位置编码方法结合，使模型能够在必要时降低对早期、相关性较低信息的权重，从而进一步改善长序列处理能力。整体来看，该工作为提升 Transformer 架构在复杂序列建模中的表达能力提供了一种新的技术路径。

院校太多: 不知道自己能上哪所?

AI智能选校助力选校

20万+录取数据
智能分析
2分钟出结果

打开微信扫一扫码上体验

小工具大用途

相关顾问推荐

more

近期热门

文章案例

相关文章类别

欢迎向我提问

*顾问预计24小时内解答，并通过短信方式通知您

卜凡

北美硕博咨询主管

温馨提示

您当前咨询的顾问所在分公司为成都为您推荐就近分公司 - 的顾问

继续向卜凡提问 >

预览结束
填写信息下载完整版手册

卜凡卜凡北美硕博咨询主管进入顾问主页>

学历背景：美国海归录取力：哥伦比亚大学,西北大学,南加州大学,CMU 客户评价：雷厉风行,注重细节,擅长规划

: -人正在咨询

向TA咨询95%用户选择

向TA咨询

微信扫码分享给好友和朋友圈

点击下方可复制链接好的

在线咨询

留学评估助力院校申请

定制方案

留学费用计算器

欧洲亚洲

电话咨询

预约回电

顾问将于15分钟内回电

咨询热线

小语种欧亚留学
400-650-0116

关于前途

公司简介大事记联系我们商务合作质量监督网站地图

留学国家和地区

一站式服务

申请规划求职就业背景提升学术指导跨境服务签证服务小语种

关注我们

官方小程序
官方公众号
官方微博
百家号

在线时间：7*24小时

在线客服

400-980-5599: 联系电话

关注我们：

合作伙伴

出国留学

出国留学

出国留学

出国留学

出国留学

出国留学

经营许可证编号：京ICP备05067667号-32 | 京ICP证060601号 | 京网文【2019】5257-605号 | 京公网安备11010802021790号 | 隐私协议
©版权所有：新东方教育科技集团有限公司 | 北京新东方前途出国咨询有限公司 | 所有服务仅面向18岁及以上人群

输入验证码: 我们已向您发送验证码短信
查看短信并输入验证码

验证码错误，请重新输入

秒后可重新发送

导航

导航

美国研究生

留学方案: 启航计划; 软实力成长; 尊享计划

热点关注: 博士申请; 申请指南; 录取捷报

美国本科

留学方案: 留学申请; 留学规划; 常春藤工作室

热点关注: 留学费用; 录取捷报; 智能选校

美国中学

留学方案: 微留学计划; 摆渡人项目; 智能选校

热点关注: 录取捷报; 留学费用; 申请指南

英国硕博

留学方案: 名企实习; 考研留学; 跃领计划

热点关注: 录取捷报; 大学排名; 智能选校; 留学测评

英国本科

留学方案: AST遴选; 预科申请; 跃领X

热点关注: 录取捷报; 大学排名; IPQ/EPQ; 留学测评

英国中学

留学方案: 微留学; 寄宿中学; 悦享计划

热点关注: 中学排名; 学术科研; 监护服务; 留学测评

加拿大

留学方案: OSSD; 优享计划; 同步指导

热点关注: 申请指南; 考研留学; 高考留学; 求职就业; 背景提升; 学术指导; 跨境服务; 留学测评

澳大利亚

留学方案: 同步指导; 新南预科项目

留学申请: 录取捷报; 留学费用; 申请指南; 求职就业; 背景提升; 学术指导; 跨境服务; 留学测评

新西兰

留学方案: 博睿计划; 学术指导; 本科留学

留学申请: 录取捷报; 留学费用; 申请指南; 求职就业; 背景提升; 学术指导; 跨境服务; 留学测评

日本

留学方案: SGU英文授课; EJU留学考试; 前途塾

申请阶段: 日本高中; 日本本科; 日本硕博

新加坡

留学方案: 留学攻略; 录取捷报; 热门院校

申请阶段: 新加坡低龄; 新加坡本科; 新加坡硕博

马来西亚

留学方案: 留学申请; 背景提升; 考研留学

申请阶段: 预科申请; 本科申请; 硕博申请

其他国家

香港低龄

申请指南: 内地衔接; 在港辅导; 中小幼港校

升读方案: 中小幼指导; GPA管理; 标化英语

香港本科

申请指南: 申请费用; 特色专业; 申请规划

申请方案: 副学士; 本科申请; 高端申请

香港硕博

申请指南: 选校指导; 申请条件; 背景提升

申请方案: 博士申请; 硕士申请; 考研留学

德国

申请阶段: 德国高中; 德国本科; 德国硕士

留学方案: 留学攻略; 高端申请; 护航计划

法国

申请阶段: 法国高中; 法国本科; 法国硕士

留学方案: 留学攻略; 高端申请; 热门专业

欧洲英语系

留学国家: 荷兰; 爱尔兰; 北欧四国; 瑞士

留学方案: 留学攻略; 背景提升; 录取捷报

其他语种

日语

零基础入门

日语能力考

德语

零基础入门

德福/歌德考试

法语

零基础入门

DELF/DALF法语考试

西班牙语

零基础入门

DELE/Siele西语考试

其他语种

中外合办

热点关注: 院校排名; 选校定校; 综评招生

留学方案: 美国硕士申请; 英国硕士申请; 本科申请

全球访学

在职硕博

攻读学位

国内城市海外分公司

当前选择城市：-

定位城市

-

重新定位

热门城市

B

C

D

F

G

H

J

K

L

M

N

Q

S

T

W

X

Y

Z

当前选择分公司：-

海外分公司

出国考试

语言考试: 雅思; 托福; PTE; 多邻国; 日语; 德国; 韩语; 法语; 西班牙语

中学考试: 雅思青少; 剑桥THiINK; 托福青少; 小托福; SSAT

本科考试: 雅思; 托福; SAT*I; ACT; AP*Exam; A-LEVEL; IB; IG; AMC

研究生入学考试: 雅思; 托福; GRE; GMAT

整体解决方案: 精英计划; 英本; 英研; 美高; 美本; 美研

B
C
D
F
G
H
J
K
L
M
N
Q
S
T
W
X
Y
Z

一种提升大语言模型能力的新方法

研究生
留学新闻

2025-12-31

卜凡美国研究生成都

从业年限: 7-10年

帮助人数: 50人

平均响应: 15分钟内

#向我咨询留学申请方案 咨询我

来自MIT 与 MIT-IBM Watson AI Lab 的研究人员提出了一种新的注意力架构，用于改善大语言模型在长文本中的状态跟踪与序列推理能力。

在自然语言、代码或复杂文档中，词序与上下文会随着文本推进不断变化，模型需要持续跟踪实体状态与条件关系。然而，当前大多数基于 Transformer 的模型在处理这类长期依赖时存在局限。其核心原因之一在于主流位置编码方法——旋转位置编码（RoPE）——采用静态、与内容无关的方式表示位置信息，只考虑词元之间的相对距离，而不反映路径中内容的变化。

为此，研究团队提出了一种新的位置编码机制，称为 PaTH Attention。与 RoPE 不同，该方法将两个词元之间的关系视为一条由中间词元构成的“路径”，并通过一系列与数据相关的数学变换逐步累积位置信息。每一步变换会根据当前词元内容进行调整，使模型能够感知语义与状态沿路径的变化过程。

研究人员还设计了一种计算方式，使这种累积变换能够被拆解为更小的运算单元，从而在 GPU 上保持较高的计算效率，避免对硬件资源造成明显负担。

在实验评估中，PaTH Attention 被应用于多类任务，包括合成推理任务、长上下文理解测试以及中等规模语言模型的完整训练。结果显示，该方法在状态跟踪、顺序推理和长文本建模方面均表现出更稳定的效果，并在未专门训练的推理基准上取得较好的泛化表现。

研究团队还将 PaTH Attention 与一种具备“遗忘”机制的位置编码方法结合，使模型能够在必要时降低对早期、相关性较低信息的权重，从而进一步改善长序列处理能力。整体来看，该工作为提升 Transformer 架构在复杂序列建模中的表达能力提供了一种新的技术路径。

更多详情

还有疑问？立即咨询专业顾问

卜凡

7-10年
从业年限

50人
帮助人数

15分钟内
平均响应

在线咨询 顾问在线解答疑问

电话咨询 电话高效沟通留学问题

分享到：

您的位置：首页>顾问中心>卜凡>日志>一种提升大语言模型能力的新方法

上一篇引导式学习让“难以训练”的神经网络展现可学习性

下一篇把“再利用”写进我们身边的材料设计里

推荐阅读换一换

未解决您的问题点击咨询

温馨提示

您当前咨询的卜凡顾问，所在分公司为 - ，已为您推荐就近分公司 - 的顾问。

以下为-分公司顾问：

继续向卜凡提问

顾问1对1咨询

输入验证码: 我们已向您发送验证码短信
查看短信并输入验证码

验证码错误，请重新输入

秒后可重新发送

提交成功

稍后会有顾问老师反馈评估结果

新东方教育科技集团有限公司|网站地图
北京新东方前途出国咨询有限公司
京ICP备05067667号-32
所有服务仅面向18岁及以上人群