一种提升大语言模型能力的新方法-新东方前途出国

留学顾问卜凡

卜凡

美国硕博咨询组长

成都
  • 擅长方案:考研留学双保险,高端申请,职业规划
  • 擅长专业:计算机,商科,工科
  • 录取成果:哥伦比亚大学,西北大学,南加州大学,CMU
从业年限
10
帮助人数
948
平均响应
15分钟

顾问服务

1对1定制 · 专业服务 · 官网保障

在线咨询 顾问在线解答疑问
电话咨询 电话高效沟通留学问题

    预约回电

    顾问将于15分钟内回电

    获取验证码
    立即预约

    微信1对1咨询

    您的位置: 首页>顾问中心>卜凡>日志>一种提升大语言模型能力的新方法

    欢迎向我提问

    *顾问预计24小时内解答,并通过短信方式通知您

    卜凡

    卜凡

    美国硕博咨询组长

      获取验证码
      向TA提问

      温馨提示

      您当前咨询的顾问所在分公司为 成都 为您推荐就近分公司 - 的顾问

      继续向卜凡提问 >
      预览结束
      填写信息下载完整版手册
      获取验证码
      一键解锁留学手册
      在线咨询
      免费评估
      留学评估助力院校申请
      获取验证码
      立即评估
      定制方案
      费用计算
      留学费用计算器
      电话咨询
      预约回电

      顾问将于15分钟内回电

      获取验证码
      立即预约
      咨询热线

      小语种欧亚留学
      400-650-0116

      输入验证码
      我们已向发送验证码短信
      查看短信并输入验证码

      验证码错误,请重新输入

      秒后可重新发送

      导航

      一种提升大语言模型能力的新方法

      • 研究生
      • 留学新闻
      2025-12-31

      卜凡美国研究生成都

      从业年限
      1-3
      帮助人数
      50
      平均响应
      15分钟内
      #向我咨询留学申请方案 咨询我

      来自MIT 与 MIT-IBM Watson AI Lab 的研究人员提出了一种新的注意力架构,用于改善大语言模型在长文本中的状态跟踪与序列推理能力。

      在自然语言、代码或复杂文档中,词序与上下文会随着文本推进不断变化,模型需要持续跟踪实体状态与条件关系。然而,当前大多数基于 Transformer 的模型在处理这类长期依赖时存在局限。其核心原因之一在于主流位置编码方法——旋转位置编码(RoPE)——采用静态、与内容无关的方式表示位置信息,只考虑词元之间的相对距离,而不反映路径中内容的变化。

      为此,研究团队提出了一种新的位置编码机制,称为 PaTH Attention。与 RoPE 不同,该方法将两个词元之间的关系视为一条由中间词元构成的“路径”,并通过一系列与数据相关的数学变换逐步累积位置信息。每一步变换会根据当前词元内容进行调整,使模型能够感知语义与状态沿路径的变化过程。

      研究人员还设计了一种计算方式,使这种累积变换能够被拆解为更小的运算单元,从而在 GPU 上保持较高的计算效率,避免对硬件资源造成明显负担。

      在实验评估中,PaTH Attention 被应用于多类任务,包括合成推理任务、长上下文理解测试以及中等规模语言模型的完整训练。结果显示,该方法在状态跟踪、顺序推理和长文本建模方面均表现出更稳定的效果,并在未专门训练的推理基准上取得较好的泛化表现。

      研究团队还将 PaTH Attention 与一种具备“遗忘”机制的位置编码方法结合,使模型能够在必要时降低对早期、相关性较低信息的权重,从而进一步改善长序列处理能力。整体来看,该工作为提升 Transformer 架构在复杂序列建模中的表达能力提供了一种新的技术路径。

      更多详情
      还有疑问?立即咨询专业顾问

      卜凡

      1-3
      从业年限
      50
      帮助人数
      15分钟内
      平均响应
      在线咨询 顾问在线解答疑问
      电话咨询 电话高效沟通留学问题
      推荐阅读 换一换
      温馨提示

      您当前咨询的 卜凡 顾问,所在分公司为 - ,已为您推荐就近分公司 - 的顾问。

      以下为-分公司顾问:

      继续向卜凡提问
      输入验证码
      我们已向发送验证码短信
      查看短信并输入验证码

      验证码错误,请重新输入

      秒后可重新发送

      提交成功

      稍后会有顾问老师反馈评估结果