SheepNav
新上线2天前0 投票

「一统遮罩」:知识编辑后隐藏的事实与发现方法

研究背景:模型编辑的“黑箱”问题

大型语言模型的知识编辑方法,如 ROMEMEMIT,通过修改 Transformer 中的 MLP 权重来更新事实关联。然而,现有评估主要关注输出行为,对内部机制的理解仍显不足。

核心发现:编辑依赖共同的权重子集

来自慕尼黑大学和代尔夫特理工大学的研究团队发现,尽管每次编辑会改变不同的权重,但 ROME 和 MEMIT 实际上都作用于一个关键权重子集。为了隔离这个子集,他们训练了一个紧凑的二进制掩码,能够逆转编辑效果。实验显示,该掩码在训练集上可逆转 80% 的编辑,在测试集上超过 70%,证实了不同编辑共享共同的功能结构。

机制分析:抑制而非覆盖

进一步分析表明,掩码通过消除后层中的过度注意力来逆转编辑。更关键的是,在编辑过程中注入该掩码,会使编辑成功率从 98% 骤降至 38%,证明该机制对编辑成功不可或缺。这一发现揭示了 ROME 和 MEMIT 的编辑本质是抑制原有知识而非覆盖,解释了为何这类方法无法将更改传播到相关事实。

意义与应用

该研究识别的共同功能子空间为检测和防御不当编辑提供了新途径。论文已被 ACL 2026 Findings 接收,为模型可解释性和安全性研究打开了新视角。

小结

这项研究首次系统性地揭示了知识编辑的隐藏机制,不仅深化了我们对模型内部运作的理解,也为开发更可靠的编辑方法奠定了基础。

延伸阅读

  1. Acer 与 Asus 对决:我测试了数十款笔记本,最终胜出的是……
  2. AI 狂热下的反思:科技 CEO 们是否陷入了“AI 精神错乱”?
  3. 在Android Auto上用Gemini两个月,我的日常驾驶发生了4个变化
查看原文