精选13天前0 投票
公平输出下的隐藏偏见:LLM在高风险决策中的因果效力与不对称性
一项来自 arXiv 的新研究揭示了指令微调语言模型在高风险决策中的“表里不一”现象:模型在输出层面表现出公平性,但其内部表示仍保留着有偏关联,且这种隐藏偏见具有因果效力——当被重新激活时,足以完全逆转决策。更值得警惕的是,这种偏见的影响是不对称的,且易受对抗性提示和微调攻击。
研究背景
随着大语言模型(LLM)被越来越多地应用于贷款审批、招聘等高风险场景,公平性成为核心关切。此前的研究发现,指令微调(instruction tuning)能让模型在输出上符合公平规范,但其内部表示(internal representations)仍可能编码人口统计偏见。然而,这些被抑制的偏见能否影响实际输出,以及其影响是否对称,一直悬而未决。
核心发现
研究者使用开放权重模型模拟抵押贷款审批,输入仅在种族关联名字上不同的匹配申请。结果发现:
- 输出层无偏见:模型对种族关联名字的批准率无显著差异,通过标准行为审计。
- 内部表示保留偏见:通过探测模型各层的表示,发现种族关联信息仍被编码且随层数加深而放大。
- 因果效力:通过激活干预(activation steering)在关键层注入这些隐藏表示,可以完全逆转模型决策——原本被拒绝的申请变成批准,反之亦然。
- 不对称性:干预对某一人口群体的决策影响显著,而对另一群体几乎无效,表明偏见方向的不对称。
- 可被利用:这种隐藏偏见可通过对抗性提示或参数高效微调(PEFT)轻易触发。
行业影响
该研究对AI治理提出严峻挑战:仅依赖输出层面的行为审计远远不够。即使模型在测试中表现公平,其内部仍可能藏有可被恶意利用的偏见。研究者建议采用双层测试框架:结合输出评估与表示分析(representational analysis),才能有效监管高风险决策中的LLM。
总结
这项研究再次提醒我们,LLM的公平性不能只看表面。随着模型在金融、司法等领域的渗透,建立更全面的评估体系刻不容缓。


