LLM隐藏偏见：公平输出下决策可被完全逆转

一项来自 arXiv 的新研究揭示了指令微调语言模型在高风险决策中的“表里不一”现象：模型在输出层面表现出公平性，但其内部表示仍保留着有偏关联，且这种隐藏偏见具有因果效力——当被重新激活时，足以完全逆转决策。更值得警惕的是，这种偏见的影响是不对称的，且易受对抗性提示和微调攻击。

研究背景

随着大语言模型（LLM）被越来越多地应用于贷款审批、招聘等高风险场景，公平性成为核心关切。此前的研究发现，指令微调（instruction tuning）能让模型在输出上符合公平规范，但其内部表示（internal representations）仍可能编码人口统计偏见。然而，这些被抑制的偏见能否影响实际输出，以及其影响是否对称，一直悬而未决。

核心发现

研究者使用开放权重模型模拟抵押贷款审批，输入仅在种族关联名字上不同的匹配申请。结果发现：

输出层无偏见：模型对种族关联名字的批准率无显著差异，通过标准行为审计。
内部表示保留偏见：通过探测模型各层的表示，发现种族关联信息仍被编码且随层数加深而放大。
因果效力：通过激活干预（activation steering）在关键层注入这些隐藏表示，可以完全逆转模型决策——原本被拒绝的申请变成批准，反之亦然。
不对称性：干预对某一人口群体的决策影响显著，而对另一群体几乎无效，表明偏见方向的不对称。
可被利用：这种隐藏偏见可通过对抗性提示或参数高效微调（PEFT）轻易触发。

行业影响

该研究对AI治理提出严峻挑战：仅依赖输出层面的行为审计远远不够。即使模型在测试中表现公平，其内部仍可能藏有可被恶意利用的偏见。研究者建议采用双层测试框架：结合输出评估与表示分析（representational analysis），才能有效监管高风险决策中的LLM。

总结

这项研究再次提醒我们，LLM的公平性不能只看表面。随着模型在金融、司法等领域的渗透，建立更全面的评估体系刻不容缓。

公平输出下的隐藏偏见：LLM在高风险决策中的因果效力与不对称性

研究背景

核心发现

行业影响

总结

延伸阅读

相关资讯