OPSA：在线策略自蒸馏减轻LLM安全税，提升推理与安全平衡

大型语言模型（LLM）的安全对齐往往以牺牲推理能力为代价，这一现象被称为“安全税”（safety tax）。最新研究指出，传统监督微调中使用的离线策略（off-policy）训练是导致这一权衡的重要原因。来自多所机构的研究团队提出了**OPSA（On-Policy Self-Distillation for Safety Alignment）**方法，通过在线策略自蒸馏有效改善了安全与推理的平衡。

安全税的来源

安全对齐通常通过人类标注、外部模型或固定自生成轨迹的安全示例进行监督微调。然而，这些示例并非来自目标模型自身的策略分布，导致分布不匹配。研究团队发现，这种离线策略训练是安全税的第二大来源。模型在推理时面对的是自己生成的轨迹，而非训练时看到的固定示例，因此难以泛化。

OPSA的核心机制

OPSA让模型生成自己的展开轨迹（rollouts），并从自身的一个冻结教师副本接收密集的逐token KL散度监督。这个教师副本在训练时被赋予一个“特权安全上下文”（privileged safety context），使其能够比学生轨迹更安全。关键创新在于引入了**教师翻转率（teacher flip rate）**指标：衡量特权上下文将不安全响应转换为安全响应的频率。通过这个信号，可以自动搜索能激活模型内在安全推理能力的上下文，而非仅仅诱发表面安全的行为。

实验效果

在两组推理模型家族（R1-Distill和Qwen3）及五个模型规模上，OPSA在相同数据和全参数微调条件下，显著优于离线自蒸馏和外部教师蒸馏方法。尤其在小模型上提升明显：

R1-Distill-1.5B：安全评分提升 +8.85 点
Qwen3-0.6B：安全评分提升 +5.49 点

这些优势在不同训练集大小和自适应越狱评估中均保持稳定。

机制分析

逐token分析表明，OPSA的更新主要集中在早期的“合规决策token”（compliance-decision tokens）附近。这意味着模型在决定是否服从恶意请求的关键节点上得到了强化，从而在不干扰后续推理过程的前提下提升安全性。这解释了为何OPSA能在保持推理能力的同时增强安全对齐。

行业意义

安全税一直是LLM部署中的核心痛点：过于保守的模型可能拒绝合理请求，而过于开放的模型则易受攻击。OPSA提供了一种无需外部教师或复杂数据收集的轻量级方案，尤其适合资源受限的小模型场景。未来，结合在线策略的自我改进方法可能成为安全对齐的主流方向。

减轻LLM安全对齐中的“安全税”：在线策略自蒸馏方法OPSA

安全税的来源

OPSA的核心机制

实验效果

机制分析

行业意义

延伸阅读

相关资讯