SheepNav
新上线1个月前0 投票

U-CAN:面向生成式推荐的高效遗忘学习框架,解决隐私与性能平衡难题

生成式推荐中的隐私困境

随着大语言模型(LLMs)在推荐系统中的应用日益广泛,生成式推荐(GenRec) 正成为个性化服务的新范式。这种技术将推荐任务转化为指令驱动的序列生成问题,能够提供更加自然、个性化的交互体验。然而,在微调过程中,用户日志中的敏感属性(如年龄、性别、地理位置等)会不可避免地编码到模型参数中,引发严重的隐私泄露风险。

传统的机器遗忘(Machine Unlearning,MU) 技术试图通过梯度更新或参数剪枝来移除这些敏感信息,但在生成式推荐场景中却面临一个根本性挑战:多义性困境(Polysemy Dilemma)。简单来说,模型中的神经元往往同时承载着敏感数据和通用推理模式,粗暴地删除这些神经元会导致模型性能的灾难性下降。

U-CAN:精准遗忘的创新方案

针对这一难题,研究人员提出了U-CAN(Utility-aware Contrastive Attenuation) 框架。这是一种基于低秩适配器(LoRA)的精准遗忘方法,核心思想是在保护模型性能的前提下,有选择性地“衰减”而非完全删除高风险参数。

U-CAN 的工作原理可分为三个关键步骤:

  1. 风险量化:通过对比模型在“遗忘集”(包含敏感数据)和“保留集”(不包含敏感数据)上的激活差异,识别出那些对敏感信息高度敏感但对正常推理贡献有限的神经元。
  2. 效用感知校准:结合权重大小和保留集上的激活范数,为每个参数维度计算“效用分数”。分数高的维度对模型性能至关重要,在遗忘过程中应受到保护。
  3. 自适应软衰减:与传统的二值化剪枝不同,U-CAN 采用可微分的衰减函数,对 LoRA 适配器中的高风险参数进行选择性缩放。这既能抑制敏感信息的检索路径,又能保持推理电路的拓扑连通性,避免网络结构碎片化。

技术优势与实验验证

U-CAN 的创新之处在于它打破了隐私保护与模型效用之间的零和博弈。通过在两个公开数据集上的七项指标测试,该方法展现出以下优势:

  • 强隐私遗忘:有效移除敏感属性,降低隐私泄露风险。
  • 高效用保留:在遗忘敏感信息的同时,最大程度地保持了模型的推荐性能。
  • 计算高效:操作集中在轻量级的 LoRA 适配器上,避免了全模型重训练的巨大开销。

对 AI 推荐系统的启示

U-CAN 的出现标志着机器遗忘技术从粗放式删除向精细化调控的转变。对于日益依赖大语言模型的生成式推荐系统而言,这种能力至关重要:

  • 合规性驱动:随着全球数据保护法规(如 GDPR、CCPA)的收紧,可验证的遗忘能力将成为 AI 系统部署的必备功能。
  • 用户体验保障:用户有权要求平台删除其个人数据,而 U-CAN 确保了“被遗忘权”的执行不会以牺牲服务质量为代价。
  • 技术可持续性:避免了因隐私问题而频繁重新训练模型的资源浪费,提升了 AI 系统的长期运营效率。

小结

U-CAN 框架为解决生成式推荐中的隐私-效用权衡问题提供了一条切实可行的技术路径。它通过效用感知的对比衰减机制,在低秩适配器上实现了精准、高效的参数调控,为构建既智能又可信的下一代推荐系统奠定了重要基础。随着 AI 伦理与法规的不断演进,这类细粒度的隐私保护技术将扮演越来越关键的角色。

延伸阅读

  1. 从俳句到巨作仅需10比特:大语言模型解锁海量压缩增益
  2. 同质性感知的监督对比反事实增强公平图神经网络:解决GNN偏见的新方法
  3. PROGRS框架:利用过程奖励优化LLM数学推理,以结果为导向提升步骤准确性
查看原文