SheepNav
新上线5天前0 投票

SilIF:基于轮廓系数的隔离森林增强,用于无监督交易欺诈检测

在金融交易欺诈检测领域,标签数据稀缺使得无监督异常检测方法备受青睐。隔离森林(Isolation Forest, IF) 因其可扩展性和易部署性成为经典方法之一。近期,一篇 arXiv 论文提出了 SilIF,一种通过引入轮廓系数(silhouette score)来增强隔离森林的无监督异常检测算法。

SilIF 的核心思路是:在隔离森林每棵树生成的路径长度向量基础上,对样本进行聚类,并计算每个样本的轮廓系数,衡量其与其所属簇的匹配度。然后将轮廓系数与原始 IF 异常分数通过一个超参数 α 融合。在 IEEE-CIS 欺诈检测基准数据集(约 59 万笔交易,欺诈率 3.5%)上,当 α=1.0 时,SilIF 的平均 AUC-PR 比原始 IF 提升 +0.0080,且在全部 5 个随机种子下均优于 IF(配对 t 检验 p=0.046)。

然而,在合成信用卡数据集 Sparkov 上,轮廓增强并未带来改进。论文分析了两种数据集的特征差异,指出 SilIF 在结构分组明显的场景下更有效。总体而言,SilIF 是一个可调、易部署的增强方案,且作者诚实地报告了其适用条件。

延伸阅读

  1. NumLeak:公开数值基准竟成基础模型“潜标签”,前沿大模型记忆能力惊人
  2. MADQI:面向AIS船舶异常检测的无监督学习新评估指标
  3. 突破 fMRI 数据瓶颈:双谱流匹配模型生成高保真脑功能时序数据
查看原文