SheepNav
新上线今天0 投票

ERRORQUAKE:开源大模型错误严重性的重尾分布——准确率之外的隐藏信息

在评估大型语言模型(LLM)时,业界通常关注准确率这一标量指标。然而,一篇来自 arXiv 的新论文《ERRORQUAKE: Heavy-Tailed Error Severity Distributions in Open-Weight Large Language Models》指出,即使准确率相同,不同开源模型在错误严重性的分布形态上可能存在显著差异——这一差异被传统的错误率完全掩盖。

传统的幻觉评测仅统计错误数量,将“日期错误”与“编造法律裁决”等性质迥异的错误等同对待,但两者在实际危害上相差数个数量级。为此,研究者引入了 Errorquake-10k 基准测试,包含 10,000 条查询,覆盖 8 个领域和 5 个难度等级,对每个回答在 0-4 的连续严重性尺度上打分。

通过对 21 个开源模型进行拟合,研究者为每个模型估计了严重性分布指数 b(类似地震学中的 Gutenberg-Richter 上尾斜率),并给出了 95% 置信区间。关键发现是:在 210 个模型对中,有 85 对在准确率匹配(误差差小于 0.05)的情况下,其 b 值的置信区间完全不重叠。例如,deepseek-v3.2ministral-14b 在准确率均为 0.586 时,b 值差达到 0.47。

一项包含 519 个样本、三人标注的验证研究证实了评测的可靠性(组内相关系数 ICC(2,k=3)=0.85),并验证了 LLM 评判的排序一致性(斯皮尔曼相关系数 ρ=0.89),同时确认了密集模型在人类数据上的规模相关性(ρ_s=-0.86)。

论文的核心理论贡献是 不可约简性定理:严重性分布与错误率在信息论上是非冗余的。条件互信息 I(b; model | ε)=1.56 bits,意味着 64.5% 的跨模型 b 值方差无法被错误率解释。

进一步的严重性机制分类(kappa=0.83)揭示了错误类型随严重性变化的规律:低严重性错误中 71% 是检索错误,而高严重性错误中 39% 是编造——且这一构成随模型规模显著变化(p<0.0001)。

该研究建议,在报告模型表现时,应将严重性分布与准确率并列。严重性分布携带错误率无法提供的判别信息,对于高风险应用(如法律、医疗)尤为重要。未来的 LLM 评测不应只问“错得多少”,还应关注“错得多严重”。

延伸阅读

  1. Differentiable Efficient Operator Search
  2. 大步长梯度下降如何恢复多路径深度线性网络的对称性?ICML 2026研究揭秘
  3. 状态承诺学习:训练语言模型区分计算与记忆
查看原文