ERRORQUAKE：大模型错误严重性分布揭示准确率隐藏信息

在评估大型语言模型（LLM）时，业界通常关注准确率这一标量指标。然而，一篇来自 arXiv 的新论文《ERRORQUAKE: Heavy-Tailed Error Severity Distributions in Open-Weight Large Language Models》指出，即使准确率相同，不同开源模型在错误严重性的分布形态上可能存在显著差异——这一差异被传统的错误率完全掩盖。

传统的幻觉评测仅统计错误数量，将“日期错误”与“编造法律裁决”等性质迥异的错误等同对待，但两者在实际危害上相差数个数量级。为此，研究者引入了 Errorquake-10k 基准测试，包含 10,000 条查询，覆盖 8 个领域和 5 个难度等级，对每个回答在 0-4 的连续严重性尺度上打分。

通过对 21 个开源模型进行拟合，研究者为每个模型估计了严重性分布指数 b（类似地震学中的 Gutenberg-Richter 上尾斜率），并给出了 95% 置信区间。关键发现是：在 210 个模型对中，有 85 对在准确率匹配（误差差小于 0.05）的情况下，其 b 值的置信区间完全不重叠。例如，deepseek-v3.2 与 ministral-14b 在准确率均为 0.586 时，b 值差达到 0.47。

一项包含 519 个样本、三人标注的验证研究证实了评测的可靠性（组内相关系数 ICC(2,k=3)=0.85），并验证了 LLM 评判的排序一致性（斯皮尔曼相关系数 ρ=0.89），同时确认了密集模型在人类数据上的规模相关性（ρ_s=-0.86）。

论文的核心理论贡献是 不可约简性定理：严重性分布与错误率在信息论上是非冗余的。条件互信息 I(b; model | ε)=1.56 bits，意味着 64.5% 的跨模型 b 值方差无法被错误率解释。

进一步的严重性机制分类（kappa=0.83）揭示了错误类型随严重性变化的规律：低严重性错误中 71% 是检索错误，而高严重性错误中 39% 是编造——且这一构成随模型规模显著变化（p<0.0001）。

该研究建议，在报告模型表现时，应将严重性分布与准确率并列。严重性分布携带错误率无法提供的判别信息，对于高风险应用（如法律、医疗）尤为重要。未来的 LLM 评测不应只问“错得多少”，还应关注“错得多严重”。

ERRORQUAKE：开源大模型错误严重性的重尾分布——准确率之外的隐藏信息

延伸阅读

相关资讯