MedCalc-Bench基准审计：临床AI评估的局限与开放式评测新方向

MedCalc-Bench 作为评估大语言模型在临床计算任务上性能的常用基准，其有效性正受到挑战。一篇新论文通过系统审计发现，该基准存在超过20处从关键公式错误到运行时缺陷的问题，并指出其当前评估框架可能未能准确衡量模型的临床推理能力。

基准审计：揭示隐藏的缺陷

论文作者对 MedCalc-Bench 的计算器实现进行了系统性审计，结果令人惊讶：在 NeurIPS 发表的该数据集中，发现了超过 20 处错误。这些错误范围广泛，包括：

这些发现意味着，此前基于该基准的模型性能分数（例如，在 HELM MedHELM 排行榜上，最先进的直接提示方法在 Verified 分割上的准确率徘徊在 35% 左右）可能建立在有缺陷的基础之上。

研究提出了一个简单的干预措施：在推理时为模型提供计算器规范，即采用 “开放式提示” 方法。实验结果显示，这一方法无需任何微调，就能大幅提升模型性能：

研究还利用 GPT-5.2-Thinking 模型探索了该任务的理论性能上限，达到了 95-97%。剩余的误差主要归因于：

综合这些发现，论文的核心论点在于：MedCalc-Bench 目前主要衡量的是模型对特定公式的记忆能力和算术精度，而非真正的临床推理能力。

论文主张，应将 MedCalc-Bench 更好地定位为 “工具使用评估” 的基准。在现实世界中，医生也会查阅手册、使用计算器或咨询专业数据库。因此，评估模型能否正确、有效地利用给定的工具规范（如计算器公式）来解决问题，比评估它能否凭记忆复现这些计算更为关键，也更具实际意义。

开放式评估（允许模型在推理时访问必要知识）或许更能反映模型在辅助诊断、治疗方案计算等实际医疗场景中的潜在效用。

这项研究不仅暴露了一个广泛使用基准的技术缺陷，更引发了关于如何更有效地评估AI医疗能力的深层思考。它提醒业界：

未来，如何设计能更好衡量临床推理、决策过程而不仅仅是计算结果的基准，将是AI医疗评估领域的一个重要课题。