EHRBench：大模型临床决策能力自动化评估基准

大型语言模型（LLM）在医疗领域的应用日益广泛，从辅助诊断到治疗方案推荐，其潜力巨大。然而，LLM在真实临床决策任务中的可靠性究竟如何？近期，一项发表于ACM SIGKDD 2026的研究提出了EHRBench，一个基于电子健康记录（EHR）的自动化、高可靠性基准测试，旨在系统评估LLM的临床决策能力。

背景：临床决策评估的困境

临床决策（CDM）是医疗工作的核心，医生需在不完全信息下推断诊断、选择治疗或预测预后。LLM凭借强大的语言能力和生物医学知识，正被用于辅助这些决策。但现有评估方式存在两大短板：一是缺乏大规模、高质量且自动化的基准构建流程；二是许多基准脱离真实患者数据，难以衡量模型在实际任务中的表现。

EHRBench：自动化与可靠性的双重突破

EHRBench的构建采用了一种创新的EHR-LLM-知识库（KB）交互流水线。首先，利用专用LLM将患者的EHR轨迹（如就诊记录、检查结果）自动转换为结构化模板，再确定性实例化为问答对。同时，系统引入基于知识库的验证与增强机制，自动过滤幻觉或模糊关系，确保数据质量。

通过这一流程，EHRBench生成了近100万（960,067）个问答对，覆盖三大核心临床决策任务：

诊断：根据症状和检查结果推断疾病
治疗：针对特定病情选择最佳方案
预后：预测疾病进展或治疗结局

30+模型基准测试：能力趋势与关键差距

研究团队对超过30个代表性LLM进行了基准测试，包括GPT-4、Claude、Llama等系列模型。结果显示，不同模型在临床决策任务上表现出一致的能力趋势，例如：

模型在诊断任务上普遍优于治疗和预后任务
更大规模的模型通常表现更好，但提升幅度因任务而异
即使是最先进的模型，在需要多步推理或罕见病知识时仍存在明显短板

这些结果不仅验证了EHRBench的可靠性，也揭示了当前LLM在临床应用中亟待改进的方向：知识准确性、推理稳健性以及对真实世界数据复杂性的适应能力。

未来展望

EHRBench为LLM在医疗领域的可信应用提供了关键评估工具。随着医疗大模型从实验室走向临床，类似EHRBench这样基于真实EHR、自动化且可扩展的基准将成为标准配置。研究团队表示，未来将扩展任务类型并引入更多维度的评估指标，如公平性和安全性。

对于AI从业者而言，这一基准的发布意味着：临床决策评估不再依赖人工构建的小规模数据集，而是有了一个可复现、高覆盖的自动化方案。对于医疗专业人士，它则提供了一个量化LLM能力的“标尺”，帮助判断模型何时值得信赖、何时需要谨慎。

EHRBench：基于电子健康记录的大模型临床决策能力自动化评估基准

背景：临床决策评估的困境

EHRBench：自动化与可靠性的双重突破

30+模型基准测试：能力趋势与关键差距

未来展望

延伸阅读

相关资讯