EHRBench:基于电子健康记录的大模型临床决策能力自动化评估基准
大型语言模型(LLM)在医疗领域的应用日益广泛,从辅助诊断到治疗方案推荐,其潜力巨大。然而,LLM在真实临床决策任务中的可靠性究竟如何?近期,一项发表于ACM SIGKDD 2026的研究提出了EHRBench,一个基于电子健康记录(EHR)的自动化、高可靠性基准测试,旨在系统评估LLM的临床决策能力。
背景:临床决策评估的困境
临床决策(CDM)是医疗工作的核心,医生需在不完全信息下推断诊断、选择治疗或预测预后。LLM凭借强大的语言能力和生物医学知识,正被用于辅助这些决策。但现有评估方式存在两大短板:一是缺乏大规模、高质量且自动化的基准构建流程;二是许多基准脱离真实患者数据,难以衡量模型在实际任务中的表现。
EHRBench:自动化与可靠性的双重突破
EHRBench的构建采用了一种创新的EHR-LLM-知识库(KB)交互流水线。首先,利用专用LLM将患者的EHR轨迹(如就诊记录、检查结果)自动转换为结构化模板,再确定性实例化为问答对。同时,系统引入基于知识库的验证与增强机制,自动过滤幻觉或模糊关系,确保数据质量。
通过这一流程,EHRBench生成了近100万(960,067)个问答对,覆盖三大核心临床决策任务:
- 诊断:根据症状和检查结果推断疾病
- 治疗:针对特定病情选择最佳方案
- 预后:预测疾病进展或治疗结局
30+模型基准测试:能力趋势与关键差距
研究团队对超过30个代表性LLM进行了基准测试,包括GPT-4、Claude、Llama等系列模型。结果显示,不同模型在临床决策任务上表现出一致的能力趋势,例如:
- 模型在诊断任务上普遍优于治疗和预后任务
- 更大规模的模型通常表现更好,但提升幅度因任务而异
- 即使是最先进的模型,在需要多步推理或罕见病知识时仍存在明显短板
这些结果不仅验证了EHRBench的可靠性,也揭示了当前LLM在临床应用中亟待改进的方向:知识准确性、推理稳健性以及对真实世界数据复杂性的适应能力。
未来展望
EHRBench为LLM在医疗领域的可信应用提供了关键评估工具。随着医疗大模型从实验室走向临床,类似EHRBench这样基于真实EHR、自动化且可扩展的基准将成为标准配置。研究团队表示,未来将扩展任务类型并引入更多维度的评估指标,如公平性和安全性。
对于AI从业者而言,这一基准的发布意味着:临床决策评估不再依赖人工构建的小规模数据集,而是有了一个可复现、高覆盖的自动化方案。对于医疗专业人士,它则提供了一个量化LLM能力的“标尺”,帮助判断模型何时值得信赖、何时需要谨慎。