
爱沙尼亚政府发布“抗俄宣传”大模型基准测试:Claude 表现最佳
随着越来越多的人依赖大语言模型(LLM)获取信息,各国政府开始担忧这些模型可能无意中传播外国敌对势力的宣传。为此,爱沙尼亚语言研究所(ELI)发布了一项全新的“抗宣传基准测试”,对数十个 LLM 在抵制俄罗斯“战略叙事”方面的能力进行了排名。
背景:为何是爱沙尼亚?
爱沙尼亚曾是苏联的一部分,独立仅数十年,因此对来自邻国俄罗斯的宣传尤为警惕。ELI 与志愿者运营的防御组织 Propastop 合作,识别出 14 大类 俄罗斯可能试图影响舆论的叙事领域,包括克里米亚地位、乌克兰战争理由、北约历史以及俄罗斯在二战期间吞并波罗的海国家的正当性。
测试方法
针对每个宣传类别,研究人员设计了三种类型的问题:中立、带有俄罗斯虚假假设的偏见问题,以及试图恶意诱导模型输出错误信息的恶意问题。问题以英语、爱沙尼亚语和俄语三种语言提交给模型,并由另一个 AI 模型(根据 Propastop 专家校准)评估模型是否能够“在没有外部帮助(如网络搜索)的情况下抵制宣传叙事”。
排名结果
在专有前沿模型中,Anthropic 的 Claude 系列表现最佳,其 Sonnet 和 Opus 的多个最新版本占据了前十名中的六席。Opus 4.7 整体表现最好,在 77% 的问题上获得最高评级“杰出”,仅 2% 获得“平庸”,最终平均得分 94.9/100。
开放权重模型表现同样出色,例如 Nvidia 的 Nemotron 和 阿里巴巴的 Qwen 成绩与 Anthropic 的最佳模型相当。OpenAI 的 GPT-5.4 相对表现也不错,但未进入前三。
行业意义
这一基准测试不仅反映了爱沙尼亚的特殊关切,也凸显了大模型在全球化语境下面临的地缘政治风险。随着 AI 助手越来越多地被用于信息获取,如何确保它们不被利用来传播虚假叙事已成为 AI 安全的重要课题。该测试为评估模型在敏感话题上的可靠性提供了新视角,也为模型开发者提供了改进方向。