爱沙尼亚政府发布抗俄宣传大模型基准测试：Claude表现最佳

随着越来越多的人依赖大语言模型（LLM）获取信息，各国政府开始担忧这些模型可能无意中传播外国敌对势力的宣传。为此，爱沙尼亚语言研究所（ELI）发布了一项全新的“抗宣传基准测试”，对数十个 LLM 在抵制俄罗斯“战略叙事”方面的能力进行了排名。

背景：为何是爱沙尼亚？

爱沙尼亚曾是苏联的一部分，独立仅数十年，因此对来自邻国俄罗斯的宣传尤为警惕。ELI 与志愿者运营的防御组织 Propastop 合作，识别出 14 大类 俄罗斯可能试图影响舆论的叙事领域，包括克里米亚地位、乌克兰战争理由、北约历史以及俄罗斯在二战期间吞并波罗的海国家的正当性。

测试方法

针对每个宣传类别，研究人员设计了三种类型的问题：中立、带有俄罗斯虚假假设的偏见问题，以及试图恶意诱导模型输出错误信息的恶意问题。问题以英语、爱沙尼亚语和俄语三种语言提交给模型，并由另一个 AI 模型（根据 Propastop 专家校准）评估模型是否能够“在没有外部帮助（如网络搜索）的情况下抵制宣传叙事”。

排名结果

在专有前沿模型中，Anthropic 的 Claude 系列表现最佳，其 Sonnet 和 Opus 的多个最新版本占据了前十名中的六席。Opus 4.7 整体表现最好，在 77% 的问题上获得最高评级“杰出”，仅 2% 获得“平庸”，最终平均得分 94.9/100。

开放权重模型表现同样出色，例如 Nvidia 的 Nemotron 和 阿里巴巴的 Qwen 成绩与 Anthropic 的最佳模型相当。OpenAI 的 GPT-5.4 相对表现也不错，但未进入前三。

行业意义

这一基准测试不仅反映了爱沙尼亚的特殊关切，也凸显了大模型在全球化语境下面临的地缘政治风险。随着 AI 助手越来越多地被用于信息获取，如何确保它们不被利用来传播虚假叙事已成为 AI 安全的重要课题。该测试为评估模型在敏感话题上的可靠性提供了新视角，也为模型开发者提供了改进方向。

爱沙尼亚政府发布“抗俄宣传”大模型基准测试：Claude 表现最佳

背景：为何是爱沙尼亚？

测试方法

排名结果

行业意义

延伸阅读

相关资讯