五大出版商联合起诉Meta：AI模型涉嫌逐字抄袭书籍

近日，包括麦克米伦、麦格劳希尔、圣智、哈切特和爱思唯尔在内的五家大型图书出版商，以及畅销书作家斯科特·特罗，联合对Meta提起集体诉讼，指控该公司在训练其Llama系列AI模型时，实施了“历史上最大规模的版权材料侵犯行为之一”。

诉讼指出，Meta明知故犯地从LibGen、Anna's Archive、Sci-Hub等“臭名昭著的盗版网站”大量复制受版权保护的书籍和期刊文章，并将其纳入训练数据。此外，Meta还使用了Common Crawl数据集，该数据集据称“充斥着未经授权的版权作品副本”。

更严重的是，原告方发现，Llama模型能够“逐字或近乎逐字”地输出受版权保护的内容。例如，当输入圣智畅销教材《微积分：早期超越函数》第九版中仅两个简短的句子时，Llama就能完整地续写出后续章节。这一行为构成了对原创内容的实质性替代，严重损害了出版商的利益。

这并非Meta首次因AI训练数据版权问题被起诉。此前已有数位作者对Meta提起诉讼，并在诉讼过程中揭露了Meta内部关于如何处理“媒体报道暗示我们使用了已知盗版数据集”的讨论。尽管去年一位联邦法官在另一起类似案件中做出了有利于Meta的裁决，但法官同时强调，该裁决“并不代表Meta使用版权材料训练语言模型是合法的”。

值得注意的是，就在上个月，一群作者也因类似原因起诉了AI公司Anthropic。而联邦法官此前曾裁定，在未经许可的情况下使用合法购买的书籍训练AI模型，并不自动构成合理使用。

此次诉讼再次将AI训练数据的版权问题推上风口浪尖。随着生成式AI的爆发式增长，如何在技术创新与知识产权保护之间取得平衡，已成为整个行业必须面对的严峻挑战。

五大出版商联合起诉Meta：AI模型涉嫌“逐字”抄袭受版权保护书籍

延伸阅读

相关资讯