SheepNav
新上线26天前0 投票

五大出版商联合起诉Meta:AI模型涉嫌“逐字”抄袭受版权保护书籍

近日,包括麦克米伦、麦格劳希尔、圣智、哈切特和爱思唯尔在内的五家大型图书出版商,以及畅销书作家斯科特·特罗,联合对Meta提起集体诉讼,指控该公司在训练其Llama系列AI模型时,实施了“历史上最大规模的版权材料侵犯行为之一”。

诉讼指出,Meta明知故犯地从LibGen、Anna's Archive、Sci-Hub等“臭名昭著的盗版网站”大量复制受版权保护的书籍和期刊文章,并将其纳入训练数据。此外,Meta还使用了Common Crawl数据集,该数据集据称“充斥着未经授权的版权作品副本”。

更严重的是,原告方发现,Llama模型能够“逐字或近乎逐字”地输出受版权保护的内容。例如,当输入圣智畅销教材《微积分:早期超越函数》第九版中仅两个简短的句子时,Llama就能完整地续写出后续章节。这一行为构成了对原创内容的实质性替代,严重损害了出版商的利益。

这并非Meta首次因AI训练数据版权问题被起诉。此前已有数位作者对Meta提起诉讼,并在诉讼过程中揭露了Meta内部关于如何处理“媒体报道暗示我们使用了已知盗版数据集”的讨论。尽管去年一位联邦法官在另一起类似案件中做出了有利于Meta的裁决,但法官同时强调,该裁决“并不代表Meta使用版权材料训练语言模型是合法的”。

值得注意的是,就在上个月,一群作者也因类似原因起诉了AI公司Anthropic。而联邦法官此前曾裁定,在未经许可的情况下使用合法购买的书籍训练AI模型,并不自动构成合理使用。

此次诉讼再次将AI训练数据的版权问题推上风口浪尖。随着生成式AI的爆发式增长,如何在技术创新与知识产权保护之间取得平衡,已成为整个行业必须面对的严峻挑战。

延伸阅读

  1. NumLeak:公开数值基准竟成基础模型“潜标签”,前沿大模型记忆能力惊人
  2. 突破 fMRI 数据瓶颈:双谱流匹配模型生成高保真脑功能时序数据
  3. 当LLM学会“故意犯错”:多模型研究揭示线性欺骗表征
查看原文