消息称 Meta 无视自家律师警告，使用盗版书籍训练 AI 模型

12 月 13 日消息，据路透社报道，根据一起版权侵权诉讼的新文件显示，Meta Platforms 在明知使用数千本盗版书籍训练其 AI 模型存在法律风险的情况下，仍然一意孤行。

据了解，该诉讼由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 等著名作家于今年夏天联合发起，他们指控 Meta 未经许可使用其作品训练人工智能语言模型 Llama。本周一起，该案与另一起类似诉讼合并审理。

上个月，加州一位法官驳回了 Silverman 的部分诉讼，但表示将允许作者修改诉讼内容。新诉状中包含了 Meta 一名研究员在 Discord 聊天服务器上讨论获取数据集的聊天记录，这可能是 Meta 知晓使用书籍可能存在版权风险的重要证据。聊天记录中的对话显示，他们曾讨论过使用盗版书籍训练 AI 模型的法律风险。其中，一位 Meta 研究员 Tim Dettmers 提到，Meta 的法律部门律师曾表示，如果使用这些书籍训练 AI 模型，可能会存在法律问题。律师称，这些数据无法使用，如果使用了的话，模型也无法发布。

今年，多家科技公司都面临着内容创作者的类似指控，他们指责这些公司在构建生成式 AI 模型时侵犯了作品版权。

如果这些诉讼成功，可能会给生成式 AI 的发展带来不利影响，因为这可能会增加构建 AI 模型的成本，迫使 AI 公司向艺术家、作者和其他内容创作者支付使用其作品的费用。

与此同时，欧盟关于人工智能的新临时规则可能会迫使公司披露其用于训练模型的数据，这可能会使他们面临更大的法律风险。

Meta 于今年 2 月发布了其第一版 Llama 大型语言模型，并公布了用于训练的数据集列表，其中包括“ThePile”数据集的“Books3”部分。根据诉讼文件，该数据集的创建者曾表示，其中包含 196,640 本书籍。该公司没有披露其最新版模型 Llama 2 的训练数据，该模型于今年夏天面向商业用户开放。