《纽约时报》要求OpenAI和微软支付训练数据费用

AI7号2024-01-11718

Chat中文版

《纽约时报》正在起诉OpenAI及其密切合作伙伴(也是投资者)微软,声称他们通过训练生成性人工智能模型使用《纽约时报》的内容,从而涉嫌侵犯版权法。

《纽约时报》在曼哈顿联邦地区法院提起诉讼,称数百万篇文章被用于训练AI模型,包括支持OpenAI的超受欢迎的ChatGPT和微软的Copilot。《纽约时报》要求OpenAI和微软“销毁”含有侵权内容的模型和训练数据,并承担与“非法复制和使用《纽约时报》独特有价值作品”相关的“数十亿美元的法定和实际损害赔偿责任”。

《时代报》的投诉称:“如果《时代报》和其他新闻机构无法制作和保护独立的新闻报道,将会出现一个无法由计算机或人工智能填补的真空。”“将会减少新闻报道的生产,对社会造成巨大的成本。”

在一份电子邮件声明中,OpenAI的发言人表示:“我们尊重内容创作者和所有者的权益,并致力于与他们合作,确保他们从人工智能技术和新的收益模式中获益。我们与《纽约时报》一直在积极有效地进行对话,因此我们对此发展感到惊讶和失望。我们希望我们能够找到一种互利共赢的合作方式,就像我们与许多其他出版商一样。”

生成式AI模型通过学习示例来创作论文、代码、电子邮件、文章等内容,像OpenAI这样的供应商会从网络中收集数百万到数十亿个这些示例,以增加其训练集的规模。有些示例来源于公共领域,而其他一些则受到限制性许可证的保护,需要引用或特定形式的补偿。

供应商认为公平使用原则为他们的网页抓取实践提供了全面保护。版权持有者持不同意见;如今有数百家新闻机构正在使用代码阻止OpenAI、谷歌和其他公司扫描他们的网站以获取训练数据。

供应商与门店之间的冲突导致了越来越多的法律战斗,而《泰晤士报》成为最新的一例。

演员萨拉·西尔弗曼于7月份参与了两起诉讼,指责Meta和OpenAI“摄取”了她的回忆录来训练他们的人工智能模型。在另一起诉讼中,包括乔纳森·弗兰岑和约翰·格里沙姆在内的数千名小说家声称,OpenAI未经他们的许可或知情地使用了他们的作品作为训练数据。此外,还有几位程序员正在对微软、OpenAI和GitHub提起持续的诉讼,涉及AI辅助代码生成工具Copilot,原告称该工具是使用了他们受知识产权保护的代码开发的。

虽然《泰晤士报》不是第一个因据称生成AI供应商侵犯版权而起诉的,但是这是迄今为止涉及此类诉讼中最大的出版商之一,并且是最早提到可能会对其品牌造成“幻觉”——即来自生成AI模型的虚构事实——的公司之一。

《时代报》的投诉引用了几个案例,其中微软的必应聊天(现称波派)根据OpenAI模型支持,提供了来自《时代报》的错误信息,包括“15种最有益心脏健康的食物”的结果,其中12种食物在《时代报》的任何文章中都没有提到。

同时,《泰晤士报》还指出,OpenAI和Microsoft有效地建立了新闻出版商的竞争对手,利用《泰晤士报》的作品,通过提供通常需要付费订阅才能获得的信息,损害了《泰晤士报》的业务。这些信息有时不被引用,有时还被剥离了《泰晤士报》用来产生佣金的关联链接,并且有时被用于盈利。

正如《泰晤士报》的投诉所提到的,生成式人工智能模型有一种倾向,即出现对训练数据的机械复制,例如几乎逐字逐句地复制文章的结果。除了机械复制之外,OpenAI曾一次无意中让ChatGPT用户能够绕过需要支付订阅费才能访问的新闻内容。

“被告企图依靠《纽约时报》在新闻业方面的巨额投资进行免费乘车”,起诉书称,指控OpenAI和微软“未经付费使用《纽约时报》的内容来创建替代《纽约时报》并吸引其受众的产品。”

新闻订阅业务的影响以及对发布者网站流量的影响,是月初发布者对谷歌提起的一项有关诉讼的核心问题。在此案中,原告(包括《纽约时报》)认为谷歌的GenAI实验,包括其由人工智能驱动的Bard聊天机器人和Search Generative Experience项目,通过反竞争手段侵占了发布者的内容、读者和广告收入。

出版商的主张是有道理的。《大西洋月刊》最近的一个模型发现,如果像谷歌这样的搜索引擎将人工智能融入搜索中,它将有75%的几率在不需要用户点击其网站的情况下回答用户的查询。参与谷歌诉讼的出版商估计他们可能会失去高达40%的流量。

这并不意味着他们在法庭上会成功。OSS Capital的创始合伙人、知识产权事务和授权安排顾问希瑟·米克尔将《时代》的转述例子比作“使用文字处理软件进行剪切和粘贴”。

梅克尔通过电子邮件告诉TechCrunch:“《纽约时报》在投诉中举了一个关于2012年餐馆评论的ChatGPT会话的例子。ChatGPT的提示是‘他的评论开头段落是什么?’然后接下来的提示一再要求‘下一句是什么?’通过引诱聊天机器人复制输入并不是侵权的明智依据...如果用户故意让聊天机器人复制,那就是用户的过错。这就是为什么大多数[类似这样的]诉讼可能会失败的原因。”

有些新闻机构选择与生成AI供应商签订许可协议,而不是在法庭上与他们争斗。美联社在七月与OpenAI达成了协议,德国出版商Axel Springer也在本月与OpenAI达成了类似协议,该公司拥有Politico和Business Insider两个出版物。

《泰晤士报》在其投诉中表示,今年四月份,他们试图与Microsoft和OpenAI达成许可安排,但最终谈判没有取得成果。

东部时间4:24更新,附带OpenAI的额外背景和评论。

推荐阅读

Giga ML希望帮助公司在离线环境下部署LLMs

2024-01-112772
Chat中文版

股权机构预测,2024年我们将看到更少的风险投资公司

2024-01-112315
Chat中文版

GitHub正式发布Copilot Chat,让开发者可以就代码问题进行提问

2024-01-11740
Chat中文版

旧日知己是否也为机器人

2024-01-111410
Chat中文版

面对阻碍,中国的自动驾驶出租车公司减速前行

2024-01-112304
Chat中文版