OpenAI、微软摊上大事了，遭《纽约时报》索赔数十亿美元

杨文 AI先锋官 2024-01-19

作者｜杨文

编辑｜六耳

来源｜AI先锋官

《纽约时报》和OpenAI、微软“撕”起来了！事情是这样的：

美国当地时间本周三，《纽约时报》就侵犯版权问题，一纸诉状把微软和OpenAI告上了法庭。

诉讼称，在未经同意的情况下，《纽约时报》发表的数百万篇文章被用于训练智能聊天机器人，包括OpenAI旗下的ChatGPT和微软的Copilot，这些机器人现在作为新闻消息源与《纽约时报》展开竞争。

诉讼虽然没有提出明确的索赔金额，但是《纽约时报》认为被告应该为“非法复制和使用《纽约时报》独一无二、有价值的作品”相关的“数十亿美元的法定和实际损害”负责。同时，《纽约时报》还要求被告销毁使用其版权材料的任何AI模型和训练数据。

更有意思的是，《纽约时报》还专门撰文为自己发声。

一方是有着强大律师团的美国第一大报纸，一方是今年最炙手可热的人工智能公司，双方的对簿公堂注定是一场“AI侵权里程碑式”的案件。

-1-

纽约时报把OpenAI、微软告上了法庭

为了证明微软和OpenAI的侵权行为，《纽约时报》甩出了大量证据证明GPT-4输出的句子与《纽约时报》的原文高度重合，几乎达到了逐字逐句的效果。

例如，《纽约时报》10月15日一篇标题为《哈马斯了解以色列军队的秘密》（The Secrets Hamas knew about Israel’s Military）报道中，原文396个英文单词，微软聊天机器人Bing Chat照抄了394个字。（微软的必应聊天是由OpenAI模型支持）

再如，下图中左边是GPT-4输出的句子，右边是纽约时报的原文，红色是重叠的部分。重合率高到离谱。

《纽约时报》认为，OpenAI和微软正在利用《纽约时报》的作品，有效地打造新闻出版商的竞争对手，通过提供没有订阅通常无法访问的信息，损害了《纽约时报》的业务——这些信息并不总是被引用，有时会被变现，而且会被剥夺时报用来产生佣金的附属链接。

“被告试图搭《纽约时报》在新闻领域巨额投资的便车，”诉状称，并指控OpenAI和微软“免费使用《纽约时报》的内容，创造替代《纽约时报》的产品，从《纽约时报》那里抢走读者。”

《纽约时报》的担忧并不无道理。《大西洋月刊》最近的一个模型发现，如果像谷歌这样的搜索引擎将人工智能整合到搜索中，它将在75%的时间内回答用户的查询，而无需点击其网站。出版商或将损失多达40%的流量。

“如果时报和其他新闻机构不能生产和保护他们的独立新闻，就会出现计算机或人工智能无法填补的真空，”《纽约时报》的诉讼中称，“新闻产出将会减少，社会成本将会巨大。”

此外，《纽约时报》还控诉生成式人工智能模型的“幻觉”对其品牌造成潜在损害。

例如，由OpenAI模型支持的微软的必应聊天提供了据称来自《纽约时报》的错误信息——包括“15种最有益心脏健康的食物”的结果，其中12种在《纽约时报》的任何文章中都没有提到。

《纽约时报》这张诉状打了OpenAI一个措手不及。

OpenAI发言人在一份电子邮件声明中表示:“我们尊重内容创作者和所有者的权利，并致力于与他们合作，确保他们从人工智能技术和新的收入模式中受益。我们与《纽约时报》正在进行的对话是富有成效的，并在建设性地向前推进，因此我们对这一事态发展感到惊讶和失望。我们希望能够找到一种互利的合作方式，就像我们与许多其他发行商所做的那样。”

-2-

各方观点争论不休

《纽约时报》和OpenAI、微软这场“撕逼”大战，在X平台上引发大量关注，不少博主跳出来发表观点。

例如，主攻知识产权和人工智能方向的律师Cecilia Ziniti认为OpenAI很难为自己辩护，除非对指令进行重大修改，并就该技术的工作原理提起大量诉讼。和解比斗争更明智。

Cecilia Ziniti给出了6个理由：

1.诉状中强调了《纽约时报》的文章与ChatGPT产出之间的“可访问性和实质相似性”，并提供了关键事实：纽约时报是Common Crawl中用于训练GPT的最大的专有数据集。

2.OpenAI抄袭的证据显而易见。复制的文字用红色，新的GPT文字用黑色——这种对比是为了动摇陪审团。

3.纽约时报是一个伟大的原告。这不仅仅是关于文章，还是关于原创性和创造过程。他们的调查性新闻报道，就像诉状中提到的对出租车借贷的深度揭露一样，超越了单纯的劳动——其核心是创造力。

版权保护的是创造力，而不是努力。虽然这篇出租车文章的600个采访令人印象深刻，但真正具有法律意义的是报道方式的创新，这与针对GitHub Copilot的诉讼形成了鲜明的对比，后者只引用了几行开源代码。

4.诉状称OpenAI是利润驱动的封闭企业，这与新闻业的公共利益形成了鲜明对比。这种说法在法庭上可能很有说服力，因为它权衡了版权与科技创新的社会价值。值得注意的是，这种善与恶的平衡在每一个主要的版权案件中都存在争议——从Betamax案到Feist发现电话簿不受版权保护。诉状甚至提到了董事会和山姆·奥特曼的闹剧。

5.诉状中提到了人们害怕的东西——幻觉——并以此为例，引用《纽约时报》文章的一些元素是由模型编造的。最难忘的例子就是Bing说《纽约时报》发表了一篇橙汁导致淋巴瘤的文章。

6.《纽约时报》有非常好的律师。苏斯曼·戈弗雷(Susman Godfrey)在科技领域有着良好的声誉和记录。这不是像ChatGPT一周后提起的诉讼那样快速捞钱；这是一个战略性的法律挑战。

也有人提出了不同意见。

资深作家Daniel Jeffries认为，《纽约时报》胜诉概率几乎为零。

他的理由是：

1.试图让每个人都获得训练数据的许可是行不通的，因为这不是版权的意义所在。我们都免费学习。我们从周围的世界学习，机器也一样。

《纽约时报》的作家们并没有为海明威的遗产支付学费，让他在学习新闻学的时候学会写短小精悍的句子；年轻的四分卫不需要打电话给汤姆·布雷迪来获得许可来研究他的投掷动作来学习扔足球。

版权法的目的是防止人们复制或近乎复制内容，并将其发布以获取商业利益。任何告诉你不是这样的人都是在撒谎，或者根本不了解版权是如何运作的。

2.即使是他们所引用的最致命的证据——声称是GPT精确复制了《纽约时报》内容的提示，也显然是人为操纵的结果。

任何从事AI工作的人都能在瞬间看穿这一点。而且，没有人能用他们所谓的提示重现那个逐字的输出。为什么?因为逐字输出几乎肯定不是来自记忆，而是来自带有网页浏览的检索增强生成(RAG)。程序员可能故意通过API提示它获取一篇特定的文章，并要求它输出部分文本，但他们只提供了提示的一小部分，而不是整个提示。如果我让它去取《纽约时报》的文章并为我输出，那是我的问题，而不是模型。

3.这个案件最可能的结果是庭外和解，微软和OpenAI为正在进行的训练数据支付许可费，这是真正的问题。这对所有人来说都是一个糟糕的先例，因为没有实际的裁决，它给人一种错觉，认为他们赢了，人们应该为训练数据而被勒索。

OSS Capital创始合伙人、知识产权事务顾问希瑟·米克尔（Heather Meeker）表示，“在诉状中，《纽约时报》给出了一个关于2012年餐厅评论的聊天会话的例子。”“ChatGPT的提示是‘他的评论的开头段落是什么?下一个提示，然后反复要求‘下一句话’。“戏弄聊天机器人复制输入并不是侵犯版权的合理依据……如果用户故意让聊天机器人复制，那是用户的错。这就是为什么大多数(此类诉讼)可能会失败的原因。”

根据美国版权法中的合理使用原则，OpenAI有合理的使用权。因此OpenAI的律师认为部分索赔应被驳回。

美国版权法规定，在判断合理使用时，需要考虑的四个关键因素：使用的目的和性质、作品的性质、使用的数量和实质性、对原作市场或价值的影响。

其中在使用目的和性质方面，会评估使用是否具有商业性质或非营利教育目的，一般而言，非商业性和教育性使用更有可能被认定为合理。

同时，变革性使用也更可能被认为是合理的。所谓 “变革性使用 ”，是指增加了新的内容，具有进一步的目的或不同的性质，而不是取代原有的使用。OpenAI和微软坚持自己是基于“变革性使用”。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

‍

继续滑动看下一个

OpenAI、微软摊上大事了，遭《纽约时报》索赔数十亿美元

杨文 AI先锋官

AI先锋官

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

OpenAI、微软摊上大事了，遭《纽约时报》索赔数十亿美元

OpenAI、微软摊上大事了，遭《纽约时报》索赔数十亿美元

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

现在有什么副业可以让人快速上岸? 可以试试这个行业，上岸其实不难!!

生成图片，分享到微信朋友圈

OpenAI、微软摊上大事了，遭《纽约时报》索赔数十亿美元

OpenAI、微软摊上大事了，遭《纽约时报》索赔数十亿美元

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！