查看原文
其他

OpenAI、微软摊上大事了,遭《纽约时报》索赔数十亿美元

杨文 AI先锋官 2024-01-19

作者杨文

编辑|六耳

来源AI先锋官



《纽约时报》和OpenAI、微软“撕”起来了!事情是这样的:


美国当地时间本周三,《纽约时报》就侵犯版权问题,一纸诉状把微软和OpenAI告上了法庭。


诉讼称,在未经同意的情况下,《纽约时报》发表的数百万篇文章被用于训练智能聊天机器人,包括OpenAI旗下的ChatGPT和微软的Copilot,这些机器人现在作为新闻消息源与《纽约时报》展开竞争。


诉讼虽然没有提出明确的索赔金额,但是《纽约时报》认为被告应该为“非法复制和使用《纽约时报》独一无二、有价值的作品”相关的“数十亿美元的法定和实际损害”负责。同时,《纽约时报》还要求被告销毁使用其版权材料的任何AI模型和训练数据。


更有意思的是,《纽约时报》还专门撰文为自己发声。



一方是有着强大律师团的美国第一大报纸,一方是今年最炙手可热的人工智能公司,双方的对簿公堂注定是一场“AI侵权里程碑式”的案件。


-1-

纽约时报把OpenAI、微软告上了法庭


为了证明微软和OpenAI的侵权行为,《纽约时报》甩出了大量证据证明GPT-4输出的句子与《纽约时报》的原文高度重合,几乎达到了逐字逐句的效果。


例如,《纽约时报》10月15日一篇标题为《哈马斯了解以色列军队的秘密》(The Secrets Hamas knew about Israel’s Military)报道中,原文396个英文单词,微软聊天机器人Bing Chat照抄了394个字。(微软的必应聊天是由OpenAI模型支持)


再如,下图中左边是GPT-4输出的句子,右边是纽约时报的原文,红色是重叠的部分。重合率高到离谱。


《纽约时报》认为,OpenAI和微软正在利用《纽约时报》的作品,有效地打造新闻出版商的竞争对手,通过提供没有订阅通常无法访问的信息,损害了《纽约时报》的业务——这些信息并不总是被引用,有时会被变现,而且会被剥夺时报用来产生佣金的附属链接。


“被告试图搭《纽约时报》在新闻领域巨额投资的便车,”诉状称,并指控OpenAI和微软“免费使用《纽约时报》的内容,创造替代《纽约时报》的产品,从《纽约时报》那里抢走读者。”


《纽约时报》的担忧并不无道理。《大西洋月刊》最近的一个模型发现,如果像谷歌这样的搜索引擎将人工智能整合到搜索中,它将在75%的时间内回答用户的查询,而无需点击其网站。出版商或将损失多达40%的流量。


“如果时报和其他新闻机构不能生产和保护他们的独立新闻,就会出现计算机或人工智能无法填补的真空,”《纽约时报》的诉讼中称,“新闻产出将会减少,社会成本将会巨大。”


此外,《纽约时报》还控诉生成式人工智能模型的“幻觉”对其品牌造成潜在损害。


例如,由OpenAI模型支持的微软的必应聊天提供了据称来自《纽约时报》的错误信息——包括“15种最有益心脏健康的食物”的结果,其中12种在《纽约时报》的任何文章中都没有提到。


《纽约时报》这张诉状打了OpenAI一个措手不及。


OpenAI发言人在一份电子邮件声明中表示:“我们尊重内容创作者和所有者的权利,并致力于与他们合作,确保他们从人工智能技术和新的收入模式中受益。我们与《纽约时报》正在进行的对话是富有成效的,并在建设性地向前推进,因此我们对这一事态发展感到惊讶和失望。我们希望能够找到一种互利的合作方式,就像我们与许多其他发行商所做的那样。”


-2-

各方观点争论不休


《纽约时报》和OpenAI、微软这场“撕逼”大战,在X平台上引发大量关注,不少博主跳出来发表观点。


例如,主攻知识产权和人工智能方向的律师Cecilia Ziniti认为OpenAI很难为自己辩护,除非对指令进行重大修改,并就该技术的工作原理提起大量诉讼。和解比斗争更明智。


Cecilia Ziniti给出了6个理由:


1.诉状中强调了《纽约时报》的文章与ChatGPT产出之间的“可访问性和实质相似性”,并提供了关键事实:纽约时报是Common Crawl中用于训练GPT的最大的专有数据集。


 

2.OpenAI抄袭的证据显而易见。复制的文字用红色,新的GPT文字用黑色——这种对比是为了动摇陪审团。


 

3.纽约时报是一个伟大的原告。这不仅仅是关于文章,还是关于原创性和创造过程。他们的调查性新闻报道,就像诉状中提到的对出租车借贷的深度揭露一样,超越了单纯的劳动——其核心是创造力。


版权保护的是创造力,而不是努力。虽然这篇出租车文章的600个采访令人印象深刻,但真正具有法律意义的是报道方式的创新,这与针对GitHub Copilot的诉讼形成了鲜明的对比,后者只引用了几行开源代码。


 

4.诉状称OpenAI是利润驱动的封闭企业,这与新闻业的公共利益形成了鲜明对比。这种说法在法庭上可能很有说服力,因为它权衡了版权与科技创新的社会价值。值得注意的是,这种善与恶的平衡在每一个主要的版权案件中都存在争议——从Betamax案到Feist发现电话簿不受版权保护。诉状甚至提到了董事会和山姆·奥特曼的闹剧。


 

5.诉状中提到了人们害怕的东西——幻觉——并以此为例,引用《纽约时报》文章的一些元素是由模型编造的。最难忘的例子就是Bing说《纽约时报》发表了一篇橙汁导致淋巴瘤的文章。



6.《纽约时报》有非常好的律师。苏斯曼·戈弗雷(Susman Godfrey)在科技领域有着良好的声誉和记录。这不是像ChatGPT一周后提起的诉讼那样快速捞钱;这是一个战略性的法律挑战。


 

也有人提出了不同意见。


资深作家Daniel Jeffries认为,《纽约时报》胜诉概率几乎为零。

 


他的理由是:


1.试图让每个人都获得训练数据的许可是行不通的,因为这不是版权的意义所在。我们都免费学习。我们从周围的世界学习,机器也一样。


《纽约时报》的作家们并没有为海明威的遗产支付学费,让他在学习新闻学的时候学会写短小精悍的句子;年轻的四分卫不需要打电话给汤姆·布雷迪来获得许可来研究他的投掷动作来学习扔足球。


版权法的目的是防止人们复制或近乎复制内容,并将其发布以获取商业利益。任何告诉你不是这样的人都是在撒谎,或者根本不了解版权是如何运作的。


 

2.即使是他们所引用的最致命的证据——声称是GPT精确复制了《纽约时报》内容的提示,也显然是人为操纵的结果。


任何从事AI工作的人都能在瞬间看穿这一点。而且,没有人能用他们所谓的提示重现那个逐字的输出。为什么?因为逐字输出几乎肯定不是来自记忆,而是来自带有网页浏览的检索增强生成(RAG)。程序员可能故意通过API提示它获取一篇特定的文章,并要求它输出部分文本,但他们只提供了提示的一小部分,而不是整个提示。如果我让它去取《纽约时报》的文章并为我输出,那是我的问题,而不是模型。

 


3.这个案件最可能的结果是庭外和解,微软和OpenAI为正在进行的训练数据支付许可费,这是真正的问题。这对所有人来说都是一个糟糕的先例,因为没有实际的裁决,它给人一种错觉,认为他们赢了,人们应该为训练数据而被勒索。

 


OSS Capital创始合伙人、知识产权事务顾问希瑟·米克尔(Heather Meeker)表示,“在诉状中,《纽约时报》给出了一个关于2012年餐厅评论的聊天会话的例子。”“ChatGPT的提示是‘他的评论的开头段落是什么?下一个提示,然后反复要求‘下一句话’。“戏弄聊天机器人复制输入并不是侵犯版权的合理依据……如果用户故意让聊天机器人复制,那是用户的错。这就是为什么大多数(此类诉讼)可能会失败的原因。”


根据美国版权法中的合理使用原则,OpenAI有合理的使用权。因此OpenAI的律师认为部分索赔应被驳回。


美国版权法规定,在判断合理使用时,需要考虑的四个关键因素:使用的目的和性质、作品的性质、使用的数量和实质性、对原作市场或价值的影响。



其中在使用目的和性质方面,会评估使用是否具有商业性质或非营利教育目的,一般而言,非商业性和教育性使用更有可能被认定为合理。


同时,变革性使用也更可能被认为是合理的。所谓 “变革性使用 ”,是指增加了新的内容,具有进一步的目的或不同的性质,而不是取代原有的使用。OpenAI和微软坚持自己是基于“变革性使用”。

 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾



继续滑动看下一个

OpenAI、微软摊上大事了,遭《纽约时报》索赔数十亿美元

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存