内容争夺战：如何在AI时代实现数据的价值最大化

原创硅谷科技评论 SV Technology Review 2024-04-14

根据硅谷科技评论（svtr.ai）数据库统计，在ChatGPT推出后，全球近1000多家AI初创公司获得融资，其中330家公司创业方向与数据紧密相关，包括数据的获取、处理、分析以及在各大行业的应用。

在科技巨头使用爬虫大肆抓取数据的背景下，这里分享两家成立不到一年的创业公司，帮助数据拥有方实现货币化，其中第二家公司是华人团队，创始人现在南加州大学担任副教授，获得Samsung Next、Matrix Partners等投资机构的支持。

在数字化的浪潮中，数据已经成为了新时代的石油，无论是对个人、企业还是整个社会而言，都拥有着无可比拟的价值。2023年，一个前所未有的变革悄然发生，用户生成内容的价值被全面认识和重视起来，随之而来的是一系列新的限制和规定。这不仅仅是一场关于技术的革命，更是一场关于版权、创新和经济补偿的深刻讨论。从Reddit到Stack Overflow，从Tumblr到Wordpress，乃至全球的新闻出版商，都在这场变革中寻找自己的位置。

然而，这场变革的背后，隐藏着一个更加复杂的问题：在人工智能不断进步的今天，如何在创新的驱动和版权保护之间找到平衡点？网站屏蔽AI爬虫的现象日渐增多，这不仅仅是技术的对抗，更是对未来信息共享与创新路径的深思熟虑。本文将带您深入这场关于数据、创新与版权的较量，探索在人工智能与用户生成内容交织的新时代中，如何寻找到共赢的解决方案。

有多少网站屏蔽了AI爬虫？

网络爬虫，有时也被称作“蜘蛛”或“机器人”，是一种自动浏览互联网并收集数据的工具。它们对于很多用途都很有帮助。比如，搜索引擎就靠它们来搜集网上的信息，以便当你进行搜索时能快速给出答案。

像OpenAI这样的人工智能公司用爬虫来搜集网上的信息，帮助训练它们的模型。要使这些大型语言模型（LLMs）工作，需要大量的数据，而互联网是获取高质量文本和视听材料的好地方。比方说，研究人员分析了Google的一个叫C4的数据集，发现“新闻和媒体”类内容占了一部分比重。通过这种训练，LLMs像GPT这样的模型能够通过ChatGPT这样的界面回答问题。模型不需要直接连接到互联网，但一旦训练完成，也可以接入互联网，实时从网站获取信息并用于回答问题。这使LLMs成为搜索信息的另一种选择。

但是，出于多种原因，一些新闻出版商可能不希望他们的内容被用来训练人工智能。比如，《纽约时报》就认为应该得到经济补偿。另外，如果人工智能用来获取新闻，可能会产生错误信息，或者读者可能不会被引导回到原网站，影响出版商的收益。有些出版商可能不担心这些问题，甚至希望他们的内容被使用，以便在使用生成式人工智能时他们的内容能够脱颖而出。有的公司，比如Axel Springer，已经同意让OpenAI使用他们的新闻内容回答用户的问题。同时，全世界的新闻出版商都在尝试使用人工智能工具，看看它们是否可以创造新的体验、提高效率和降低成本。

如果出版商不希望人工智能公司访问他们的内容，他们可以设置防止爬虫的措施。通过在网站上添加一个叫robots.txt的文件，他们可以告诉网络爬虫不要来。当OpenAI和谷歌更新他们的爬虫程序时，也提供了如何阻止这些爬虫的说明。

研究发现，到2023年底，十个国家/地区使用最广泛的新闻网站中有将近一半正在阻止OpenAI的爬虫，而有四分之一的网站正在阻止谷歌的爬虫。几乎所有选择阻止谷歌爬虫的网站也同时阻止了OpenAI的爬虫。

随着时间的发展，人工智能公司由最初使用他们能访问的所有数据训练算法，到面临法律诉讼的阶段。艺术家、作家、喜剧演员和图片库等开始对使用他们的作品训练AI提出诉讼，这迫使AI公司重新考虑他们的商业模式。

AI时代，数据的价值有多大？

数据就是AI新时代的石油，没有数据，就没有大模型，人工智能更是无从谈起。在业内意识到数据的价值，开始屏蔽网络爬虫和诉讼的同时，更多的交易在逐步达成。

Reddit 在去年 10 月威胁要阻止谷歌访问其页面，现在已经与其达成协议，谷歌希望使用社交新闻网站的内容来训练其模型，Reddit则可以从数据许可中赚取了 2.03 亿美元。
随后，Stack Overflow 也与谷歌合作授权其数据，谷歌计划使用新的数据API来丰富Gemini。
‍
Tumblr 和 Wordpress 也准备将 UGC 出售给 Midjourney 和 OpenAI。
‍
其他主流媒体也在和苹果和OpenAI达成数百万美元的交易，让这些科技巨头获取他们的新闻内容。

所有这些都提出了一个非常有趣的问题：数据价值多少，它在哪里，以及如何将其货币化？

一个更关键的问题是这些数据应该满足什么标准才能用于训练算法？通常有如下七大标准。

数量
简单来说，收集的数据越多，它的用处就越大，特别是如果这些数据是持续更新的，像是来自于网上不断更新的信息，这样的数据比旧数据更有价值。
质量
如果一个数据库里面的信息质量不高，比如内容写得不好、有拼写错误或者概念上的错误，那么这个数据库的价值就会降低，因为需要花时间去清理这些不好的内容。高质量的内容通常来自于可信赖的来源或者有个好的评分系统让人们可以根据内容的好坏来筛选，尽管这个系统也不是完美的。
标注
有一个好的标记系统能让我们更有组织和系统地查找信息，这对于用数据训练算法非常重要。如果没有这样的系统，就需要手动标记或用关键字来查找信息，这样会更费时间和金钱。
主题
有些领域的信息比其他领域更受欢迎，更吸引人。
一致性
如果收集的数据是按照一定的标准一致地整理的，那么这样的数据通常比那些标准不一或差别大的数据更有价值。
正态性
一般来说，数据分布接近正态分布（也就是所谓的“钟形曲线”）的数据集通常比那些数据分布不均匀的数据集更有用。
许可证
关于数据的使用许可，尽管一些数据是可以自由使用的，但在数据被反复处理和转换的过程中，追踪使用的数据来源变得很困难，这让严格遵守许可条件变得有些不切实际。

数据为王，创业公司的机会来了

根据硅谷科技评论（svtr.ai）数据库统计，在ChatGPT推出后，全球近1000多家AI初创公司获得融资，其中300多家公司创业方向与数据紧密相关，包括数据合成、数据标注、数据自动化和编排工具，以及在各大行业的应用。

在数据领域，当然不得不提的是我们之前详细分析过的，人工智能和机器学习应用背后的基础设施公司Scale AI。

这里分享两个案例都是在AI公司使用爬虫大肆抓取数据的背景下，帮助数据拥有方实现货币化的成立不到一年的初创公司，其中第二家公司是华人团队，创始人现在南加州大学担任副教授。

TollBit

TollBit，2023年成立于美国纽约，帮助网站保护其内容免受AI网络抓取的平台。完成700万美元融资，投资方为Sunflower Capital、AIX、Lerer Hippeau、Operator Collective和Liquid 2 Ventures。TollBit 允许人工智能机器人和数据抓取工具直接向网站付费以获取其内容许可。该技术允许网站通过数据和内容货币化，监控网站的机器人流量。

Toshit Panigrahi，联合创始人/CEO。曾在Toast担任新业务负责人，负责研发管理。在Toast期间，他是Toast员工应用、员工云团队、Toast合作伙伴门户的创始工程师，并共同创造了Toast的桌边点餐和扫码支付功能。还是Botler, Inc.的联合创始人，Botler旨在通过构建易于发布和共享的聊天机器人，让任何人都能轻松存储和分享信息，无需建立网站。在波士顿大学获得了计算机科学专业的学士学位，辅修商业管理。

Sahara

Sahara，2023年成立于美国洛杉矶，构建“去中心化AI网络”帮助员工和公司获得他们的知识、专长和数据获得补偿。完成了600万美元的种子轮融资，投资方为Polychain Capital、Samsung Next、Matrix Partners、Motherson Group。Sahara 的首批产品Sahara Knowledge Agent (KA)，将是一个适合个人和企业的可定制人工智能代理。与其他 AI 代理相比，Sahara KA 的主要区别在于其货币化方式：训练 Sahara KA 的专家和公司可以因训练模型而直接获得补偿。

Sean (Xiang) Ren，Sahara AI联合创始人/CEO，同时在南加州大学担任副教授。在南加州大学计算机科学系进行自然语言处理和人工智能的研究。此外，他还是艾伦人工智能研究所（AI2）的访问研究科学家，以及信息科学研究所的研究团队负责人。他还在ACM SIGKDD & 年度KDD会议担任信息总监。Sean在伊利诺伊大学香槟分校获得了计算机科学博士学位，并在浙江大学获得了计算机科学工程学士学位。另一位联合创始人 Tyler Zhou，曾就读于加州大学伯克利分校，并于 2022 年和 2023 年在币安实验室担任投资总监。

经过大半年运营，我们AI创投社区覆盖人数超过10W，其中AI从业者超过10000人，大都来自全球科技大厂、顶尖投资机构和高潜创业企业，文末扫码访问AI数据库和社群通讯录。

欢迎联系凯瑞（pkcapital2023），与一群志同道合的伙伴一起交流探讨。

AI公司

OpenAI：

人工智能突破的前沿丨员工名册丨董事会丨营销团队丨GPT Store丨科技狂人丨马斯克丨地产生意经丨微软丨投资帝国丨婚礼丨产品生态系统

其他：

Adobe丨Anthropic丨Amazon丨Canva 丨Cohere丨DoNotPay丨Figma丨Google丨Hugging Face丨Midjourney丨Neuralink丨Pika丨Replicate丨Reddit丨Replite丨Runway丨Scale AI丨Shein丨Stability AI丨Stripe丨Vannevar Labs丨Zapier

AI行业

工具：

写作丨编程丨客服丨法律丨医疗丨视频丨搜索丨企服丨Agent代理丨个人助手丨生产力丨

研报：

AI合成数据丨LLMOps丨AI创始人丨全球高增长AI 50丨企业生成式AI丨AI +云计算丨Gen AI地理分布丨AGI丨巨头的AI战争丨欧洲AI创业地图丨AI+浏览器丨开源AI丨北美科技人才中心地图丨AI+电商丨AI+勘探丨AI+游戏化学习丨AI华裔创始人丨AI+安全丨Top 50 AI工具丨AI域名丨Product Hunt 年度最佳应用

AI创投

创业：

性格决定创业成败丨创业方向丨CEO的薪水丨股权和头衔丨创业公司董事会丨GTM指南丨选择VC丨商业计划书（BP）丨公司估值丨创业合伙人丨商业模式

投资：

顶尖VC投了哪些AI公司丨中美AI创投异同丨如何评估AIGC初创公司丨海外投资人谈AI新趋势丨做通才还是专才风险投资人丨红杉资本如何做投资丨如何及早识别独角兽创始人丨如何避免7大投资陷阱丨合伙人是怎么炼成的丨Thrive Capital丨英伟达投资策略丨Souring的艺术丨精品基金VS超级基金

继续滑动看下一个

SV Technology Review

向上滑动看下一个

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

内容争夺战：如何在AI时代实现数据的价值最大化

有多少网站屏蔽了AI爬虫？

AI时代，数据的价值有多大？

数据为王，创业公司的机会来了

TollBit

Sahara

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗 是中国厄运的开始！

谁会想到，裁员会裁到总编辑头上

太讽刺：搞宣传的，倒台了！

@所有人，今日起全部免费领取

公告：将付尔乐收入师门

生成图片，分享到微信朋友圈

内容争夺战：如何在AI时代实现数据的价值最大化

有多少网站屏蔽了AI爬虫？

AI时代，数据的价值有多大？

数据为王，创业公司的机会来了

TollBit

Sahara

您可能也对以下帖子感兴趣

李光耀：过早翘起尾巴与美国对抗是中国厄运的开始！