AI爬虫的麻烦

生成式AI公司是否有权从任何网站抓取训练数据?在两年多的针对AI公司的诉讼(其中一些是由多产作者提起)以及几百万美元的数据共享协议之后,政治风向似乎偏向了AI公司。

欧盟和英国(程度不同)似乎都倾向于“选择退出”模式,这意味着除非内容提供商明确选择退出,否则从网络上抓取数据是可行的。然而,“选择退出”的定义仍然模糊不清。而且内容所有者是否有机会公平竞争?

1、数据作为“准自然资源”

对于生成式AI来说,最宝贵的资源不是GPU,也不是数据中心,而是用于训练生成模型的数据。如果没有几十年甚至几个世纪以来创作的文字、图像、视频和艺术品,就不会有ChatGPT、Gemini或Claude。

数据作为一种资源并不是新概念。自万维网出现以来,数据爬虫就一直是游戏的一部分。正是爬虫使得搜索引擎成为可能,并使谷歌成为今天的谷歌。

2、时代变了,惯例还重要吗?

搜索引擎爬虫对内容提供者来说既是福也是祸。网站所有者试图吸引爬虫以提高搜索引擎排名,而一些(尤其是新闻网站)则将谷歌的搜索结果视为竞争对手。

机器人排除标准(通常称为robots.txt文件)长期以来一直作为一种惯例,用来告知搜索引擎爬虫哪些部分的网站可供索引,或者是否可以索引任何部分。

尽管机器人排除标准并不具有法律约束力,也不强制执行特定的爬虫行为,但像谷歌或必应这样的合法搜索引擎通常会尊重这些指令。允许搜索引擎爬虫检索内容显然是一个双向交易。对于搜索引擎来说,这提高了索引质量;对于网站提供者来说,这可能增加了流量和可见性。搜索引擎也有兴趣遵守robots.txt指令,因为任何违规行为都会被网站提供者发现。

另一方面,AI数据爬虫并不会为内容提供者带来好处,相反,它们直接基于收集的数据创建内容,并将其商业化(通过AI服务)。

但AI公司是否会守规矩呢?前Meta高管尼克·克莱格最近直言不讳地表示,“要求艺术家许可使用他们的作品”只会“扼杀”AI行业。如果AI公司如此绝望,以至于无限制访问训练材料成为生死攸关的问题,那么遵守像机器人排除标准这样的通用惯例就无法保证。

这就剩下技术上的阻止方法,要么通过用户代理拒绝访问,要么通过行为阻止。同样,这也依赖于AI公司保持一定的公平性,不挂假旗号,并且仍然是个打地鼠的游戏,需要持续的关注和验证。

无论如何,这一切显然仅限于万维网上的内容。当涉及通过其他渠道(电子书、印刷品或已流通的数据集)分发的材料时,版权所有者如何选择退出仍不清楚。

正如我们最近从针对Meta的诉讼中了解到的那样,AI公司甚至可能会走捷径,从种子共享网络获取数据,而不是费心进行透明的数据采集。

3、透明度?

但事后可以选择退出吗?是否有可能知道数据是否已被用于生成式AI?监管环境尚不清楚。

在欧盟以外,目前没有关于训练数据的透明度规则(即使出于版权原因也应该存在)。虽然欧盟AI法案在训练数据透明度方面提供了一些基本规定,但仍有诸多不足。

与此同时,在英国,政府与上议院之间正在就用于模型训练的受版权保护材料的透明度要求展开争论,政府对此表示反对,认为即使是有限的要求也过于繁琐。《卫报》报道,5月12日,2025年。

抵制透明度规则的唯一可能理由是:AI公司实际上不知道数据来自哪里;他们必须隐藏来源,因为一旦披露,人们不会批准。这两种说法都不太站得住脚。

4、未来问题

还需要强调的是,这不仅仅是一个版权问题:它既是一个原则问题(“是否可以未经人们同意就随意使用他们的作品和数据?”),也是一个数据隐私、网络安全和数据自主权的问题(AI驱动的搜索引擎将如何与“被遗忘权”共存还有待观察)。

另一个更复杂的问题我打算留到以后讨论,是如何告诉AI爬虫某些数据不适合用于模型训练,例如因为它是由生成式AI本身创建的,可能包含幻觉或虚假信息。

还有一个问题是,这一切在未来是否还会相关:随着谷歌大力推动AI搜索以取代传统的谷歌索引,新的挑战即将到来。

如果谷歌将搜索索引与AI数据采集混合在一起,网站提供者将只有两个选择:要么完全排除在“AI搜索”结果之外,要么同意提供其材料用于生成式AI训练。

对于万维网来说,一个可能的结果是更多内容会消失在登录墙和付费墙后面,RSS订阅源的访问将进一步受限。很可能AI爬虫会摧毁剩下的开放网络,而它们却极度依赖这个开放网络。


原文链接:Tune In Or Opt-out? The Trouble With AI Crawlers

汇智网翻译整理,转载请标明出处