Reddit即将进行的改变旨在保护平台免受人工智能爬虫的侵害

AI7号2024-06-252129

Chat中文镜像

周二,Reddit宣布更新其“Robots Exclusion Protocol”(robots.txt文件),该文件告诉自动化网络爬虫是否有权限爬取该网站。

在历史上,robots.txt文件被用于允许搜索引擎扫描网站,然后指引人们到内容。然而,随着人工智能的兴起,网站被大量抓取并用于训练模型,而不承认内容的实际来源。

除了更新robots.txt文件外,Reddit将继续对未知的机器人和网络爬虫进行访问限制和阻止。该公司告诉TechCrunch,如果机器人和网络爬虫不遵守Reddit的公共内容政策,并且没有与平台达成协议,它们将受到访问限制或被阻止。

Reddit表示,更新不应影响大多数用户或善意的行为者,比如研究人员和组织,比如互联网档案馆。相反,更新的目的是阻止人工智能公司在Reddit内容上训练他们的大型语言模型。当然,人工智能爬虫可以忽略Reddit的robots.txt文件。

该公告是在《连线》进行调查几天后发布的,该调查发现,人工智能搜索初创公司Perplexity一直在盗窃和抓取内容。《连线》发现,Perplexity似乎无视要求不要抓取其网站的请求,尽管在其robots.txt文件中阻止了该初创公司。Perplexity CEO Aravind Srinivas对这些指控做出了回应,并表示robots.txt文件并不构成法律框架。

Reddit即将进行的改变不会影响与其达成协议的公司。例如,Reddit与谷歌达成了6亿美元的交易,允许这家搜索巨头对社交平台的内容进行人工智能模型的训练。通过这些改变,Reddit向其他希望利用其数据进行人工智能训练的公司发出了信号,它们将不得不支付费用。

Reddit在其博客文章中表示:“访问Reddit内容的任何人都必须遵守我们的政策,包括旨在保护Reddit用户的政策。我们非常谨慎地选择我们合作的伙伴,并信任他们能够大规模访问Reddit内容。”

这一宣布并不令人意外,因为几周前Reddit发布了一项新政策,旨在指导商业实体和其他合作伙伴如何访问和使用Reddit的数据。