Reddit即将进行的改变旨在保护平台免受人工智能爬虫的侵害

Chat中文镜像

周二，Reddit宣布更新其“Robots Exclusion Protocol”（robots.txt文件），该文件告诉自动化网络爬虫是否有权限爬取该网站。

在历史上，robots.txt文件被用于允许搜索引擎扫描网站，然后指引人们到内容。然而，随着人工智能的兴起，网站被大量抓取并用于训练模型，而不承认内容的实际来源。

除了更新robots.txt文件外，Reddit将继续对未知的机器人和网络爬虫进行访问限制和阻止。该公司告诉TechCrunch，如果机器人和网络爬虫不遵守Reddit的公共内容政策，并且没有与平台达成协议，它们将受到访问限制或被阻止。

Reddit表示，更新不应影响大多数用户或善意的行为者，比如研究人员和组织，比如互联网档案馆。相反，更新的目的是阻止人工智能公司在Reddit内容上训练他们的大型语言模型。当然，人工智能爬虫可以忽略Reddit的robots.txt文件。

该公告是在《连线》进行调查几天后发布的，该调查发现，人工智能搜索初创公司Perplexity一直在盗窃和抓取内容。《连线》发现，Perplexity似乎无视要求不要抓取其网站的请求，尽管在其robots.txt文件中阻止了该初创公司。Perplexity CEO Aravind Srinivas对这些指控做出了回应，并表示robots.txt文件并不构成法律框架。

Reddit即将进行的改变不会影响与其达成协议的公司。例如，Reddit与谷歌达成了6亿美元的交易，允许这家搜索巨头对社交平台的内容进行人工智能模型的训练。通过这些改变，Reddit向其他希望利用其数据进行人工智能训练的公司发出了信号，它们将不得不支付费用。

Reddit在其博客文章中表示：“访问Reddit内容的任何人都必须遵守我们的政策，包括旨在保护Reddit用户的政策。我们非常谨慎地选择我们合作的伙伴，并信任他们能够大规模访问Reddit内容。”

这一宣布并不令人意外，因为几周前Reddit发布了一项新政策，旨在指导商业实体和其他合作伙伴如何访问和使用Reddit的数据。

推荐阅读

ChatGPT现已适用于Mac的所有用户

现在，您可以更轻松地在您的 Mac 电脑上使用 ChatGPT。OpenAI 公司周二宣布，这款备受欢迎的 AI 聊天机器人现在已经对所有 macOS 用户开放。该应用程序首次…

2024-06-251678