Cloudflare推出了一种工具来对抗人工智能机器人

AI7号2024-07-032522

Chat中文镜像

上市的云服务提供商Cloudflare推出了一款新的免费工具,可防止机器人从其平台托管的网站上抓取数据以训练人工智能模型。

一些人工智能供应商,包括谷歌、OpenAI和苹果,允许网站所有者通过修改其网站的robots.txt文件来阻止它们用于数据抓取和模型训练的机器人。robots.txt文件告诉机器人它们可以访问网站上的哪些页面。但正如Cloudflare在宣布其对抗机器人工具时指出的那样,并不是所有的人工智能抓取器都尊重这一点。

公司在其官方博客上写道:“客户不希望人工智能机器人访问他们的网站,尤其是那些以不诚实方式访问的机器人。”“我们担心一些人工智能公司会试图规避规定,不断调整以逃避机器人检测,以获取内容。”

因此,为了解决这个问题,Cloudflare分析了AI机器人和网络爬虫的流量,以微调自动机器人检测模型。这些模型考虑了许多因素,其中包括AI机器人是否可能试图通过模仿使用网络浏览器的外观和行为来逃避检测。

当不良行为者尝试大规模爬取网站时,他们通常使用我们能够指纹识别的工具和框架,Cloudflare写道。“基于这些信号,我们的模型能够适当地标记来自规避AI机器人的流量。”

Cloudflare已经建立了一个表格,供主机报告疑似的AI机器人和爬虫,并表示将会逐渐手动将AI机器人加入黑名单。

随着生成式人工智能的兴起,AI机器人的问题变得尤为突出,这加剧了对模型训练数据的需求。

许多网站对人工智能供应商在未通知或补偿他们的情况下对其内容进行模型训练感到警惕,因此选择屏蔽人工智能网页抓取器和爬虫。据一项研究显示,全球排名前1000的网站中约有26%屏蔽了OpenAI的机器人;另一项研究发现,超过600家新闻发布商已经屏蔽了这个机器人。

然而,阻止并不能确保保护。正如前面提到的,一些供应商似乎正在无视标准的机器人排除规则,以在人工智能竞赛中取得竞争优势。人工智能搜索引擎Perplexity最近被指控冒充合法访问者从网站上获取内容,而OpenAI和Anthropic据说有时会无视robots.txt规则。

上个月,内容许可创业公司TollBit在致出版商的信中表示,事实上,它看到“许多AI代理”都无视robots.txt标准。

像Cloudflare这样的工具可能有所帮助 - 但前提是它们能够准确地检测出秘密的AI机器人。它们并不能解决出版商面临的更棘手的问题,即冒着失去来自Google AI Overviews等AI工具的转介流量的风险,因为这些工具会排除那些阻止特定AI爬虫的网站。