Cloudflare推出了一种工具来对抗人工智能机器人

Chat中文镜像

上市的云服务提供商Cloudflare推出了一款新的免费工具，可防止机器人从其平台托管的网站上抓取数据以训练人工智能模型。

一些人工智能供应商，包括谷歌、OpenAI和苹果，允许网站所有者通过修改其网站的robots.txt文件来阻止它们用于数据抓取和模型训练的机器人。robots.txt文件告诉机器人它们可以访问网站上的哪些页面。但正如Cloudflare在宣布其对抗机器人工具时指出的那样，并不是所有的人工智能抓取器都尊重这一点。

公司在其官方博客上写道：“客户不希望人工智能机器人访问他们的网站，尤其是那些以不诚实方式访问的机器人。”“我们担心一些人工智能公司会试图规避规定，不断调整以逃避机器人检测，以获取内容。”

因此，为了解决这个问题，Cloudflare分析了AI机器人和网络爬虫的流量，以微调自动机器人检测模型。这些模型考虑了许多因素，其中包括AI机器人是否可能试图通过模仿使用网络浏览器的外观和行为来逃避检测。

当不良行为者尝试大规模爬取网站时，他们通常使用我们能够指纹识别的工具和框架，Cloudflare写道。“基于这些信号，我们的模型能够适当地标记来自规避AI机器人的流量。”

Cloudflare已经建立了一个表格，供主机报告疑似的AI机器人和爬虫，并表示将会逐渐手动将AI机器人加入黑名单。

随着生成式人工智能的兴起，AI机器人的问题变得尤为突出，这加剧了对模型训练数据的需求。

许多网站对人工智能供应商在未通知或补偿他们的情况下对其内容进行模型训练感到警惕，因此选择屏蔽人工智能网页抓取器和爬虫。据一项研究显示，全球排名前1000的网站中约有26%屏蔽了OpenAI的机器人；另一项研究发现，超过600家新闻发布商已经屏蔽了这个机器人。

然而，阻止并不能确保保护。正如前面提到的，一些供应商似乎正在无视标准的机器人排除规则，以在人工智能竞赛中取得竞争优势。人工智能搜索引擎Perplexity最近被指控冒充合法访问者从网站上获取内容，而OpenAI和Anthropic据说有时会无视robots.txt规则。

上个月，内容许可创业公司TollBit在致出版商的信中表示，事实上，它看到“许多AI代理”都无视robots.txt标准。

像Cloudflare这样的工具可能有所帮助 - 但前提是它们能够准确地检测出秘密的AI机器人。它们并不能解决出版商面临的更棘手的问题，即冒着失去来自Google AI Overviews等AI工具的转介流量的风险，因为这些工具会排除那些阻止特定AI爬虫的网站。

推荐阅读

TechCrunch 要闻：YouTube 简化举报和移除 AI 换脸视频的流程

现在制作另一个人的声音或面部的深度伪造变得比以往任何时候都更容易，但至少YouTube正在进行一些小的改变，使得…

2024-07-031477

本周人工智能行业动态：随着雪佛龙的倒闭，人工智能监管似乎陷入了僵局

大家好，欢迎阅读TechCrunch的人工智能新闻通讯。本周在人工智能领域，美国最高法院推翻了“雪佛龙推迟”（Chevron deference）这项40年前关于联邦机构权力的裁决，该裁决要求...

2024-07-031027

Altrove使用人工智能模型和实验室自动化技术来创造新材料

在过去几年中，新材料开发的创新正在加速。一家名为Altrove的法国初创公司计划在这一创新周期中发挥作用。

2024-07-03249

欧洲对ESG仍然非常重视，而Apiday正在帮助公司遵守相关要求

Apiday利用人工智能为客户节省时间。但与传统咨询顾问一样，它也提供人类专业知识。

2024-07-032608

谷歌的环境报告明显地回避了人工智能的实际能源消耗

这句话的简体中文翻译可以是：“谷歌完全回避了人工智能使用了多少能源这个问题 — 或许是因为答案是“远超出我们愿意透露的范围”。

2024-07-03997