OpenAI表示,他们正在开发一种工具,让内容创作者能够选择不参与人工智能训练

AI7号2024-05-07939

Chat中文版

OpenAI表示,他们正在开发一种工具,让创作者更好地控制他们的内容在训练生成式人工智能时的使用方式。

名为媒体管理器的工具一经发布,将允许创作者和内容所有者将其作品识别给OpenAI,并指定他们希望这些作品在人工智能研究和培训中被包含或排除的方式。

OpenAI表示,目标是在2025年前推出这一工具,公司正在与“创作者、内容所有者和监管机构”合作,以达成共同的标准。

OpenAI在一篇博客文章中写道:“这将需要最先进的机器学习研究,构建第一款此类工具,帮助我们识别跨多个来源的受版权保护的文本、图像、音频和视频,并反映创作者的偏好。”“随着时间的推移,我们计划引入额外的选择和功能。”

看起来,无论最终采取什么形式,媒体管理器都是OpenAI对其开发人工智能方法受到越来越多批评的回应,该方法严重依赖于从网络上公开获取数据。最近,包括芝加哥论坛报在内的八家知名美国报纸起诉OpenAI侵犯版权,指控OpenAI利用生成式人工智能窃取文章进行训练,并未对来源出版物进行补偿或给予认可,然后以商业化方式推广这些生成式人工智能模型。

包括OpenAI在内的生成式人工智能模型——这些模型可以分析和生成文本、图片、视频等——通常是在公开网站和数据集中收集大量样本进行训练的。OpenAI和其他生成式人工智能供应商认为,公平使用这一法律原则允许使用受版权保护的作品制作第二创作,只要具有变革性,可以保护他们从公共数据中抓取并用于模型训练的做法。但并非所有人都同意这个观点。

实际上,OpenAI 最近强调,如果没有受版权保护的材料,创造有用的人工智能模型将是不可能的。

然而,为了安抚批评者,OpenAI 允许艺术家“选择退出”并从数据集中删除他们的作品,这些数据集是该公司用来训练更近期的图像生成模型的。公司还让网站所有者通过 robots.txt 标准表明,该标准为网络爬虫提供了有关网站的指示,说明网站上的内容是否可以被用于 AI 模型训练。

一些内容创作者表示,这些工具还不够完善。

艺术家们描述OpenAI的图像退出流程为繁琐,需要提交每个待删除图像的个别副本以及描述。正如OpenAI今天在博客文章中所承认的那样,OpenAI目前的解决方案无法解决创建者的作品被引用、混搭或在他们无法控制的平台上重新发布的情况。

除了OpenAI之外,许多第三方正试图为生成式人工智能构建通用来源和选择退出工具。

创业公司Spawning AI的合作伙伴包括Stability AI和Hugging Face,他们提供一款应用程序,可以识别和跟踪机器人的IP地址,以阻止网络爬虫的尝试,并提供一个数据库,供艺术家注册他们的作品,防止供应商进行训练,这些供应商选择尊重这些请求。Steg.AI、Imatag和“无AI”水印生成器帮助创作者通过应用对于人眼不可察觉的水印来确立对其图片的所有权。而芝加哥大学的Nightshade项目通过“污染”图像数据,使其对AI模型的训练变得无用或者带有破坏性。