Spawning希望建立更多道德的人工智能训练数据集

Chat中文镜像

约翰·迈耶和马修·德赫斯特创立了Spawning AI，旨在创建工具，帮助艺术家更多地控制其作品在网络上的使用。他们最新的项目名为Source.Plus，旨在策划用于人工智能模型训练的“非侵权”媒体。

Source.Plus项目的第一个举措是一个数据集，其中包含近4000万张公共领域图片和根据创意共用CC0许可发布的图片，该许可允许创作者放弃对其作品的几乎所有法律利益。迈尔称，尽管它相对于其他一些生成式人工智能训练数据集来说规模要小得多，Source.Plus的数据集已经足够“高质量”来训练一个最先进的图像生成模型。

梅耶说：“通过Source.Plus，我们正在建立一个通用的‘自愿参与’平台。我们的目标是让权利持有者能够按照自己的条件方便地提供其媒体用于生成式人工智能训练，同时让开发者无缝地将这些媒体纳入他们的训练工作流程中。”

权利管理

关于训练生成式AI模型的伦理问题的讨论仍在继续，特别是像Stable Diffusion和OpenAI的DALL-E 3这样的艺术生成模型 —— 对艺术家来说，这个讨论有着重大的影响，无论最终结果如何。

生成式人工智能模型通过对大量相关数据进行训练（例如照片逼真的艺术作品）来“学习”生成它们的输出。一些开发这些模型的人认为，公平使用的原则使他们有权从公共来源获取数据，而不考虑该数据的版权状态。其他人则尝试在法律边缘徘徊，对训练集的内容所有者进行补偿或至少给予认可。

麦耶，Spawning的首席执行官，认为目前还没有人确定最佳的方法。

在一次采访中，他告诉科技博客TechCrunch：“人工智能训练通常默认使用最容易获取的数据——这并不总是最公平或负责任的数据来源。艺术家和权利持有人对于他们的数据如何被用于人工智能训练几乎没有任何控制权，而开发者没有高质量的替代方案，使其更容易尊重数据权利。”

Source.Plus，目前仅限于测试版本，基于Spawning现有的艺术出处和使用权管理工具进行扩展。

2022年，Spawning推出了HaveIBeenTrained这个网站，允许创作者选择退出与Spawning合作的供应商使用的训练数据集，包括Hugging Face和Stability AI。在从True Ventures和Seed Club Ventures等投资者那里筹集了300万美元的风险资本后，Spawning推出了ai.text，这是网站“设置权限”给人工智能的一种方式，以及一种名为Kudurru的系统，用于防御数据抓取机器人。

Source.Plus是Spawning的首个建立媒体库和自行策划该媒体库的努力。梅耶表示，初始的图像数据集PD/CC0可用于商业或研究应用。

“Source.Plus不仅仅是一个用于训练数据的库; 它是一个带有工具的丰富平台，用以支持训练管道，”他继续说道。“我们的目标是在今年内推出一个高质量、非侵权的CC0数据集，能够支持一个强大的基础人工智能模型。”

包括Getty Images、Adobe、Shutterstock和人工智能初创公司Bria在内的组织声称他们只使用公平来源的数据进行模型训练（Getty甚至称其生成式人工智能产品为“商业安全”）。但Meyer表示，Spawning旨在为公平获取数据设定更高的标准。

Source.Plus通过过滤图像来展示“选择退出”和其他艺术家培训首选项，展示图像的来源信息，包括图像是如何获取的以及来源地点。它还排除了未经CC0许可的图像，包括需要归属的创意共用BY 1.0许可的图像。并且Spawning表示，它正在监控来自那些非创作者负责指示作品版权状况的来源的版权挑战，比如维基共享资源。

梅耶说：“我们对收集到的图像的许可进行了细致的验证，任何存在疑问的许可都被排除在外——这是许多‘公平’数据集没有采取的步骤。”

历史上，问题图像——包括暴力、色情和敏感个人图像——一直困扰着开放和商业训练数据集。

在被曝出医疗记录和儿童性虐待的图片后，LAION数据集的维护人员被迫下线一个库；就在本周，人权观察组织的一项研究发现，LAION的一个库中包含了巴西儿童的面部照片，而这些照片并未经过这些孩子的同意或知情。另外，Adobe的素材媒体库Adobe Stock，公司用来训练生成式人工智能模型，包括艺术生成的Firefly Image模型，在其中发现包含了来自竞争对手如Midjourney的人工智能生成的图片。

Spawning的解决方案是经过训练的分类器模型，用于检测图像中的裸体、血腥、个人可识别信息和其他不良内容。Meyer表示，认识到没有一个分类器是完美的，Spawning计划允许用户通过调整分类器的检测阈值来“灵活”过滤Source.Plus数据集。

“迈耶补充道：我们雇佣了版主来验证数据所有权。我们还内置了补救功能，用户可以标记违规或可能侵权的作品，以及对数据消费过程的审核路径。”

补偿/报酬/赔偿

大多数用于补偿创作者提供生成式人工智能训练数据贡献的计划并不算很成功。有些计划依赖不透明的指标来计算创作者的报酬，而其他一些支付的金额被艺术家认为是不合理低。

以Shutterstock为例。这家库存媒体库与人工智能供应商达成了数千万美元的交易，为它用于训练生成式人工智能模型或许可给第三方开发人员的艺术作品支付“贡献者基金”。但Shutterstock并未透明地说明艺术家可以期望赚多少钱，也不允许艺术家自行设定价格和条款；第三方估计收入是2,000张图片15美元，金额并不大。

一旦Source.Plus在今年晚些时候退出测试版，并扩展到PD/CC0之外的数据集，它将采取与其他平台不同的方式，允许艺术家和权利持有者为每次下载设置自己的价格。Spawning将收取费用，但只是一个固定费率 —— “一分之一的便士”，Meyer说道。

顾客还可以选择每月支付Spawning 10美元，加上典型的每张图片下载费用，购买Source.Plus Curation订阅计划，该计划允许他们私下管理图像集合，每月最多下载数据集10000次，并获得访问新功能的权限，例如“高级”收藏和数据丰富化。

迈尔说：“我们将根据目前的行业标准和内部指标提供指导和建议，但最终，数据集的贡献者决定什么对他们来说是有价值的。我们有意选择了这种定价模式，以便让艺术家获得大部分收入并允许他们自行设定参与的条款。我们相信这种收入分成对艺术家来说比常见的百分比收入分成更有利，并将导致更高的支付和更大的透明度。”

如果Source.Plus获得了Spawning所期待的关注度，Spawning打算将其扩展到除图像外的其他类型媒体，包括音频和视频。Spawning正在与一些未透露的公司进行讨论，以使它们的数据能够在Source.Plus上使用。而且，Meyer表示，Spawning可能会利用Source.Plus数据集构建自己的生成式AI模型。

迈耶说：“我们希望想要参与生成式人工智能经济的权利持有者有机会参与并获得公平报酬。我们也希望那些对参与人工智能感到矛盾的艺术家和开发者有机会以一种尊重其他创作者的方式参与其中。”

当然，Spawning 在这里有一席之地。Source.Plus 似乎是涉及艺术家参与生成式人工智能开发过程的更有前途的尝试之一，让他们分享他们作品的利润。

正如我的同事阿曼达·席尔伯林最近所写的，出现了像艺术主机社区Cara这样的应用程序，Meta宣布可能会对Instagram上的内容进行生成式AI训练，包括艺术家内容之后，Cara的使用量激增，这表明创意社区已经到了一个临界点。他们渴望找到公司和平台的替代方案，因为他们认为这些公司和平台是盗窃者，而Source.Plus可能正是一个可行的选择。

但是如果Spawning一直都是站在艺术家的最大利益出发（这是个很大的假设，考虑到Spawning是一家风险投资支持的公司），我想知道Source.Plus能否像Meyer所设想的那样成功扩展。如果社交媒体教会了我们什么，那就是，特别是对于成千上万的用户生成内容的调节是一个棘手的问题。

我们很快就会找出来。