用于训练 Stable Diffusion 的数据集背后的组织声称已删除儿童性虐待材料(CSAM)。
LAION 是德国的一个研究组织,创建了用于训练 Stable Diffusion 等生成式人工智能模型的数据。该组织发布了一个新的数据集,并声称已“彻底清除了已知与疑似儿童性虐待材料(CSAM)的关联”。
新的数据集 Re-LAION-5B 实际上是旧数据集 LAION-5B 的重新发布——但根据非营利组织互联网观察基金会、人权观察组织、加拿大儿童保护中心和现已不复存在的斯坦福互联网观察站的建议进行了“修复”。LAION 表示,它有两个版本可供下载,分别是 Re-LAION-5B Research 和 Re-LAION-5B Research-Safe(后者还删除了更多不适合工作场所浏览的内容),这两个版本都对数千个已知以及“可能”的儿童性虐待材料(CSAM)链接进行了过滤。
LAION 在一篇博客文章中写道:“从一开始,LAION 就一直致力于从其数据集中删除非法内容,并从一开始就实施了适当的措施来实现这一目标。”“LAION 严格遵循一旦知晓非法内容就尽快删除的原则。”
需要注意的重要一点是,LAION 的数据集现在不包含图像,过去也从未包含过图像。相反,它们是 LAION 整理的图像链接和图像替代文本的索引,所有这些都来自于另一个不同的数据集——Common Crawl,该数据集由抓取的网站和网页组成。
Re-LAION-5B 的发布是在 2023 年 12 月斯坦福互联网观察站进行调查之后。该调查发现,LAION-5B——特别是一个名为 LAION-5B 400M 的子集——至少包含 1679 个指向从社交媒体帖子和热门成人网站抓取的非法图片的链接。据该报告称,400M 还包含指向“各种各样不适当内容的链接,包括色情图片、种族歧视言论和有害的社会刻板印象”。
虽然该报告的斯坦福大学共同作者指出,删除违规内容会很困难,而且儿童性虐待材料(CSAM)的存在不一定会影响基于该数据集训练的模型的输出,但 LAION 表示将暂时让 LAION-5B 离线。
斯坦福大学的报告建议,基于 LAION-5B 训练的模型“应当被弃用,并在可行的情况下停止分发”。或许与此相关,人工智能初创公司 Runway 最近从人工智能托管平台 Hugging Face 上撤下了其 Stable Diffusion 1.5 模型;我们已联系该公司以获取更多信息。(2023 年,Runway 与 Stable Diffusion 背后的公司 Stability AI 合作,协助训练最初的 Stable Diffusion 模型。)
关于新的 Re-LAION-5B 数据集,其中包含约 55 亿个文本 - 图像对,并根据 Apache 2.0 许可证发布,LAION 表示,第三方可以使用其元数据,通过删除匹配的非法内容来清理 LAION-5B 的现有副本。
LAION 强调其数据集旨在用于研究——而非商业——目的。但是,如果历史可作参考的话,这并不会阻止一些组织。除了 Stability AI 之外,谷歌也曾使用 LAION 的数据集来训练其图像生成模型。
LAION 在帖子中继续说道:“总之,在与我们的合作伙伴提供的链接和图像哈希列表进行匹配后,共删除了 2236 个[涉嫌儿童性虐待材料的]链接。”“这些链接还包括斯坦福互联网观察站 2023 年 12 月报告中发现的 1008 个链接……我们强烈敦促所有仍在使用旧版 LAION-5B 的研究实验室和组织尽快迁移到 Re-LAION-5B 数据集。”