AI训练数据的价格标签只有大科技公司能负担得起

AI7号2024-06-01573

Chat中文镜像

如今先进的人工智能系统以数据为核心,但数据的成本越来越高,使得除了最富有的科技公司以外,其他人难以承受。

去年,OpenAI的研究员詹姆斯·贝特克在他的个人博客上发表了一篇关于生成型人工智能模型及其训练数据集的性质的文章。在文章中,贝特克声称训练数据,而不是模型的设计、架构或任何其他特征,是使人工智能系统变得越来越复杂、能力更强的关键。

贝克写道:“在相同数据集上进行足够长时间的训练后,几乎每个模型都会收敛到相同的点。”

贝特克说的对吗?培训数据是模型能做到的最重要的决定因素吗,无论是回答问题、绘制人类手部还是生成逼真的城市风景?

这肯定是有道理的。

统计机器

生成式人工智能系统基本上是概率模型——大量统计数据的堆积。它们根据大量示例猜测哪些数据在哪里放置最“合理”(例如,在句子“我去市场”中,“去”放在“市场”之前)。因此,直观来看,模型拥有更多示例,训练出来的模型性能就会越好。

“看起来性能提升似乎是来自数据,”艾伦人工智能研究所(AI2)的高级应用研究科学家Kyle Lo告诉TechCrunch,“至少在你有稳定的训练设置之后是这样。”

罗举例说明了Meta的Llama 3,这是一个今年早些时候推出的文本生成模型,尽管在架构上与AI2的OLMo模型非常相似,但它表现出色。Llama 3的训练数据比OLMo多得多,罗认为这解释了它在许多流行的人工智能基准测试中的优越表现。

我要在这里指出,目前在人工智能行业广泛使用的基准并不一定是模型性能的最佳衡量标准,但除了像我们自己做的定性测试之外,它们是我们现有的少数几种度量标准之一。

这并不意味着在指数级更大的数据集上训练一定会带来指数级更好的模型。洛指出,模型遵循“垃圾进,垃圾出”的范式,因此数据的筛选和质量非常重要,也许比数量更重要。

他补充道:“有可能精心设计数据的小型模型表现优于大型模型。例如,大型模型Falcon 180B在LMSYS基准测试中排名第63,而远比它小的模型Llama 2 13B排名第56。”

去年十月,OpenAI研究员Gabriel Goh在接受TechCrunch采访时表示,DALL-E 3的图像质量得到了极大的提升,其中高质量的标注贡献巨大。这是OpenAI的文本到图像模型,相较于前身DALL-E 2有了极大的改进。他说:“我认为这是改进的主要来源。文本标注比DALL-E 2时好多了,根本无法相比。”

许多人工智能模型,包括DALL-E 3和DALL-E 2,都是通过让人类标注数据来训练的,这样模型就可以学会将这些标签与数据的其他观察特征联系起来。例如,一个模型如果被喂了大量带有每个品种注释的猫的照片,最终就会“学会”将bobtail和shorthair这样的词与它们独特的视觉特征联系起来。

不良行为

洛等专家担心,对大型、高质量训练数据集的日益强调将会把人工智能的发展集中到少数能够负担得起这些数据集的拥有数十亿资金预算的大公司手中。合成数据或基本架构的重大创新可能会打破现状,但在不久的将来似乎都不会出现。

“总的来说,管理着潜在对AI发展有用的内容的实体受到激励,将他们的材料封锁起来,”罗说道。“随着数据获取渠道的关闭,我们基本上在给少数早期行动者在数据获取上加持,并且拉起梯子,这样其他人就无法获取数据来赶上。”

确实,在争相获取更多训练数据的竞争中,并没有导致不道德(甚至可能是违法)行为,比如秘密聚合受版权保护的内容,反而奖励了资金雄厚的科技巨头,用于数据许可。

OpenAI等生成式人工智能模型主要是通过从公共网页(包括问题多多的生成式人工智能)收集的图片、文字、音频、视频和其他数据进行训练,其中一些数据是受版权保护的。世界上的OpenAI声称,合理使用可以保护他们免受法律报复。许多权利持有者不同意,但至少目前他们无法阻止这种做法。

有很多例子显示生成式人工智能供应商通过可疑手段获取大规模数据集来训练他们的模型。据报道,OpenAI未经YouTube的许可,也未经创作者的许可,转录了超过一百万小时的YouTube视频,用于训练旗舰模型GPT-4。谷歌最近扩大了其服务条款,部分原因是为了可以利用公共谷歌文档、谷歌地图上的餐厅评论和其他在线资料来为其人工智能产品提供支持。据说Facebook考虑冒着诉讼的风险,以训练其模型使用受知识产权保护的内容。

与此同时,无论是大公司还是小公司,都依赖于在第三世界国家工作的工人,他们每小时只能得到几美元的报酬来为训练数据集创建注释。其中一些注释员是被规模庞大的初创企业(如Scale AI)雇佣的,他们连续工作数日来完成任务,暴露于暴力和流血的图像描述之中,却没有任何福利或未来工作的保障。

不断增长的成本

换句话说,即使是更公开透明的数据交易,也并没有真正促进一个开放公平的生成式人工智能生态系统。

OpenAI已经花费数亿美元从新闻出版商、股票媒体库等处获取内容,用来训练其人工智能模型——远远超过大多数学术研究机构、非营利组织和初创企业的预算。Meta甚至考虑收购出版商西蒙与舒斯特公司的权利以获取电子书摘录(最终,西蒙与舒斯特公司在2023年以16.2亿美元卖给私募股权公司KKR)。

随着人工智能训练数据市场预计从现在的大约25亿美元增长到未来十年接近300亿美元,数据经纪人和平台正在争先恐后地收取最高费用 - 在某些情况下,甚至不顾他们的用户基础的反对意见。

股票媒体库Shutterstock与人工智能供应商达成的交易金额在2500万到5000万美元之间,而Reddit声称通过向谷歌和OpenAI等组织授权数据赚取了数亿美元。似乎多年来积累了大量数据的一些平台,从Photobucket到Tumblr再到问答网站Stack Overflow,都没有与生成式人工智能开发者签署协议。

至少根据你相信的法律论点,这是平台的数据要出售。但在大多数情况下,用户并没有从利润中得到一分钱。这损害了更广泛的人工智能研究社区。

Lo说:“较小的参与者将无法负担这些数据许可证,因此将无法开发或研究AI模型。”“我担心这可能会导致对AI发展实践缺乏独立的审查。”

独立努力

在阴霾中如果有一丝阳光,那就是少数独立的、非盈利性的努力,他们创建了大规模数据集,任何人都可以用来训练生成式人工智能模型。

EleutherAI是一个始于2020年的基层非营利研究团体,最初是一个松散的Discord集体,正在与多伦多大学、AI2和独立研究人员合作,创建“The Pile v2”,这是一个主要来自公共领域的数十亿文本段落的集合。

今年4月,人工智能初创公司Hugging Face发布了FineWeb,这是Common Crawl的一个经过过滤的版本。Common Crawl是一个非营利性组织维护的数据集,包含了数十亿网页。Hugging Face声称FineWeb能够提高许多基准测试中模型的性能。

一些释放开放式培训数据集的努力,例如LAION团队的图像集,面临着版权、数据隐私和其他同样严重的伦理和法律挑战。但一些更专注于数据管理的人承诺会做得更好。例如,Pile v2已经移除了其前身数据集Pile中存在的问题版权材料。

问题是,这些开放性的努力能否与大科技公司保持步伐。只要数据收集和整理仍然是资源的问题,答案很可能是否定的,至少在某些研究突破拉平竞争场地之前是这样。