DatologyAI正在开发技术,自动筛选人工智能训练数据集

AI7号2024-02-221197

Chat中文版

庞大的训练数据集是强大AI模型的关键,但通常也是这些模型的崩溃点。

偏见来源于隐藏在大数据集中的一些带有偏见的模式,比如图像分类集合中大部分是白人CEO的照片。大数据集可能会很混乱,以一种对模型难以理解的格式呈现出来,其中包含大量的噪音和无关信息。

在最近的德勤公司对采用人工智能的企业进行的调查中,有40%的企业表示数据相关的挑战,包括充分准备和清洗数据,是妨碍他们人工智能计划的首要问题之一。另一项对数据科学家的单独调查发现,大约45%的科学家的时间用于数据准备任务,如“加载”和清洗数据。

Ari Morcos在人工智能行业工作了近十年,他希望简化很多围绕人工智能模型训练的数据准备过程 - 他创办了一家初创公司来实现这一目标。

Morcos的公司DatologyAI构建工具,自动整理数据集,就像用于训练OpenAI的ChatGPT、谷歌的Gemini和其他类似GenAI模型的数据集一样。该平台可以根据模型的应用(例如撰写电子邮件)识别哪些数据最重要,Morcos声称,此外,还可以找到数据集如何用额外数据增强以及在模型训练期间如何批处理或将其划分为更易管理的块。

“模型吃什么就变成什么 - 模型是它们训练时所依赖的数据的反映,”Morcos在一封电子邮件访谈中告诉TechCrunch。“然而,并非所有的数据都是相同的,有些训练数据比其他更有用。以正确的方式在正确的数据上训练模型可以对结果产生巨大影响。”

Morcos在哈佛大学获得了神经科学博士学位,他在DeepMind工作了两年,应用神经学启发技术来理解和改进人工智能模型,之后又在Meta的人工智能实验室工作了五年,揭示了一些模型功能的基本机制。与他的联合创始人Matthew Leavitt和Bogdan Gaza一起,Morcos成立了DatologyAI,旨在简化各种人工智能数据集的整理工作。

正如Morcos指出的,训练数据集的构成几乎影响模型在任务表现、大小和领域知识深度等每个特征。更高效的数据集可以缩短训练时间并生成更小的模型,节省计算成本,而包含特别多样化样本的数据集可以更灵活地处理独特请求(一般来说)。

随着对GenAI的兴趣达到最高水平,这个以昂贵著称的AI实施成本成为高管们首要考虑的问题。

许多企业选择对现有模型(包括开源模型)进行微调以适应他们的需求,或者选择通过API使用托管供应商服务。但是一些企业出于治理和合规原因或其他原因,正在从头开始构建基于定制数据的模型,并在计算机方面花费数万到数百万美元来训练和运行它们。

Morcos表示:“企业已经收集了大量数据宝藏,希望能训练出高效、性能好、专业化的人工智能模型,以最大程度地提升业务利益。然而,有效地利用这些海量数据集非常具有挑战性,如果处理不当,就会导致性能较差、训练时间较长且过度庞大的模型。”

DatologyAI可以扩展到以任何格式存在的“PB级”数据 — 无论是文本、图像、视频、音频、表格还是更“异类”的模式,如基因组和地理空间数据 — 并部署到客户基础设施,无论是本地部署还是通过虚拟专用云。Morcos声称,这使它与其他数据准备和整理工具如CleanLab、Lilac、Labelbox、YData和Galileo有所区别,这些工具在能够处理的数据范围和类型方面更为受限。

DatologyAI还能够确定数据集中的哪些“概念”更复杂,因此需要更高质量的样本,例如在教育聊天机器人训练集中与美国历史相关的概念,以及哪些数据可能会导致模型以意想不到的方式行为。

莫科斯表示:“解决这些问题需要自动识别概念,它们的复杂性以及实际上需要多少冗余。数据增强,通常使用其他模型或合成数据,非常强大,但必须以谨慎、有针对性的方式来进行。”

问题是,DatologyAI的技术到底有多有效?有理由持怀疑态度。历史已经表明,尽管方法复杂,数据种类多样,但自动化数据整合并不总是按预期工作。

德国非营利组织LAION是一家领导多个GenAI项目的组织,发现其算法策划的AI训练数据集中包含儿童性虐待图片后,不得不将其下架。另外,像ChatGPT这样的模型,经过手动和自动过滤有毒信息的数据集训练后,发现在特定提示下可能会生成有毒内容。

一些专家会认为,无法摆脱手工编辑,至少如果希望AI模型取得良好成果的话。如今,从AWS到谷歌再到OpenAI,最大的供应商都依赖人类专家团队和(有时待遇低下的)注释员来塑造和完善他们的训练数据集。

Morcos坚持认为DatologyAI的工具并不是要完全取代手工策划,而是要提供一些建议,这些建议可能会让数据科学家想不到,特别是与修剪训练数据集大小的问题有关的建议。他在这方面有着一定的权威——数据集修剪同时保持模型性能是Morcos在2022年与斯坦福大学和图宾根大学的研究人员合著的一篇学术论文的重点,该论文在当年的NeurIPS机器学习会议上获得了最佳论文奖。

Morcos说:“在大规模数据中识别正确的数据是非常具有挑战性的,也是一个前沿性的研究问题。我们的方法导致模型可以在训练时更快地学习,同时在后续任务中表现更好。”

DatologyAI的技术显然足够引人注目,足以说服科技和人工智能领域的巨头们投资该初创公司的种子轮融资,其中包括谷歌首席科学家杰夫·迪恩、Meta首席人工智能科学家杨立昆、Quora创始人兼OpenAI董事会成员亚当·丹吉洛以及被公认为开发出现代人工智能核心重要技术的杰弗里·辛顿。

DatologyAI的1165万美元种子轮融资中的其他天使投资人包括Cohere的联合创始人Aidan Gomez和Ivan Zhang,Contextual AI的创始人Douwe Kiela,前英特尔人工智能副总裁Naveen Rao,以及生成扩散模型发明者之一Jascha Sohl-Dickstein。由Amplify Partners领投,Radical Ventures、Conviction Capital、Outset Capital和Quiet Capital等机构参与。可以说,这是一个令人印象深刻的人工智能领域的名人名单,这也表明了Morcos声称的可能性。

LeCun在给TechCrunch的一封电子邮件声明中说:“模型只有在训练过程中使用的数据足够好的情况下才会表现良好,但在数十亿或数万亿个示例中找出合适的训练数据是一个极具挑战性的问题。DatologyAI的Ari及其团队是这个问题上世界上一些专家,我相信他们正在构建可以使高质量数据整理对于任何想要训练模型的人都可用的产品,这对于帮助让人工智能为每个人服务是至关重要的。”

总部位于旧金山的DatologyAI目前有十名员工,包括联合创始人在内,但如果达到某些增长里程碑,计划在年底前扩展到大约25名员工。

我问Morcos里程碑是否与客户获取有关,但他拒绝透露,相当神秘地也不愿透露DatologyAI当前客户群体的大小。

推荐阅读

人工智能领域的女性:Krystal Kauffman,分布式人工智能研究所的研究员

2024-02-222813
Chat中文版

安特勒创始人谈论在东南亚进行垂直人工智能投资的决定

2024-02-22349
Chat中文版

三星正在将Galaxy人工智能功能带给更多设备

2024-02-221576
Chat中文版

数百名人工智能界知名人士签署呼吁立法反对深度伪造的信

2024-02-212200
Chat中文版

你比 ChatGPT 更懂黑人文化吗?快来做个测试验证一下

2024-02-211865
Chat中文版