AI2开源文本生成AI模型 - 以及用于训练模型的数据

AI7号2024-02-01798

Chat中文版

由微软联合创始人保罗·艾伦创建的非营利人工智能研究机构艾伦人工智能研究所(AI2)发布了几个他们声称更加“开放”的GenAI语言模型。重要的是,这些模型的许可方式使开发者可以无拘束地将其用于训练、实验甚至商业化。

被称为OLMo的模型和用于训练它们的数据集Dolma是一种研究文本生成人工智能背后高级科学的设计,这个数据集是目前同类中最大的公共数据集之一,据AI2的高级软件工程师Dirk Groeneveld称。

“‘开放’在[文本生成模型]方面是一个负载过重的术语,”Groeneveld在一次电子邮件采访中告诉TechCrunch。 “我们期望研究人员和实践者能够抓住OLMo框架作为一个机会,分析一个基于迄今为止最大的公开数据集之一进行训练的模型,以及构建模型所需的所有组件。”

开源文本生成模型如今已屡见不鲜,从Meta到Mistral,各个机构都发布了非常强大的模型,供开发者使用和调优。但Groeneveld指出,许多这些模型并不能真正被视为开源,因为它们是在“闭门造车”的情况下训练的,使用的是专有且不透明的数据集。

相比之下,OLMo 模型是通过与包括哈佛大学、AMD 和 Databricks 在内的合作伙伴合作创建的,它们随附用于生成训练数据的代码以及训练和评估指标和日志。

在性能方面,最强大的OLMo模型,OLMo 7B,根据格鲁内维尔德的说法,是Meta的Llama 2的一个“引人注目而强大的”替代品,具体取决于应用场景。在某些基准测试中,尤其是涉及阅读理解的测试中,OLMo 7B超过了Llama 2。但在其他一些问题回答测试中,OLMo 7B稍稍落后。

OLMo模型存在其他局限性,例如在非英语语言中产出的输出质量较低(Dolma主要包含英语内容)以及弱代码生成能力。但Groeneveld强调,目前还处于早期阶段。

“OLMo目前并未设计为多语言使用,”他说。“虽然在现阶段,OLMo框架的主要关注点不是代码生成,但为了给未来基于代码的优化项目提供一个良好的起点,OLMo的数据组合目前包含大约15%的代码。”

我问Groeneveld是否担心OLMo模型可能被不良行为者以意外、可能恶意的方式利用。最近,Democracy Reporting International的Disinfo Radar项目进行的一项研究发现,两个受欢迎的开放式生成文本模型,Hugging Face的Zephyr和Databricks的Dolly,可可靠地生成有毒内容,对恶意提示做出“富有想象力”的有害内容回应。这些模型可以在商业上使用,并且在像Nvidia 3090这样的消费级显卡上运行效果良好。

Groeneveld相信最终利益大于伤害。

“构建这个开放平台实际上将促进对这些模型可能危险的研究,以及我们如何修复它们,”他说。“是的,开放模型可能被不适当地使用或用于意想不到的目的。然而,这种方法也促进了技术进步,进而产生了更加道德的模型;它是验证和可重复性的先决条件,因为只有获得完整的技术堆栈才能实现这些目标;而且它减少了权力的集中,为更加平等的获取提供了更好的机会。”

在接下来的几个月里,AI2计划发布更大、功能更强的OLMo模型,包括多模态模型(即理解文字之外的模态的模型),以及用于训练和微调的额外数据集。与最初的OLMo和Dolma发布一样,所有资源将在GitHub和AI项目托管平台Hugging Face上免费提供。

推荐阅读

谷歌推出了一款由人工智能驱动的图片生成器

2024-02-012199
Chat中文版

谷歌的巴德聊天机器人全球获得Gemini Pro更新

2024-02-012644
Chat中文版

谷歌发布音乐创作的GenAI工具

2024-02-012332
Chat中文版

Shopify正在推出一个基于人工智能的产品图片编辑器

2024-02-012413
Chat中文版

双子实验室通过让人工智能接管你的鼠标光标,自动化重复任务

2024-02-01267
Chat中文版