AI2开源文本生成AI模型 - 以及用于训练模型的数据

Chat中文版

由微软联合创始人保罗·艾伦创建的非营利人工智能研究机构艾伦人工智能研究所（AI2）发布了几个他们声称更加“开放”的GenAI语言模型。重要的是，这些模型的许可方式使开发者可以无拘束地将其用于训练、实验甚至商业化。

被称为OLMo的模型和用于训练它们的数据集Dolma是一种研究文本生成人工智能背后高级科学的设计，这个数据集是目前同类中最大的公共数据集之一，据AI2的高级软件工程师Dirk Groeneveld称。

“‘开放’在[文本生成模型]方面是一个负载过重的术语，”Groeneveld在一次电子邮件采访中告诉TechCrunch。 “我们期望研究人员和实践者能够抓住OLMo框架作为一个机会，分析一个基于迄今为止最大的公开数据集之一进行训练的模型，以及构建模型所需的所有组件。”

开源文本生成模型如今已屡见不鲜，从Meta到Mistral，各个机构都发布了非常强大的模型，供开发者使用和调优。但Groeneveld指出，许多这些模型并不能真正被视为开源，因为它们是在“闭门造车”的情况下训练的，使用的是专有且不透明的数据集。

相比之下，OLMo 模型是通过与包括哈佛大学、AMD 和 Databricks 在内的合作伙伴合作创建的，它们随附用于生成训练数据的代码以及训练和评估指标和日志。

在性能方面，最强大的OLMo模型，OLMo 7B，根据格鲁内维尔德的说法，是Meta的Llama 2的一个“引人注目而强大的”替代品，具体取决于应用场景。在某些基准测试中，尤其是涉及阅读理解的测试中，OLMo 7B超过了Llama 2。但在其他一些问题回答测试中，OLMo 7B稍稍落后。

OLMo模型存在其他局限性，例如在非英语语言中产出的输出质量较低（Dolma主要包含英语内容）以及弱代码生成能力。但Groeneveld强调，目前还处于早期阶段。

“OLMo目前并未设计为多语言使用，”他说。“虽然在现阶段，OLMo框架的主要关注点不是代码生成，但为了给未来基于代码的优化项目提供一个良好的起点，OLMo的数据组合目前包含大约15%的代码。”

我问Groeneveld是否担心OLMo模型可能被不良行为者以意外、可能恶意的方式利用。最近，Democracy Reporting International的Disinfo Radar项目进行的一项研究发现，两个受欢迎的开放式生成文本模型，Hugging Face的Zephyr和Databricks的Dolly，可可靠地生成有毒内容，对恶意提示做出“富有想象力”的有害内容回应。这些模型可以在商业上使用，并且在像Nvidia 3090这样的消费级显卡上运行效果良好。

Groeneveld相信最终利益大于伤害。

“构建这个开放平台实际上将促进对这些模型可能危险的研究，以及我们如何修复它们，”他说。“是的，开放模型可能被不适当地使用或用于意想不到的目的。然而，这种方法也促进了技术进步，进而产生了更加道德的模型；它是验证和可重复性的先决条件，因为只有获得完整的技术堆栈才能实现这些目标；而且它减少了权力的集中，为更加平等的获取提供了更好的机会。”

在接下来的几个月里，AI2计划发布更大、功能更强的OLMo模型，包括多模态模型（即理解文字之外的模态的模型），以及用于训练和微调的额外数据集。与最初的OLMo和Dolma发布一样，所有资源将在GitHub和AI项目托管平台Hugging Face上免费提供。

推荐阅读

谷歌推出了一款由人工智能驱动的图片生成器

泰勒·斯威夫特的深度伪造已经被无视，谷歌即将推出一款新的人工智能工具ImageFX，用于图像创建。ImageFX基于由谷歌DeepMind团队开发的GenAI图像模型Imagen 2，提供基于提示的用户界面来创建和编辑图像。这与OpenAI的DALL-E 3、Midjourney、Meta的Imagine with Meta AI等工具没有什么不同。

2024-02-012199

谷歌的巴德聊天机器人全球获得Gemini Pro更新

谷歌今天宣布，其Bard聊天机器人现已全球范围内使用Gemini Pro模型提供支持，支持超过40种语言，包括阿拉伯语、中文、荷兰语、法语、德语、印地语、日语、葡萄牙语、西班牙语、泰米尔语、泰卢固语和马拉雅拉姆语。去年12月，谷歌推出了其新的生成型人工智能模型，包括旗舰产品Gemini Ultra、“轻量级”Gemini Pro和Gemini Nano，...

2024-02-012644

谷歌发布音乐创作的GenAI工具

随着 GenAI 工具开始以令人难以置信的方式改变音乐产业，有些情况甚至引发伦理问题。谷歌正在加大对人工智能技术的投资，以创作新的音乐和歌词。这家搜索巨头今天推出了 MusicFX，这是去年发布的音乐生成工具 MusicLM 的升级版。MusicFX 能够创作...

2024-02-012332

Shopify正在推出一个基于人工智能的产品图片编辑器

电商平台Shopify发布了冬季版的新功能，包括通过人工智能提升商品图片的媒体编辑器、改进的语义搜索以及更好的展示不同产品变体的方式。自去年以来，包括Meta、谷歌和亚马逊在内的许多公司已经允许广告商使用生成式人工智能来生成背景。

2024-02-012413

双子实验室通过让人工智能接管你的鼠标光标，自动化重复任务

认识一家名为Twin Labs的初创企业，总部位于巴黎，他们希望开发一款自动化产品，用于处理重复的任务，比如将新员工加入公司的所有内部服务，当库存不足时重新订购物品，从多个SaaS产品下载财务报告，与潜在客户建立联系等等。"Twin的起点是一个科幻的想法。"

2024-02-01267