AI2 的 Molmo 表明,开源能够匹敌甚至超越封闭的多模态模型。

AI7号2024-09-25381

Chat中文镜像

通常的观点认为,像谷歌、OpenAI 和 Anthropic 这样拥有雄厚资金储备和数百名顶尖研究人员的公司,才是唯一能够开发出最先进基础模型的公司。但正如其中一家公司著名地指出,它们“没有护城河”——而 AI2 今天发布了 Molmo 证明了这一点,这是一个多模态人工智能模型,在性能上与它们的最佳水平相当,同时体积小、免费且真正开源。

需要明确的是,Molmo(多模态开放语言模型)是一个视觉理解引擎,并非像 ChatGPT 那样的全方位服务聊天机器人。它没有应用程序编程接口(API),尚未准备好用于企业集成,也不会为您或出于自身目的在网络上进行搜索。您可以将其视为那些模型中能够看到图像、理解图像,并能够描述或回答有关图像问题的部分。

Molmo(有 720 亿、70 亿和 10 亿参数的变体)和其他多模态模型一样,能够识别并回答几乎任何日常情境或物体的相关问题。比如:这台咖啡机怎么用?这张图片里有多少只狗伸出了舌头?这份菜单上哪些选项是纯素食的?这个图表中的变量是什么?这类视觉理解任务我们多年来已见证过不同程度的成功和延迟表现。

不同之处并不一定在于 Molmo 的能力(您可以在下面的演示中看到,或者在此处测试),而在于它是如何实现这些能力的。

视觉理解当然是一个广泛的领域,涵盖了从数田野里的羊到猜测一个人的情绪状态再到总结菜单等各种事情。正因如此,它很难描述,更不用说进行定量测试了,但正如 AI2 总裁阿里·法哈迪(Ali Farhadi)在该研究组织西雅图总部的一次演示活动中所解释的那样,你至少可以表明两个模型的能力是相似的。

他说:“我们今天展示的一点是,开放等于封闭,”“而且小现在等于大。”(他澄清说他指的是 ==,意思是等价,而不是等同;这是一个细微的差别,有些人会理解。)

在人工智能的发展中,一个近乎不变的理念一直是“越大越好”。更多的训练数据、模型中有更多的参数,以及更多的计算能力来创建和运行它们。但在某种程度上,你确实不能再将它们做得更大了:没有足够的数据来这样做,或者计算成本和时间变得如此之高,以至于适得其反。你只能满足于现有的条件,或者更好的是,用更少的资源做更多的事情。

法哈迪解释说,尽管 Molmo 的表现与 GPT-4o、Gemini 1.5 Pro 和 Claude-3.5 Sonnet 等旗鼓相当,但(据最佳估计)其规模约为它们的十分之一。而且它以十分之一大小的模型达到了它们的能力水平。

“人们评估的基准有十几种不同的类型。从科学角度讲,我不喜欢这个游戏……但我得给人们展示一个数字,”他解释道。“我们最大的模型是一个较小的模型,720 亿参数,在那些基准测试中,它的表现优于 GPT、Claude 和 Gemini。再说一次,对此要持保留态度;这是否意味着它真的比它们更好?我不知道。但至少对我们来说,这意味着它在参与同样的游戏。”

如果想尝试一下,可以随意查看公开演示,它在移动端也能使用。(如果您不想登录,可以刷新或向上滚动并“编辑”原始提示来替换图像。)

秘诀在于使用更少但质量更高的数据。AI2 没有在数十亿张不可能全部进行质量控制、描述或去重的图像库上进行训练,而是整理并标注了一组仅 60 万张的图像。显然,这数量仍然很大,但与 60 亿相比只是沧海一粟——不到百分之一。虽然这会遗漏一些长尾内容,但他们的选择过程和有趣的标注方法为其提供了非常高质量的描述。

有趣在哪里呢?嗯,他们向人们展示一张图片,然后让他们描述——大声说出来。结果发现,人们谈论事物的方式和书写的方式不同,这不仅产生了准确的结果,而且还具有对话性和实用性。Molmo 生成的图像描述丰富而实用。

这一点在其新的且至少在几天内独有的能够“指向”图像相关部分的能力上体现得最为明显。当被要求计算照片中狗的数量(33 只)时,它会在每只狗的脸上点一个点。当被要求计算舌头的数量时,它会在每条舌头上点一个点。这种特定性使它能够执行各种新的零样本操作。重要的是,它在网络界面上也能发挥作用:无需查看网站的代码,该模型就知道如何浏览页面、提交表单等等。(Rabbit 最近为其将于下周发布的 r1 展示了类似的功能。)

那么,为什么这一切都很重要呢?模型实际上每天都在涌现。谷歌刚刚宣布了一些。OpenAI 即将有一个演示日。Perplexity 不断地透露着这样或那样的消息。Meta 正在大肆宣传 Llama 的某个版本。

嗯,Molmo 是完全免费和开源的,而且体积小到可以在本地运行。无需 API,无需订阅,也不需要水冷 GPU 集群。创建和发布该模型的目的是使开发人员和创作者能够在无需向世界上最大的科技公司之一寻求许可(并付费)的情况下,制作出基于人工智能的应用程序、服务和体验。

法哈迪说:“我们的目标是研究人员、开发人员、应用程序开发人员,以及那些不知道如何处理这些[大型]模型的人。针对如此广泛的受众,一个关键原则是我们已经推动了一段时间的原则,即:让它更易于使用。我们正在发布我们所做的每一件事。这包括数据、清理、注释、训练、代码、检查点、评估。我们正在发布关于它的我们所开发的一切。”

他补充说,他预计人们会立即开始利用这个数据集和代码进行开发——包括财力雄厚的竞争对手,他们会搜罗任何“公开可用”的数据,即任何没有被限制获取的数据。(“他们提不提这事就是另一回事了,”他补充道。)

人工智能领域发展迅速,但越来越多的巨头发现自己在进行一场逐底竞争,将价格压至最低,同时筹集数亿美元来弥补成本。如果类似的功能可以从免费的开源选项中获得,这些公司提供的价值真的能如此巨大吗?至少,莫尔莫表明,尽管这位“皇帝”是否穿着新衣还是个悬而未决的问题,但他肯定没有护城河。