米斯特拉尔发布了 Pixtral 12B,这是其首个多模态模型。

AI7号2024-09-112187

Chat中文镜像

法国人工智能初创公司 Mistral 发布了其首款既能处理图像又能处理文本的模型。

被称为 Pixtral 12B 的这个拥有 120 亿参数的模型,其大小约为 24GB。参数大致对应着模型的解决问题的能力,通常具有更多参数的模型要比参数较少的模型表现更好。

该新模型基于米斯特拉尔的一个文本模型 Nemo 12B 构建,能够回答关于任意数量、任意大小的图像的问题,这些图像可以通过图像 URL 或者使用 base64(一种二进制到文本的编码方案)编码的图像来提供。与其他多模态模型(如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o )类似,Pixtral 12B 至少在理论上应该能够执行诸如为图像添加标题和计算照片中物体数量之类的任务。

在 GitHub 和人工智能与机器学习开发平台 Hugging Face 上通过种子链接可获取 Pixtral 12B,它可以下载、微调,可能在 Mistral 的标准开发许可证下使用。该许可证要求任何商业应用都需要付费许可,但研究和学术用途则无需付费。

然而,Mistral 尚未明确 Pixtral 12B 究竟适用哪种许可证。这家初创公司在无限制的情况下,根据 Apache 2.0 许可证提供了部分(但并非全部)模型。我们已联系 Mistral 的公关部门以获取更多信息,如果收到回复,我们将更新此帖。

不幸的是,这位作者未能试用 Pixtral 12B——在发布时还没有任何可用的网络演示。在 X 上的一篇帖子中,米斯特拉尔开发者关系负责人索菲亚·杨(Sophia Yang)表示,Pixtral 12B 很快将可在米斯特拉尔的聊天机器人及 API 服务平台 Le Chat 和 Le Platforme 上进行测试。

目前尚不清楚米斯特拉尔(Mistral)可能使用了哪些图像数据来开发 Pixtral 12B 。

大多数生成式人工智能模型,包括米斯特拉尔(Mistral)的其他模型,都是基于网络上大量的公开数据进行训练的,而这些数据通常是受版权保护的。一些模型供应商认为“合理使用”的权利使他们有权抓取任何公开数据,但许多版权所有者不同意,并已对像 OpenAI 和 Midjourney 这样的大型供应商提起诉讼,以制止这种做法。

在 Mistral 完成由 General Catalyst 领投的 6.45 亿美元融资轮,使公司估值达到 60 亿美元之后,Pixtral 12B 登场了。成立刚一年多的 Mistral 由微软持有少数股权,在人工智能领域,它被许多人视为欧洲版的 OpenAI。这家较年轻的公司迄今为止的策略包括发布免费的“开放”模型,对这些模型的管理版本收费,并为企业客户提供咨询服务。