米斯特拉尔发布了 Pixtral 12B，这是其首个多模态模型。

Chat中文镜像

法国人工智能初创公司 Mistral 发布了其首款既能处理图像又能处理文本的模型。

被称为 Pixtral 12B 的这个拥有 120 亿参数的模型，其大小约为 24GB。参数大致对应着模型的解决问题的能力，通常具有更多参数的模型要比参数较少的模型表现更好。

该新模型基于米斯特拉尔的一个文本模型 Nemo 12B 构建，能够回答关于任意数量、任意大小的图像的问题，这些图像可以通过图像 URL 或者使用 base64（一种二进制到文本的编码方案）编码的图像来提供。与其他多模态模型（如 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o ）类似，Pixtral 12B 至少在理论上应该能够执行诸如为图像添加标题和计算照片中物体数量之类的任务。

在 GitHub 和人工智能与机器学习开发平台 Hugging Face 上通过种子链接可获取 Pixtral 12B，它可以下载、微调，可能在 Mistral 的标准开发许可证下使用。该许可证要求任何商业应用都需要付费许可，但研究和学术用途则无需付费。

然而，Mistral 尚未明确 Pixtral 12B 究竟适用哪种许可证。这家初创公司在无限制的情况下，根据 Apache 2.0 许可证提供了部分（但并非全部）模型。我们已联系 Mistral 的公关部门以获取更多信息，如果收到回复，我们将更新此帖。

不幸的是，这位作者未能试用 Pixtral 12B——在发布时还没有任何可用的网络演示。在 X 上的一篇帖子中，米斯特拉尔开发者关系负责人索菲亚·杨（Sophia Yang）表示，Pixtral 12B 很快将可在米斯特拉尔的聊天机器人及 API 服务平台 Le Chat 和 Le Platforme 上进行测试。

目前尚不清楚米斯特拉尔（Mistral）可能使用了哪些图像数据来开发 Pixtral 12B 。

在 Mistral 完成由 General Catalyst 领投的 6.45 亿美元融资轮，使公司估值达到 60 亿美元之后，Pixtral 12B 登场了。成立刚一年多的 Mistral 由微软持有少数股权，在人工智能领域，它被许多人视为欧洲版的 OpenAI。这家较年轻的公司迄今为止的策略包括发布免费的“开放”模型，对这些模型的管理版本收费，并为企业客户提供咨询服务。

推荐阅读

参议院领导人要求联邦贸易委员会调查人工智能内容摘要是否具有反竞争性质。

一群民主党参议员正在敦促联邦贸易委员会（FTC）和司法部调查，那些总结和复述诸如新闻和食谱等在线内容的人工智能工具是否可能相当于......

2024-09-111233