Meta 的 Llama AI 模型现在也支持图像了。
本杰明·富兰克林曾经写道,除了死亡和税收,没有什么是确定无疑的。让我修改一下这句话,以反映当前人工智能的热潮:除了死亡、税收和新的人工智能模型,没有什么是确定无疑的,而且这其中的新模型正以不断加快的速度涌现。
本周早些时候,谷歌发布了升级后的 Gemini 模型,本月早些时候,OpenAI 推出了其 o1 模型。但在周三,轮到 Meta 在其位于门洛帕克举行的年度 Meta Connect 2024 开发者大会上展示其最新成果了。
“羊驼(Llama)的多模态”
Meta 的多语言 Llama 系列模型已更新至 3.2 版本,从 3.1 版本的升级意味着几个 Llama 模型现在是多模态的。Llama 3.2 11B(一个紧凑模型)和 90B(一个更大、更强大的模型)能够解读图表、为图片配字幕,并根据简单描述在图片中定位对象。
例如,给定一张公园地图,Llama 3.2 11B 和 90B 可能能够回答诸如“地形何时会变得更陡峭?”和“这条路径的距离是多少?”之类的问题。或者,提供一个显示公司一年中收入的图表,这些模型可以快速指出其中表现最佳的月份。
对于那些希望将模型严格用于文本应用的开发者,Meta 表示,Llama 3.2 11B 和 90B 被设计为 3.1 的“即插即用”替代品。11B 和 90B 可以在有或没有新的安全工具 Llama Guard Vision 的情况下进行部署,Llama Guard Vision 旨在检测输入模型或由模型生成的具有潜在危害(例如有偏见或有毒的)的文本和图像。
在世界上的大多数地区,多模态的 Llama 模型可以从众多云平台下载并使用,包括 Hugging Face、微软 Azure、谷歌云以及 AWS。Meta 还将它们托管在官方的 Llama 网站 Llama.com 上,并利用它们为其人工智能助手 Meta AI 提供支持,应用于 WhatsApp、Instagram 和 Facebook 等平台。
但 Llama 3.2 11B 和 90B 在欧洲无法访问。因此,Meta AI 在其他地区可用的一些功能,如图像分析,对欧洲用户是禁用的。Meta 再次指责欧盟监管环境的“不可预测”性质。
Meta 对《人工智能法案》(为人工智能确立法律和监管框架的欧盟法律)表示担忧,并拒绝了与之相关的自愿安全承诺。该法案的要求之一是,在欧盟开发人工智能的公司必须说明其模型是否可能被用于“高风险”情境,如警务工作。Meta 担心其模型的“开放性”(这让它几乎不了解模型的使用方式)可能会使其难以遵守《人工智能法案》的规定。
对于 Meta 来说,同样存在问题的是欧盟广泛的隐私法《通用数据保护条例》(GDPR)中与人工智能训练相关的条款。Meta 在未选择退出的 Instagram 和 Facebook 用户的公共数据上训练模型——在欧洲,这些数据受 GDPR 保障。今年早些时候,欧盟监管机构要求 Meta 在他们评估该公司对 GDPR 的合规情况时,停止基于欧洲用户数据进行训练。
Meta 做出了让步,同时支持了一封公开信,该信呼吁对《通用数据保护条例》进行“现代解读”,不要“拒绝进步”。
本月早些时候,Meta 表示,在将“监管反馈”纳入修订后的退出流程后,将恢复对英国用户数据的训练。但该公司尚未分享其在整个欧盟其他地区训练的最新情况。
“More compact models”常见释义为“更紧凑的模型”
其他新的羊驼模型——那些并非基于欧洲用户数据训练的模型——将于周三在欧洲(以及全球)推出。
Llama 3.2 1B 和 3B 是两款轻量级的纯文本模型,旨在在智能手机和其他边缘设备上运行,可应用于总结和改写段落(例如在电子邮件中)等任务。Meta 表示,针对高通和联发科的 Arm 硬件进行了优化的 1B 和 3B ,经过一些配置还能够利用日历应用等工具,从而能够自主采取行动。
8 月份发布的旗舰版 Llama 3.1 405B 模型没有后续的多模态版本。鉴于 405B 模型规模巨大——训练耗时数月——这很可能是计算资源受限所致。我们已询问 Meta 是否还有其他因素在起作用,如果收到回复,我们将更新此报道。
Meta 的新 Llama Stack(一套以 Llama 为重点的开发工具)可用于微调所有的 Llama 3.2 模型:10 亿参数(1B)、30 亿参数(3B)、110 亿参数(11B)和 900 亿参数(90B)。Meta 表示,无论如何定制,这些模型一次都能处理多达约 10 万个单词。
一场争夺心智份额的较量
Meta 首席执行官马克·扎克伯格经常谈到要确保所有人都能获得人工智能的“益处和机会”。然而,这种言辞中隐含着一种愿望,即希望这些工具和模型由 Meta 来打造。
在可随后商品化的模型上投入资金,会迫使竞争对手(例如 OpenAI、Anthropic)降低价格,广泛传播 Meta 版本的人工智能,并让 Meta 纳入开源社区的改进成果。Meta 宣称其 Llama 模型的下载量已超过 3.5 亿次,并且被包括 Zoom、AT&T 和高盛在内的大型企业所使用。
对于许多这些开发者和公司来说,Llama 模型在最严格的意义上不是“开放的”这一点无关紧要。Meta 的许可证限制了某些开发者的使用方式;每月用户超过 7 亿的平台必须向 Meta 请求特殊许可证,而该公司将自行决定是否授予。
诚然,很少有如此规模的平台没有自己的内部模型。但 Meta 在这一过程中并不是特别透明。本月我询问该公司是否已经批准了某个平台的 Llama 酌情使用许可,一位发言人告诉我,Meta“在这个话题上没有任何要分享的内容”。
毫无疑问,Meta 是志在必得。它花费数百万美元游说监管机构,以使其接受自己所倾向的“开放”人工智能模式,并且投入数十亿资金用于服务器、数据中心和网络基础设施,以训练未来的模型。
Llama 3.2 模型都没有解决当今人工智能的首要问题,比如它编造内容和重复有问题的训练数据的倾向(例如可能未经许可就被使用的有版权的电子书,这是针对 Meta 的集体诉讼的主题)。但是,正如我之前所写的,它们确实推进了 Meta 的一个关键目标:成为人工智能的代名词,尤其是生成式人工智能。
hbspt.forms.create({ 区域: "na1", 门户 ID: "44101848", 表单 ID: "09f96578-8d24-4d8a-8e9f-7700cff83c29" });