Meta Llama:关于开放生成式人工智能模型你需要知道的一切
如今,和每一家大型科技公司一样,Meta 拥有自己的旗舰生成式人工智能模型,名为 Llama。在主要模型中,Llama 有些独特,因为它是“开放的”,这意味着开发人员可以随意下载和使用(在一定限制条件下)。这与 Anthropic 的 Claude、OpenAI 的 GPT-4(为 ChatGPT 提供支持)和谷歌的 Gemini 等模型形成了对比,这些模型只能通过 API 访问。
然而,为了给开发者提供选择,Meta 还与包括 AWS、谷歌云和微软 Azure 在内的供应商合作,提供云托管版本的 Llama。此外,该公司还发布了旨在使微调及定制该模型更容易的工具。
以下是关于 Llama 您需要了解的所有信息,包括其功能、版本以及可用之处。随着 Meta 发布升级和推出新的开发工具以支持该模型的使用,我们将持续更新此帖子。
“Llama”是什么?
羊驼(Llama)是一系列的模型——不止一个:
- “Llama 8B”常见释义为“羊驼 8B”
- “Llama 70B”常见释义为“羊驼 70B”
- “Llama 405B”常见释义为“羊驼 405B”
最新的版本是羊驼 3.1 8B、羊驼 3.1 70B 和羊驼 3.1 405B,于 2024 年 7 月发布。它们是在多种语言的网页、网络上的公共代码和文件以及合成数据(即由其他人工智能模型生成的数据)上进行训练的。
Llama 3.1 8B 和 Llama 3.1 70B 是小型、紧凑的模型,旨在从笔记本电脑到服务器等设备上运行。另一方面,Llama 3.1 405B 是一个大规模模型,(在没有某些修改的情况下)需要数据中心硬件。Llama 3.1 8B 和 Llama 3.1 70B 的能力不如 Llama 3.1 405B,但速度更快。实际上,它们是 405B 的“精简”版本,针对低存储开销和延迟进行了优化。
所有的 Llama 模型都具有 128,000 个标记的上下文窗口。(在数据科学中,标记是原始数据的细分部分,就像单词“fantastic”中的音节“fan”“tas”和“tic”。)模型的上下文或上下文窗口是指模型在生成输出(例如额外的文本)之前考虑的输入数据(例如文本)。长上下文可以防止模型“忘记”近期文档和数据的内容,避免偏离主题和错误推断。
这 12.8 万个标记约相当于 10 万字或 300 页,作为参考,这大约相当于《呼啸山庄》《格列佛游记》和《哈利·波特与阿兹卡班的囚徒》的篇幅。
羊驼能做什么?
与其他生成式人工智能模型一样,Llama 能够执行一系列不同的辅助任务,比如编程、回答基础数学问题,以及用八种语言(英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)总结文档。大多数基于文本的工作负载——比如分析 PDF 和电子表格之类的文件——都在其能力范围之内;目前,所有的 Llama 模型都无法处理或生成图像,不过这一情况在不久的将来可能会改变。
所有最新的 Llama 模型都可以进行配置,以利用第三方应用程序、工具和 API 来完成任务。它们开箱即用,经过训练可使用 Brave Search 来回答有关近期事件的问题,使用 Wolfram Alpha API 来处理与数学和科学相关的查询,并使用 Python 解释器来验证代码。此外,Meta 表示 Llama 3.1 模型可以使用某些之前未曾见过的工具(但它们能否可靠地使用这些工具则是另一回事)。
hbspt.forms.create({ 区域: "na1", 门户 ID: "44101848", 表单 ID: "09f96578-8d24-4d8a-8e9f-7700cff83c29" });
我在哪里可以使用羊驼(Llama)?
如果您只是想和 Llama 聊天,它正在为 Facebook Messenger、WhatsApp、Instagram、Oculus 和 Meta.ai 上的 Meta AI 聊天机器人体验提供支持。
使用 Llama 进行开发的开发者可以在大多数流行的云平台上下载、使用或微调该模型。Meta 称,其有超过 25 个合作伙伴托管 Llama,包括英伟达、Databricks、Groq、戴尔和 Snowflake。
其中一些合作伙伴在 Llama 的基础上构建了额外的工具和服务,包括允许模型引用专有数据并能够以更低延迟运行的工具。
Meta 建议将其较小的模型 Llama 8B 和 Llama 70B 用于通用应用,例如为聊天机器人提供支持和生成代码。该公司表示,Llama 405B 更适合用于模型蒸馏(即把知识从大型模型转移到更小、更高效的模型的过程)以及生成合成数据以训练(或微调)替代模型。
重要的是,Llama 许可证限制了开发者部署模型的方式:每月用户超过 7 亿的应用程序开发者必须向 Meta 请求特殊许可证,而该公司将自行决定是否授予。
Meta 为 Llama 提供了哪些工具?
除了 Llama 之外,Meta 还提供了旨在使该模型使用起来“更安全”的工具:
- “Llama Guard”,一个审核框架
- Prompt Guard,一种防范提示注入攻击的工具
- CyberSecEval,一个网络安全风险评估套件
Llama Guard 试图检测由 Llama 模型输入或生成的潜在有问题的内容,包括与犯罪活动、儿童剥削、侵犯版权、仇恨、自残和性虐待有关的内容。开发人员可以自定义被阻止内容的类别,并将这些阻止应用于 Llama 开箱即用所支持的所有语言。
与 Llama Guard 类似,Prompt Guard 可以拦截针对 Llama 的文本,但仅限于旨在“攻击”模型并使其表现不佳的文本。Meta 声称,Llama Guard 不仅可以抵御包含“注入输入”的提示,还可以抵御明显恶意的提示(即试图绕过 Llama 内置安全过滤器的越狱行为)。
至于 CyberSecEval,它与其说是一种工具,不如说是一组用于衡量模型安全性的基准。CyberSecEval 可以评估 Llama 模型在“自动化社会工程”和“扩大攻击性网络操作”等领域对应用程序开发者和最终用户构成的风险(至少按照 Meta 的标准)。
“羊驼(Llama)的局限性”
和所有生成式人工智能模型一样,Llama 存在一定的风险和局限性。
例如,目前尚不清楚 Meta 是否在受版权保护的内容上训练了 Llama 模型。如果它这样做了,用户可能要为侵权负责,如果他们最终在不知情的情况下使用了该模型重复输出的受版权保护的片段。
据路透社最近的报道,Meta 曾在某个时候不顾自家律师的警告,使用有版权的电子书来进行人工智能训练。该公司颇具争议地利用 Instagram 和 Facebook 上的帖子、照片和说明来训练其人工智能,并且让用户难以选择退出。此外,Meta 与 OpenAI 一起,成为了一场正在进行的诉讼的被告,包括喜剧演员莎拉·西尔弗曼在内的一些作者对这两家公司涉嫌未经授权使用有版权的数据用于模型训练提起了诉讼。
编程是使用 Llama 时需要谨慎对待的另一个领域。这是因为 Llama 可能——与其生成式人工智能的同类产品一样——生成有漏洞或不安全的代码。
一如既往,在将任何人工智能生成的代码纳入服务或软件之前,最好让人类专家进行审查。