AI21实验室的新人工智能模型可以处理比大多数模型更多的上下文
越来越多的人工智能行业正朝着具有更长上下文的生成式人工智能模型迈进。但具有大上下文窗口的模型往往会消耗大量计算资源。AI初创公司AI21 Labs的产品负责人奥尔·达甘声称这并非绝对,他的公司即将发布一个生成模型来证明这一点。
上下文,或上下文窗口,指的是模型在生成输出(更多文本)之前考虑的输入数据(例如文本)。上下文窗口较小的模型往往会忘记甚至是最近的对话内容,而具有较大上下文的模型则避免了这个陷阱-并且,作为一个附加好处,能更好地把握他们接收的数据流。
AI21实验室的新文本生成和分析模型Jamba可以执行类似OpenAI的ChatGPT和谷歌的Gemini等模型的许多任务。Jamba经过公共和专有数据的混合训练,可以用英语、法语、西班牙语和葡萄牙语编写文本。
Jamba在单个至少拥有80GB内存的GPU(就像高端的Nvidia A100)上可以处理多达140,000个标记。这相当于大约105,000个单词,或210页 - 一部体量适中的小说。
相比之下,梅塔的Llama 2具有一个32,000词的上下文窗口 — 根据当今标准而言较小 — 但只需要一块拥有约12GB内存的GPU来运行。(上下文窗口通常用词来衡量,词是原始文本和其他数据的一小部分。)
表面看来,Jamba并不特别。许多可自由获取、可下载的生成式人工智能模型已经存在,从最近发布的Databricks的DBRX到上述的Llama 2。
然而,让 Jamba 与众不同的是其内部的设计。它采用了两种模型架构的组合:transformers 和状态空间模型 (SSMs)。
变形金刚是复杂推理任务的首选架构,它为GPT-4和谷歌的双子座等模型提供动力。它们具有几个独特的特征,但迄今为止变形金刚的定义特征是它们的“注意力机制”。对于每个输入数据(例如一句话),变形金刚衡量其他每个输入(其他句子)的相关性,并从中提取信息生成输出(一个新句子)。
另一方面,SSM(Sparse Successive Model)结合了旧类型的人工智能模型,如循环神经网络和卷积神经网络的一些特点,以创建更高效的计算架构,能够处理长序列的数据。
现在,SSMs 有它们的局限性。但一些早期的版本,包括普林斯顿和卡内基梅隆大学研究人员开发的开源模型 Mamba,可以处理比基于transformer的同等版本更大的输入,同时在语言生成任务上表现更好。
Jamba实际上将Mamba作为核心模型的一部分使用,Dagan声称与相同规模的基于transformer的模型相比,它在长篇文本上的吞吐量要高出三倍。
达甘在接受TechCrunch采访时表示:“虽然已经有一些学术上的SSM模型例子,但这是第一个商用级、生产规模的模型。这种架构不仅在未来能够为社区进行创新和感兴趣的研究,还能开启巨大的效率和吞吐量可能性。”
目前,尽管Jamba已根据Apache 2.0许可发布,这是一种开源许可,限制较少,但Dagan强调这是一个研究发布版本,不打算用于商业用途。该模型没有防止生成有毒文本或解决潜在偏见的保障措施;在未来几周将提供一个经过调优、明显“更安全”的版本。
但达甘坚称,即使在这个早期阶段,贾姆巴也展示了SSM架构的潜力。
他说:“这款模型的附加价值,无论是因为其大小还是创新的架构,都在于它可以轻松地适配到单个GPU上。”“我们相信,随着蟒蛇模型得到额外的调整,性能将进一步提升。”