AI21实验室的新人工智能模型可以处理比大多数模型更多的上下文

Chat中文版

越来越多的人工智能行业正朝着具有更长上下文的生成式人工智能模型迈进。但具有大上下文窗口的模型往往会消耗大量计算资源。AI初创公司AI21 Labs的产品负责人奥尔·达甘声称这并非绝对，他的公司即将发布一个生成模型来证明这一点。

上下文，或上下文窗口，指的是模型在生成输出（更多文本）之前考虑的输入数据（例如文本）。上下文窗口较小的模型往往会忘记甚至是最近的对话内容，而具有较大上下文的模型则避免了这个陷阱-并且，作为一个附加好处，能更好地把握他们接收的数据流。

AI21实验室的新文本生成和分析模型Jamba可以执行类似OpenAI的ChatGPT和谷歌的Gemini等模型的许多任务。Jamba经过公共和专有数据的混合训练，可以用英语、法语、西班牙语和葡萄牙语编写文本。

Jamba在单个至少拥有80GB内存的GPU（就像高端的Nvidia A100）上可以处理多达140,000个标记。这相当于大约105,000个单词，或210页 - 一部体量适中的小说。

相比之下，梅塔的Llama 2具有一个32,000词的上下文窗口 — 根据当今标准而言较小 — 但只需要一块拥有约12GB内存的GPU来运行。(上下文窗口通常用词来衡量，词是原始文本和其他数据的一小部分。)

表面看来，Jamba并不特别。许多可自由获取、可下载的生成式人工智能模型已经存在，从最近发布的Databricks的DBRX到上述的Llama 2。

然而，让 Jamba 与众不同的是其内部的设计。它采用了两种模型架构的组合：transformers 和状态空间模型 (SSMs)。

变形金刚是复杂推理任务的首选架构，它为GPT-4和谷歌的双子座等模型提供动力。它们具有几个独特的特征，但迄今为止变形金刚的定义特征是它们的“注意力机制”。对于每个输入数据（例如一句话），变形金刚衡量其他每个输入（其他句子）的相关性，并从中提取信息生成输出（一个新句子）。

另一方面，SSM（Sparse Successive Model）结合了旧类型的人工智能模型，如循环神经网络和卷积神经网络的一些特点，以创建更高效的计算架构，能够处理长序列的数据。

现在，SSMs 有它们的局限性。但一些早期的版本，包括普林斯顿和卡内基梅隆大学研究人员开发的开源模型 Mamba，可以处理比基于transformer的同等版本更大的输入，同时在语言生成任务上表现更好。

Jamba实际上将Mamba作为核心模型的一部分使用，Dagan声称与相同规模的基于transformer的模型相比，它在长篇文本上的吞吐量要高出三倍。

达甘在接受TechCrunch采访时表示：“虽然已经有一些学术上的SSM模型例子，但这是第一个商用级、生产规模的模型。这种架构不仅在未来能够为社区进行创新和感兴趣的研究，还能开启巨大的效率和吞吐量可能性。”

目前，尽管Jamba已根据Apache 2.0许可发布，这是一种开源许可，限制较少，但Dagan强调这是一个研究发布版本，不打算用于商业用途。该模型没有防止生成有毒文本或解决潜在偏见的保障措施；在未来几周将提供一个经过调优、明显“更安全”的版本。

但达甘坚称，即使在这个早期阶段，贾姆巴也展示了SSM架构的潜力。

他说：“这款模型的附加价值，无论是因为其大小还是创新的架构，都在于它可以轻松地适配到单个GPU上。”“我们相信，随着蟒蛇模型得到额外的调整，性能将进一步提升。”

推荐阅读

Google.org推出2千万美元的生成式AI加速器计划

Google.org是谷歌的慈善部门，正在推出一个新项目，帮助资助开发利用生成式人工智能技术的非营利组织。这个名为Google.org加速器：生成式人工智能的项目将由2000万美元的助学金资助，最初包括21家非营利组织，包括Quill.org，这是一家为学生提供AI辅助写作反馈工具的公司，以及世界银行。

2024-03-282133

Metaview的工具可以记录面试笔记，让招聘经理无需再手动输入

Metaview与应用程序、电话系统、视频会议平台以及Calendly和GoodTime等工具集成，自动捕获面试内容。

2024-03-282245

亚马逊加大对Anthropic的投资，完成既定的40亿美元投资计划

周三，亚马逊再次投资了27.5亿美元用于发展人工智能公司Anthropic，这是去年九月留下的开放选择的延续。当时投资的12.5亿美元肯定已经产生了成果，或者他们可能意识到没有其他靠得住的公司可供支持。去年九月的交易将12.5亿美元投入到......

2024-03-281656

世纪健康获得200万美元投资，利用人工智能帮助制药公司获得优质患者数据

世纪健康正在将人工智能应用于临床数据，以发现药物的新应用。

2024-03-272414

果园视觉系统将农场设备转化为人工智能数据采集器

农业机器人并不是一个新现象。我们已经看到了摘苹果和浆果、除草、种树、运输农产品等系统。然而，虽然这些功能被认为是自动化系统的核心特性，但在技术领域也同样如此：一切都关乎数据。数据是至关重要的。

2024-03-272425