Databricks扩展Mosaic AI以帮助企业利用LLMs构建

AI7号2024-06-12106

Chat中文镜像

一年前,Databricks以13亿美元收购了MosaicML。现在更名为Mosaic AI,这个平台已成为Databricks人工智能解决方案的重要组成部分。今天,在公司的数据+人工智能峰会上,它将推出一些新的服务功能。在宣布之前,我和Databricks的联合创始人兼CEO Ali Ghodsi以及联合创始人兼CTO Matei Zaharia进行了交谈。

Databricks在其会议上推出了五款新的Mosaic AI工具:Mosaic AI Agent Framework、Mosaic AI Agent Evaluation、Mosaic AI Tools Catalog、Mosaic AI Model Training和Mosaic AI Gateway。

“这一年来发展非常迅速,通用人工智能取得了巨大进展。大家对此都感到很兴奋,” Ghodsi告诉我。“但大家关心的问题还是那三个方面:我们怎样提高模型的质量和可靠性?其次,我们怎样确保成本效益?不同模型之间的成本差异非常大,价格相差巨大。第三,我们如何在保护数据隐私的前提下做到这一切呢?”

今天的发布旨在解决Databricks客户的大部分关切。

扎哈里亚还指出,目前将大型语言模型(LLMs)部署到生产中的企业使用的是具有多个组件的系统。这通常意味着它们会多次调用一个模型(或者可能也是多个模型),并使用各种外部工具来访问数据库或进行检索增强生成(RAG)。这些复合系统加快了基于LLM的应用程序的速度,通过针对特定查询或缓存结果使用更便宜的模型来节省成本,并且,也许最重要的是,通过使用专有数据来增强基础模型,使结果更值得信赖和相关。

他解释说:“我们认为这是真正高影响力、使命关键的人工智能应用的未来。”“因为如果你想想,如果你正在做一些真正使命关键的事情,你会希望工程师能够控制其所有方面-而你可以通过模块化系统实现这一点。因此,我们正在开展大量关于为特定任务创建这些[系统]的最佳方法的基础研究,以便开发人员可以轻松地与它们一起工作并接驳所有部件,跟踪一切,并了解发生了什么。”

关于实际构建这些系统,Databricks本周推出了两项服务:Mosaic AI Agent Framework和Mosaic AI Tools Catalog。AI Agent Framework利用公司上个月推出的无服务器向量搜索功能,并为开发人员提供了工具来构建基于此功能的自己的RAG应用程序。

Ghodsi和Zaharia强调,Databricks矢量搜索系统采用混合方法,结合经典的基于关键词的搜索和嵌入式搜索。所有这些都与Databricks数据湖深度集成,两个平台上的数据始终自动保持同步。这包括Databricks平台的整体治理特性,特别是Databricks Unity目录治理层,以确保个人信息不会泄漏到矢量搜索服务中。

谈到Unity目录(该公司现在也在逐渐进行开源),值得注意的是Databricks现在正在将该系统扩展,让企业能够对LLM在生成答案时可以调用哪些人工智能工具和功能进行管理。Databricks表示,这个目录还将使这些服务在公司内更容易被发现。

Ghodsi也强调说,开发人员现在可以利用Langchain或LlamaIndex等工具,通过链接模型和函数来构建自己的代理人。事实上,Zaharia告诉我,许多Databricks的客户今天已经在使用这些工具。

“有很多公司正在使用这些东西,甚至是类似代理的工作流程。我认为人们经常会对这种情况感到惊讶,但似乎这是事物发展的方向。在我们内部的AI应用中,比如我们平台的助理应用,我们也发现这是构建它们的方式。”他说道。

为了评估这些新应用程序,Databricks还推出了Mosaic AI Agent Evaluation,这是一种人工智能辅助评估工具,结合了基于LLM的评判者来测试人工智能在生产中的表现,并且也允许企业能够快速从用户那里获得反馈(并让他们标记一些初始数据集)。该Agent Evaluation包括一个基于Databricks今年早些时候收购的Lilac的UI组件,该组件使用户能够可视化和搜索大规模的文本数据集。

我们所有的客户都在说:我确实需要在内部做一些标注,我会让一些员工来做。我可能只需要100个答案,或者可能500个答案-然后我们可以将其输入LLM法官。Ghodsi解释说。

另一种改进结果的方法是使用经过精细调整的模型。因此,Databricks现在提供Mosaic AI模型训练服务,这使用户能够使用其组织的私有数据对模型进行精细调整,以帮助它们在特定任务上表现更好。

最新的新工具是Mosaic AI Gateway,该公司将其描述为“查询、管理和部署任何开源或专有模型的统一接口”。这里的想法是允许用户以受控的方式查询任何LLM,使用集中式凭据存储。毕竟,没有任何企业希望其工程师向第三方服务发送随机数据。

在预算紧缩时期,人工智能网关还允许IT为不同供应商设置费率限制,以保持成本可控。此外,这些企业还将获得系统使用跟踪和追踪,用于调试。

正如Ghodsi告诉我的那样,所有这些新功能都是对Databricks的用户如何处理LLMs的反应。 "在过去的一个季度和半年里,市场发生了重大变化。去年年初,你跟任何人谈话,他们会说:我们支持开源,开源很棒。但当你真正推动人们时,他们都在使用Open AI。不管他们说什么,不管他们多么吹捧开源有多棒,幕后他们都在使用Open AI。”现在,这些客户变得更加复杂,正在使用开放模型(当然,真正开源的很少),这反过来又要求他们采用全新的工具来解决伴随而来的问题和机会。