随着人工智能炒作周期达到高峰,为何矢量数据库备受瞩目
根据进入该领域的初创公司数量和愿意分一杯羹的投资者数量来看,矢量数据库正在风靡一时。大量的大语言模型(LLMs)和生成式人工智能(GenAI)运动的兴起为矢量数据库技术的蓬勃发展创造了肥沃的土壤。
传统的关系数据库,比如Postgres或MySQL,非常适合结构化数据——预定义的数据类型可以整齐地存储在行和列中。但对于非结构化数据(如图像、视频、电子邮件、社交媒体帖子以及不符合预定义数据模型的任何数据),这种方式并不太适用。
另一方面,向量数据库以向量嵌入的形式存储和处理数据,将文本、文档、图片和其他数据转换为数字表示,捕捉不同数据点之间的含义和关系。这对机器学习非常有用,因为数据库按照每个项目与其他项目的相关性存储数据空间,从而更容易检索语义上相似的数据。
这对于像OpenAI的GPT-4这样的LLM特别有用,它可以通过分析先前类似的对话,让AI聊天机器人更好地理解对话的背景。向量搜索也对各种实时应用非常有用,比如在社交网络或电商应用中的内容推荐,因为它可以查看用户搜索过的内容并立即检索出类似的物品。
矢量搜索还可以帮助减少LLM应用程序中的“幻觉”,通过提供可能在原始训练数据集中不可用的额外信息。
未使用向量相似性搜索,你仍然可以开发人工智能/机器学习应用程序,但需要更多的重新训练和微调。当数据集很大时,并且需要一种有效且方便的工具来处理向量嵌入时,向量数据库就会发挥作用。这是Qdrant向量搜索创业公司的首席执行官兼联合创始人安德烈·扎亚尔尼向TechCrunch解释的。
今年1月,Qdrant获得了2800万美元的资金,以资本化其快速增长的机会,去年它成为了十大最快增长的商业开源初创企业之一。而且,最近并不是唯一一家获得现金支持的向量数据库初创公司 - Vespa、Weaviate、Pinecone 和 Chroma去年共同为各种向量产品筹集了2亿美元。
自新年开始以来,我们还看到Index Ventures领投了一轮950万美元的种子轮融资给Superlinked,这是一个将复杂数据转换为向量嵌入的平台。几周前,Y Combinator(YC)公布了它的Winter '24团队,其中包括Lantern,一家为Postgres销售托管向量搜索引擎的初创公司。
在其他地方,Marqo去年底融资了440万美元的种子轮,随后迅速在2月份完成了一笔1250万美元的A轮融资。Marqo平台提供了一整套矢量工具,包括矢量生成、存储和检索,使用户能够绕过OpenAI或Hugging Face等第三方工具,并通过单一API提供所有服务。
Marqo联合创始人汤姆·哈默和杰西·克拉克此前在亚马逊担任工程职务,他们意识到在文本和图像等不同模态之间存在“巨大的未满足需求”需要语义灵活搜索。于是,他们在2021年离开亚马逊成立了Marqo。
克拉克告诉科技媒体TechCrunch:“在亚马逊的视觉搜索和机器人领域工作时,我开始真正深入研究向量搜索 — 我正在考虑新的产品发现方式,很快就集中在向量搜索上。在机器人领域,我使用多模式搜索浏览许多图像,以识别是否存在错误的事物,如软管和包裹。否则,这将是非常具有挑战性的问题要解决。”
进入企业
在ChatGPT和GenAI运动的喧嚣中,矢量数据库正处于风口浪尖,然而它们并非每一个企业搜索场景的灵丹妙药。
“专用数据库往往完全专注于特定的使用情况,因此可以为所需的任务性能以及用户体验设计其架构,与通用数据库相比,通用数据库需要在当前设计中进行调整。” 数据库支持和服务公司Percona的创始人彼得·扎泽夫向TechCrunch解释道。
尽管专用数据库可能在某些方面表现优异,但也可能忽略其他方面。这就是为什么我们开始看到数据库领军者,如Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB正在将矢量数据库搜索智能添加到混合中,云服务提供商如微软的Azure、亚马逊的AWS和Cloudflare亦是如此。
Zaitsev将这一最新趋势与十多年前JSON的发展进行了比较,当时网络应用变得更加普遍,开发人员需要一种与语言无关且易于阅读和编写的数据格式。在那种情况下,一种新的数据库类别以文档数据库的形式出现,比如MongoDB,同时现有的关系型数据库也引入了JSON支持。
赛斯尼夫告诉TechCrunch: “我认为同样的情况很可能会出现在向量数据库上。那些构建非常复杂和大规模人工智能应用程序的用户将使用专门的向量搜索数据库,而那些需要为现有应用程序构建一点AI功能的人更有可能在他们已经使用的数据库中使用向量搜索功能。”
但是扎亚尔尼和他的Qdrant同事们愿意打赌,完全建立在向量周围的本地解决方案将提供所需的 "速度、内存安全性和规模",与那些事后仓促加入向量搜索的公司相比,随着向量数据的激增。
郝亚尼说:“他们的宣传口号是‘如果需要,我们也可以进行向量搜索’。我们的宣传口号是‘我们以最佳方式进行高级向量搜索。’专业化就很重要了。我们建议从您的技术堆栈中已经拥有的数据库开始。如果向量搜索是解决方案的关键组成部分,用户在某个时候将会遇到限制。”