数字站让企业用户与他们的数据进行聊天
使用大型语言模型(LLMs)作为动力的数据分析平台初创企业Numbers Station 今天推出了云端产品:名为Numbers Station Cloud,目前处于早期试用阶段。通过这项服务,企业内几乎任何用户都可以使用Numbers Station的聊天界面分析他们的内部数据。
有几种类似的工具专注于将自然语言查询翻译成数据库语言如SQL。但是,“Numbers Station”团队认为,这种方法存在局限性,部分原因是通用的LLM并不了解一个公司如何运作,如何组织其数据以及公司内部人员如何引用特定数据对象。
正如 Numbers Station 的联合创始人兼首席执行官克里斯·艾伯格告诉我,他已经有点厌倦谈论这项服务如何让用户“与他们的数据对话”,因为这方面的讨论实在太多了。他告诉我:“但是,企业高管、非技术用户有问题想要问,然后通过传统结构化数据源得到答案,这确实是事情发展的高级层面。”“围绕这些基础模型和大型语言模型进行了大量的数据建模、数据管道工作,以使它们发挥作用。”
对于Numbers Station来说,这意味着花费大量工程资源在建立公司称之为语义目录的工作上。该目录主要是公司度量和定义的自动整理来源。该目录针对每家公司都是特定的(不会在公司间共享)。Aberger描述这个目录像“一个庞大的怪物”,它确保模型对“循环收入”的定义与公司对该术语的使用保持一致。
尽管Numbers Station的平台建立在一套非常专业的LLMs和机器学习模型之上,但正是这个目录将一切联系在一起。正如Numbers Station的联合创始人兼首席科学家Ines Chami告诉我,团队最初低估了建立平台这一部分的挑战。
"这源于经典的[机器学习]和经典的数据工程:我要如何创造一个知识表示,让模型能够用来回答这些问题,"她告诉我说。"因为没有办法让一个模型能理解所有那些指标,所有那些业务用户提出的问题。毕竟,即使是人类也不会立刻理解每个问题,而模型必须将那些模糊的问题转化为非常具体的查询。《数字台站》的研究显示,其方法相比更传统的文本到SQL流程,在精确度上有显著的提高。"
公司今天推出这项聊天服务,但整体愿景要远大得多。
“我们从根本上正在构建用于分析的人工智能平台。”阿伯格尔说。“这是其应用之一[...]公司还在继续努力追求更大更广泛的目标,即解决许多不同的数据问题,比如:如何使用第三方数据源丰富我的数据?如何运用一些更经典的算法如模糊匹配等?在这个平台上,你可以建立几乎无限数量的分支。”
该公司已经签约了几家财富500强客户,包括全球房地产服务公司仲量联行。仲量联行的Work Dynamics Technology CEO Sharad Rastogi表示:“Numbers Station处于企业结构化数据人工智能的前沿。我们对Numbers Station可靠且具有吸引力的平台印象深刻。随着我们的使用,它不断学习,使我们的数据团队能够发现和验证推动业务成果的假设。”