DataCebo推出了流行的开源合成数据库的企业版
在大多数人还没有考虑到大型语言模型之前,DataCebo的联合创始人Kalyan Veeramachaneni和Neha Patki就已经创建了一个名为合成数据库(Synthetic Data Vault,简称SDV)的开源库。该公司的起源可以追溯到2016年,当时两人都在麻省理工学院的数据与人工智能实验室工作。他们认为,除了生成文本、图像和代码,还可以利用生成式人工智能创造数据。
对于需要在大型语言模型中使用高质量商业数据(以及其他目的)但不能使用个人身份信息(PII)的公司来说,这是一个有吸引力的想法。今天,该公司在花费了几年时间开发企业商业版SDV以及获得850万美元种子资金之后,正式推出。
这种能够从关系型和表格数据库中创建合成数据的能力,是该公司与其他生成式AI创作工具的区别所在,首席执行官Veeramachaneni说道:“我们的软件允许客户在本地构建自定义的生成式AI模型。然后他们可以将合成数据用于各种用例,”他告诉TechCrunch。这种技术可以应用于医疗保健、金融服务或在需要隐藏敏感数据进行测试和模型构建的任何地方。
他说,公司传统上必须手动地创建人工数据,这是一种非常乏味的过程,难以扩展且容易出错。通过将生成式人工智能应用于这个问题,你只需描述所需数据的类型,软件会查看实际数据集的特征,然后创建一个质量良好的虚假数据集用于测试目的,而不会暴露任何敏感信息。
创始人首先创建了一个开放源码工具,这个工具非常受欢迎,并帮助他们测试软件的各个核心部分。“我们已经有超过一百万次下载,很多人都在我们的社区活跃。”产品副总裁Patki说道。实际上,他们有一个Slack频道,有超过1,000人参与其中。
“通过这种方式,首先我们得到了很多对我们核心算法的验证。我们对它的工作效果有信心,如果有任何错误或问题,我们的公开开源用户立刻就能发现并且我们能够解决。”她说道。
开源版本和商业企业版本之间的主要区别在于规模。商业企业版本可以处理多达100个表,而开源版本只设计了处理少数几个表的能力。到目前为止,客户已经根据20到30个表构建了模型。
目前公司有11名员工,计划在接下来的一年内招聘,根据业务的发展情况,员工数量预计增加到约20人左右。
这家初创公司获得了850万美元的种子轮融资,主要由Link Ventures和Zetta Venture Partners领投,同时还有Uncorrelated Ventures参与。