DataCebo推出了流行的开源合成数据库的企业版

Chat中文版

在大多数人还没有考虑到大型语言模型之前，DataCebo的联合创始人Kalyan Veeramachaneni和Neha Patki就已经创建了一个名为合成数据库（Synthetic Data Vault，简称SDV）的开源库。该公司的起源可以追溯到2016年，当时两人都在麻省理工学院的数据与人工智能实验室工作。他们认为，除了生成文本、图像和代码，还可以利用生成式人工智能创造数据。

对于需要在大型语言模型中使用高质量商业数据（以及其他目的）但不能使用个人身份信息（PII）的公司来说，这是一个有吸引力的想法。今天，该公司在花费了几年时间开发企业商业版SDV以及获得850万美元种子资金之后，正式推出。

这种能够从关系型和表格数据库中创建合成数据的能力，是该公司与其他生成式AI创作工具的区别所在，首席执行官Veeramachaneni说道：“我们的软件允许客户在本地构建自定义的生成式AI模型。然后他们可以将合成数据用于各种用例，”他告诉TechCrunch。这种技术可以应用于医疗保健、金融服务或在需要隐藏敏感数据进行测试和模型构建的任何地方。

他说，公司传统上必须手动地创建人工数据，这是一种非常乏味的过程，难以扩展且容易出错。通过将生成式人工智能应用于这个问题，你只需描述所需数据的类型，软件会查看实际数据集的特征，然后创建一个质量良好的虚假数据集用于测试目的，而不会暴露任何敏感信息。

创始人首先创建了一个开放源码工具，这个工具非常受欢迎，并帮助他们测试软件的各个核心部分。“我们已经有超过一百万次下载，很多人都在我们的社区活跃。”产品副总裁Patki说道。实际上，他们有一个Slack频道，有超过1,000人参与其中。

“通过这种方式，首先我们得到了很多对我们核心算法的验证。我们对它的工作效果有信心，如果有任何错误或问题，我们的公开开源用户立刻就能发现并且我们能够解决。”她说道。

开源版本和商业企业版本之间的主要区别在于规模。商业企业版本可以处理多达100个表，而开源版本只设计了处理少数几个表的能力。到目前为止，客户已经根据20到30个表构建了模型。

目前公司有11名员工，计划在接下来的一年内招聘，根据业务的发展情况，员工数量预计增加到约20人左右。

这家初创公司获得了850万美元的种子轮融资，主要由Link Ventures和Zetta Venture Partners领投，同时还有Uncorrelated Ventures参与。

推荐阅读

西雅图生物技术中心通过科技亿万富翁的7500万美元资金追求"DNA打字机"技术

一家新的西雅图生物技术组织将获得7500万美元的资金用于研究“DNA打字机”，这是一种自我监测的细胞，可能颠覆我们对生物学的认识。华盛顿大学、陈-扎克伯格倡议和艾伦研究所之间的合作已经展开。这个名为西雅图合成生物技术中心的联合计划已经开始实施。

2024-01-112026

谷歌最佳的双子座演示是伪造的

谷歌的全新“双子座”人工智能模型在昨天的盛大发布会上获得了褒贬不一的评论。但用户在发现“双子座”最令人印象深刻的演示实际上是虚构的之后，可能会对该公司的技术或诚信产生更少的信心。一段名为“与双子座互动：多模态人工智能体验”的视频获得了百万点击次数...

2024-01-112945

X开始向订阅用户推出其“叛逆”的聊天机器人Grok

Grok是由xAI开发的ChatGPT竞争对手，xAI是埃隆·马斯克的人工智能创业公司，它已正式在曾被称为Twitter的X网站上推出。Grok于今天下午晚些时候开始向X高级会员在美国推广，"Premium Plus"是X的一个计划，每月收费16美元，可以无广告地访问社交网络。长期以来...

2024-01-111979

人科公司阻止种族主义人工智能的最新策略：非常非常非常非常地礼貌地请求

在设置人工智能模型以在金融和健康事务中做决策时，对齐问题是一个重要问题。但是，如果偏见已经存在于模型的训练数据中，如何减少偏见呢？Anthropic建议友善地请教它，请它不要歧视，不然会有人起诉...

2024-01-112042

在Cresta创始人的支持下，Trove的人工智能希望再次让调查变得有趣起来

调查已经成为我们生活中许多方面的一个不可或缺的部分，但大多数调查都十分枯燥，导致反应和行动的效果不佳。在硅谷工作的两位软件工程师沈定瀚和薛元意识到，利用大型语言模型带来的突破性进展，可以使调查更具共鸣和吸引力。[…]

2024-01-112898