生成式人工智能视频初创公司Tavus筹集了1800万美元，将面部和声音克隆带到任何应用程序

Chat中文版

四岁的Tavus是一家生成式人工智能初创公司，帮助公司为自动化个性化视频广告创作数字“复制品”。该公司证实已获得新的1800万美元融资，并透露正在向第三方开放其平台，让他们可以将其技术整合到自己的软件中。

今年8月份有报道称，Tavus公司筹集了大约1800万美金，但细节很少。该公司现在向TechCrunch确认，确实在一轮A轮融资中筹集了1800万美金，由Scale Venture Partners领投——这是一家早期的风险投资公司，之前支持过Box、HubSpot和DocuSign等公司。其他重要的投资者包括Sequoia，他们在去年领投了Tavus公司610万美金的种子轮融资，同样也有Y Combinator（YC）和HubSpot参与。

视频成为中心舞台

生成式人工智能运动最好的例证包括文本搜索引擎如ChatGPT和文本生成图片模型如DALL-E，OpenAI正在将它们合并成一个全能平台。但如果过去几个月是什么样的，生成式人工智能可能即将迎来另一场小型革命，视频将成为重要焦点。

OpenAI 最近推出了 Sora，一个文本到视频的模型，可能会改变我们所知道的创意产业。但这并不是唯一的选择，在场的还有像谷歌这样的科技巨头，他们已经研发类似的工具数年，更不用说许多初创公司在过去一年内为实现生成式人工智能与视频相交的各种想法筹集了大量风险投资。

Tavus与客户合作，通过声音和面部克隆创建个人的复制品。其理念是销售和营销团队可以使用Tavus以规模化的方式向潜在客户发送个性化视频，或者产品团队可以为新客户创作个性化的操作指南视频 —— 一切均通过简单的基于文本的提示实现，利用先前创建的数字复制品。通过将Tavus与Salesforce或Mailchimp等第三方系统集成，公司可以实现大部分自动化 —— 例如，完成在线表单并请求有关产品进一步信息的客户可以立即收到一段视频，销售代表会通过姓名称呼潜在客户并解释下一步操作。

Tavus目前在短短的历史中已经成功吸引了一些知名客户，包括Salesforce和Facebook旗下的Meta公司。公司联合创始人兼CEO Hassaan Raza表示，这些客户正在利用该平台通过个性化演示视频向各自的B2B客户推销产品。

作为一个平台的Tavus

到目前为止，Tavus已通过SaaS应用提供服务，客户可以通过该应用创建自己的AI视频模板。入职流程需要个人，如CEO或销售执行官，根据Tavus提供的脚本录制一段15分钟的视频。

Chat中文版

然后利用这个来训练人工智能，之后用户进入网页编辑器并选择视频的哪些部分想要个性化，定义变量比如地点、执行人姓名、公司或产品。通过将Tavus与他们的CRM系统相结合，公司可以调整每个变量以适应特定的客户群体，比如那些对特定产品表现出兴趣的客户。

Chat中文版

企业可以创建数百个这样的复制品，参与其中的人员不同，以满足不同的目标市场需求。

通过应用程序内编辑器，可以生成任意数量的不同脚本，以附加到每个用例，而无需重新录制任何原始视频。

Chat中文版

尽管这个核心的SaaS产品不会消失，但如今Tavus正在发布一款全新的技术加速版，同时推出一套开发者API套件的第一批，允许第三方将Tavus集成到他们自己的应用中。

复制

Tavus新开发平台的第一个特点是它的“复制API”，主要是创建具有“逼真照片”效果的数字复制品，并且能生成视频文本。有了这个功能，一家公司可以使用Tavus开发的新专有模型“Phoenix”复制一个人（如市场总监或CEO），这个模型是基于一种叫做神经辐射场（NeRF）的深度学习方法的。它可以在几分钟内从2D图像生成一个人的3D构建。

“实际上，它让您只需要两分钟的训练数据就可以创建完整的视频，这是我们之前在规模上进行个性化工作的重大飞跃，” Raza告诉TechCrunch。“现在您只需要录制两分钟的训练数据，就能创建一个完整的您的复制品。一旦您有了复制品，就可以制作任意数量的视频 - 从一个、两个到一千个脚本。”

Chat中文版

该首个仿制API依赖于Phoenix模型的整体功能，并捕捉个人的面部动作，包括颊部、鼻子、眉毛和嘴唇。

Raza解释道：“动起整个面部会带来真实感、自然度和质量-当你说话时，你的脸部表达的情感不仅仅是嘴唇在移动。” “如果你想从一个剧本中生成整个视频- 在视频中你正在说话，看起来自然且质量非常高- 你会想要使用复制API。”

然而，Tavus也在开发许多额外的API，其中包括一个专门用于配音；一个用于配音；还有一个用于运行大规模、个性化视频广告活动的API。

根据 Raza 的说法，口型同步API将具有“更低的门槛”，适用于“高质量和逼真度并非必要的情况”。

与此同时，配音API也使用了唇同步模型，但同时还包括多语言语音克隆，这意味着单一语言用户可以使用自己的声音在任意语言中发送视频广告。在这种情况下，由于大部分视频内容保持不变，API可以简单地替换唇部动作，使其与用户口中发出的不同声音保持一致。这对于视频编辑软件套装的开发者可能很有用，例如，他们希望为用户增加唇同步、编辑和配音功能。

然后视频广告活动API基本上将复制API与大量的额外工具捆绑在一起，例如托管、变量映射、缩略图和分析，供那些希望启动大规模视频广告活动的人使用。

Raza说：“我们正在为任何开发者提供一个开箱即用的端对端视频广告体验的能力，可以在他们自己的解决方案中实现。而复制和模仿API更多是‘作为服务的模型’，广告API为您提供了轻松构建AI视频广告平台的工具。”

Raza对Tavus平台的早期用户情况保持了一些保密，但他表示正在“与最大的视频平台之一”合作，以提高客户参与度。Raza说：“他们希望将这种服务带给已经在他们平台上每天创作视频的数百万客户。”

深度伪造困境

本能地，像Tavus这样的平台很容易被滥用——毕竟，有什么能阻止任何人上传一段现成的视频来制作数字复制品呢？深度伪造确实是人工智能迅速发展中的一个不容忽视的问题，但Raza表示他们已经设立了检查机制来防止欺诈行为。例如，当用户提交他们的两分钟训练视频时，他们还必须提交一个特定的口头同意声明，然后与训练视频中的音频进行匹配以确保一致。

“我们会自动运行这些检查，然后对通过自动检查的每个复制品进行人工核查以确保安全，” Raza说道。

很容易理解Tavus作为一个独立的SaaS应用程序是如何运作的，但现在它成为通过API访问的平台，可能有许多公司接入，那么谁控制验证呢？事实证明，掌握验证的是Tavus — 即使仅仅为第三方开发人员提供引擎，公司仍希望保持对验证的控制。

"我们进行相同的检查，并且也会承担API的验证责任," Raza 继续说道。

拓展现实

尽管OpenAI已成为生成式人工智能的代表，但仍有足够的空间让其他参与者带来不同的东西。事实上，虽然DALL-E和OpenAI最近发布的Sora模型主要是帮助人们从文本提示中创建图像，但Raza表示Tavus存在的意义更多是"扩展"一个人的现实。

“我们可以看到未来，每个人都希望拥有一个数字化的自我副本，他们可以控制它，并且拥有完全的权威。” Raza说。“重要的是它实际上会越来越多地捕捉你的个性，你的姿态和特征。这就是我们未来的看法 - 将有模型创造不存在的事物，然后将有模型扩展现实。”

Raza表示，银行账户中有1800万美元，最近的现金注入将被用来“助长Tavus大厦已经燃烧起来的烈火”。

“我们是一家人工智能研究公司，所以我们希望能够继续开发像Phoenix这样的新模型，”Raza说道。“但同时也要持续保持我们的发展，我们一直有大量的需求。我们希望能够持续招聘机器学习和工程团队，以支持我们的开发者和SaaS客户。”