Deepgram的Aura让AI代理有了声音

Chat中文版

Deepgram凭借其声音识别技术成为了备受瞩目的初创公司之一。今天，这家资金充裕的公司宣布推出其全新的实时文本转语音API——Aura。Aura结合了高度逼真的语音模型与低延迟的API，使开发者可以构建实时对话人工智能代理。在大型语言模型（LLMs）的支持下，这些代理可以替代呼叫中心和其他面向客户的场景中的客服代理。

正如Deepgram的联合创始人兼首席执行官 Scott Stephenson告诉我的那样，获取优质语音模型一直是可行的，但那些都很昂贵，计算时间也很长。与此同时，低延迟模型往往听起来很机械。Deepgram的Aura结合了类人声音模型，渲染速度极快（通常在半秒钟以内），而且价格低廉，正如Stephenson一再强调的那样。

Chat中文版

他说：“现在大家都觉得我们需要能够实时识别语音内容、理解并生成回应的人工智能机器人，然后再能够进行语音交流。”在他看来，这种产品要想对企业有价值，需要精准度、低延迟和可接受的成本结合在一起，特别是在与训练大型语言模型的相对高成本结合起来时。

Deepgram主张，Aura目前的定价几乎击败了所有竞争对手，每1000个字符为0.015美元。这距离Google的WaveNet语音每1000个字符为0.016美元和亚马逊的Polly的神经语音每1000个字符也是0.016美元，并不相差太远，但确实更便宜。但亚马逊的最高级别价格要显着更贵。

“你不仅要在所有[领域]中找到一个非常好的价格点，还要拥有惊人的响应速度、速度，以及惊人的准确性。这是一个非常困难的事情”，Stephenson谈到了Deepgram建立产品的一般方式。“但这正是我们从一开始就专注的，这也是为什么我们在发布任何东西之前，花了四年时间建设基础架构来实现这一点。”

Aura目前提供大约十几种语音模型，所有这些模型都是由Deepgram与配音演员合作创建的数据集进行训练的。Aura模型，就像公司的其他所有模型一样，都是在公司内部进行训练的。以下是它的声音示例：

https://techcrunch.com/wp-content/uploads/2024/03/deepgram_voice.mp3

你可以在这里试试Aura的演示版本。我已经测试了一段时间，尽管有时会遇到一些奇怪的发音，但速度确实是它的显著特点，除此之外，还有Deepgram现有的高质量语音转文字模型。为了突出它生成响应的速度，Deepgram指出模型开始说话所用的时间（通常少于0.3秒）以及LLM完成生成响应所用的时间（通常不到一秒）。

推荐阅读

科技圈一分钟：Reddit的IPO成功可能取决于人工智能的繁荣

长期以来IPO短缺的情况可能即将结束，部分原因是Reddit即将公开上市。预计本月将进行上市，Reddit在疫情期间估值飙升。现在，该公司正在努力在公开发行中保留尽可能多的终极私募价格。该公司的规模庞大 — 更多...]

2024-03-121827

生成式人工智能视频初创公司Tavus筹集了1800万美元，将面部和声音克隆带到任何应用程序

四年前成立的Tavus是一家生成式人工智能初创公司，帮助公司为自动个性化视频广告创造个人数字“复制品”。该公司已确认获得1800万美元新资金，并透露正在向第三方开放其平台，让他们可以将其技术整合到自己的软件中。今年八月有报道称Tavus已筹集到约1800万美元的资金。

2024-03-121364

Pienso为培训AI模型而构建无代码工具

人工智能现在可能是当下的热门话题。但这并不意味着部署AI变得更容易。根据2023年标普全球调查显示，至少有一个AI项目在生产中的公司约有一半仍处于试点或概念验证阶段。缓慢推进的原因各不相同，但常常被提到的有[…]

2024-03-121999

Nanonets获得Accel India的支持，以改进基于人工智能的工作流自动化

Nanonets，一家利用人工智能来自动化后勤流程的初创公司，已在一轮新的融资中筹集了2900万美元，由Accel India领投，旨在提高涉及大量非结构化数据的自动化流程的准确性。处理来自发票、收据和采购订单等文件的非结构化数据通常涉及重复性任务和…

2024-03-12666

谷歌确认全球范围内限制对双子座选举查询

如果你想向谷歌的人工智能聊天机器人问一个有关即将举行选举的问题，你将必须在一个没有选举举行的国家进行。据TechCrunch了解，这家搜索巨头已经开始限制与选举相关的查询，无论在哪个市场全球范围内。

2024-03-122281