Deepgram的Aura让AI代理有了声音

AI7号2024-03-121707

Chat中文版

Deepgram凭借其声音识别技术成为了备受瞩目的初创公司之一。今天,这家资金充裕的公司宣布推出其全新的实时文本转语音API——Aura。Aura结合了高度逼真的语音模型与低延迟的API,使开发者可以构建实时对话人工智能代理。在大型语言模型(LLMs)的支持下,这些代理可以替代呼叫中心和其他面向客户的场景中的客服代理。

正如Deepgram的联合创始人兼首席执行官 Scott Stephenson告诉我的那样,获取优质语音模型一直是可行的,但那些都很昂贵,计算时间也很长。与此同时,低延迟模型往往听起来很机械。Deepgram的Aura结合了类人声音模型,渲染速度极快(通常在半秒钟以内),而且价格低廉,正如Stephenson一再强调的那样。

Chat中文版

他说:“现在大家都觉得我们需要能够实时识别语音内容、理解并生成回应的人工智能机器人,然后再能够进行语音交流。”在他看来,这种产品要想对企业有价值,需要精准度、低延迟和可接受的成本结合在一起,特别是在与训练大型语言模型的相对高成本结合起来时。

Deepgram主张,Aura目前的定价几乎击败了所有竞争对手,每1000个字符为0.015美元。这距离Google的WaveNet语音每1000个字符为0.016美元和亚马逊的Polly的神经语音每1000个字符也是0.016美元,并不相差太远,但确实更便宜。但亚马逊的最高级别价格要显着更贵。

“你不仅要在所有[领域]中找到一个非常好的价格点,还要拥有惊人的响应速度、速度,以及惊人的准确性。这是一个非常困难的事情”,Stephenson谈到了Deepgram建立产品的一般方式。“但这正是我们从一开始就专注的,这也是为什么我们在发布任何东西之前,花了四年时间建设基础架构来实现这一点。”

Aura目前提供大约十几种语音模型,所有这些模型都是由Deepgram与配音演员合作创建的数据集进行训练的。Aura模型,就像公司的其他所有模型一样,都是在公司内部进行训练的。以下是它的声音示例:

https://techcrunch.com/wp-content/uploads/2024/03/deepgram_voice.mp3

你可以在这里试试Aura的演示版本。我已经测试了一段时间,尽管有时会遇到一些奇怪的发音,但速度确实是它的显著特点,除此之外,还有Deepgram现有的高质量语音转文字模型。为了突出它生成响应的速度,Deepgram指出模型开始说话所用的时间(通常少于0.3秒)以及LLM完成生成响应所用的时间(通常不到一秒)。

推荐阅读

科技圈一分钟:Reddit的IPO成功可能取决于人工智能的繁荣

2024-03-121827
Chat中文版

生成式人工智能视频初创公司Tavus筹集了1800万美元,将面部和声音克隆带到任何应用程序

2024-03-121364
Chat中文版

Pienso为培训AI模型而构建无代码工具

2024-03-121999
Chat中文版

Nanonets获得Accel India的支持,以改进基于人工智能的工作流自动化

2024-03-12666
Chat中文版

谷歌确认全球范围内限制对双子座选举查询

2024-03-122281
Chat中文版