迄今最大的文本转语音人工智能模型展现了“突现能力”

AI7号 2024-02-15 288

Chat中文版

亚马逊的研究人员培训出迄今最大的文本转语音模型,他们声称该模型表现出“新出现”的特性,提高了其自然地发音复杂句子的能力。这一突破可能是技术逃离“怪异谷”所需的。

这些模型的发展和改进注定会持续进行,但研究人员特别希望看到在语言模型超过一定规模后能够观察到的能力飞跃。出于未知原因,一旦语言模型超过一定规模,它们开始变得更加强大和多功能,能够执行它们未经训练的任务。

这并不是说它们正在获得意识之类的东西,只是说在某个特定点上,它们在某些对话 AI 任务上的表现突飞猛进。亚马逊 AGI 团队(他们的目标显而易见)也认为当文本转语音模型发展起来时可能会出现同样的情况,他们的研究表明这确实是事实。

这款新模型被称为具有紧密适应性和流式合成技术的自发能力大型 TTS,缩写为 BASE TTS。该模型的最大版本利用了10万小时的公共领域语音,其中90%为英语,其余为德语、荷兰语和西班牙语。

在参数数量达到9.8亿的情况下,BASE-large似乎是该类别中最大的模型。他们还分别基于1万小时和1千小时的音频训练出了4亿和1.5亿参数的模型,以便进行比较。其中的想法是,如果其中一个模型表现出了新出现的行为而另一个没有,那么就可以确定出这些行为开始出现的范围。

事实证明,中等尺寸的模型展示了团队正在寻找的提升能力,不仅在普通言语质量方面(虽然被评价得更好,但只有几分之几的差距),而且在他们观察和测量到的新出现的能力集中也有所体现。以下是论文中提到的一些棘手文本的例子:

  • 复合名词:贝克汉姆决定租一座迷人的石造乡村度假小屋。
  • 情绪: "哇!我们真的要去马尔代夫吗?太不可思议了!" 珍妮兴奋地尖叫着,高兴到无法自持地踮起脚尖跳跃。
  • 亨利先生因其调酒技巧而闻名,策划了一顿七道菜的餐宴,每道菜都是精心制作的杰作。
  • 语言外语言学(即可读的非语言):“嘘,露西,嘘,我们不能把你的弟弟吵醒,”当他们小心翼翼地走过婴儿房时,汤姆低声说道。
  • 标点符号:她收到了她的哥哥发来的奇怪短信:“家里有急事;尽快打电话!妈妈和爸爸很担心……#家庭问题。”
  • 问题:然而,脱欧问题依然存在:经历了所有的考验和困难之后,部长们能否及时找到答案?
  • 句法复杂性:德莫亚最近获得终身成就奖的电影在2022年取得了票房的成功,尽管评论褒贬不一。

作者写道:“这些句子旨在包含具有挑战性的任务-解析“花园小径句子”,在冗长的复合名词上添加短语重音,产生情感或低声讲话,或者产生类似于“qi”或“@”这样的外来单词的正确音素-尽管其中没有一个是未经明确培训的BASE TTS所能执行的。”

这些特点通常会使文本转语音引擎出错,会发音错误、跳过单词、使用奇怪的语调或犯其他错误。基本文本转语音引擎仍然遇到了问题,但它比同期的模型(如乌龟和瓦利)表现得更好。

在为新模型创建的网站上,有许多这些难以理解的文字的例子被说得很自然。当然,这些例子是由研究人员选择的,因此它们必然是精挑细选的,但不管怎样,这仍然令人印象深刻。以下是其中的几个例子,如果你不想点击浏览的话:

https://techcrunch.com/wp-content/uploads/2024/02/shh-its-starting.wav 请保持安静,它开始了。

请点击以下链接下载文件:https://techcrunch.com/wp-content/uploads/2024/02/how-french.wav

https://techcrunch.com/wp-content/uploads/2024/02/guiding-moonlight.wav的翻译如下: https://techcrunch.com/wp-content/uploads/2024/02/guiding-moonlight.wav

因为这三个基础TTS模型共享一个架构,所以很明显模型的大小和训练数据的范围似乎是模型处理上述复杂性的原因。请记住,这仍然只是一个实验性模型和过程,并不是商业模型或其他类型的模型。后续的研究将需要确定出现能力的关键点以及如何高效地训练和部署所得到的模型。

值得注意的是,正如名称所示,这个模型是“流式的”——这意味着它不需要一次生成完整的句子,而是以相对较低的比特率逐时刻进行。团队还尝试将语音元数据(如情感、韵律等)打包到一个单独的、低带宽的流中,以与常规音频一同传输。

看起来,2024年是文本转语音模型迎来突破性时刻的年份——恰好赶上选举!但不可否认,这项技术的实用性,尤其是对于辅助功能的提升。然而,该团队确实指出,由于恶意操作者可能利用模型的源代码和其他数据,他们决定不公开发布。不过,猫终究会从袋子里跳出来。

推荐阅读

奇点对于机器臂来说是个难题——雅各比机器人正在努力解决这个问题

2024-02-15 2934
Chat中文版

TechCrunch将前往MWC。我们想了解你的创业公司

2024-02-15 538
Chat中文版

这家游戏初创公司试图证明“人工智能+加密货币”并非一时热潮

2024-02-15 480
Chat中文版

Rasa是一家专注于企业级对话GenAI的开发平台,获得了3000万美元的融资

2024-02-15 2823
Chat中文版

Slack在平台上增加了人工智能驱动的搜索和摘要功能

2024-02-15 1179
Chat中文版