OpenAI开发了一款语音克隆工具，但目前你还不能使用它

Chat中文版

随着深度伪造技术的增多，OpenAI正在改进用于克隆声音的技术，但该公司坚称正在负责任地进行。

今天标志着OpenAI的Voice Engine预览首秀，这是该公司现有文本转语音API的扩展。Voice Engine已经开发了大约两年，它允许用户上传任何15秒的语音样本，生成一个该声音的合成副本。但目前还没有公开使用日期，这给公司一些时间来应对模型的使用和滥用。

“我们希望确保每个人对技术的部署感到满意 - 我们了解这项技术存在危险的领域，并已经做好了相应的减轻措施”，OpenAI产品团队成员杰夫·哈里斯在接受科技媒体TechCrunch的采访中说道。

训练模型

Harris表示，驱动Voice Engine的生成式人工智能模型已经悄然存在了一段时间。

同样的模型支撑着聊天程序ChatGPT中的语音和“朗读”功能，这是OpenAI的AI聊天机器人，以及OpenAI文本转语音API中预设的语音所采用的。Spotify自九月初以来一直在使用该模型，为高知名度主持人像Lex Fridman等制作不同语言的播客。

我问Harris模型的训练数据来源于哪里——这是一个敏感的话题。他只说Voice Engine模型是在许可和公开数据的混合上进行训练的。

像驱动Voice Engine的模型这样的模型是在大量示例（在这种情况下是语音记录）的基础上训练的，通常是从网络上的公共站点和数据集中获取的。许多生成型人工智能供应商将训练数据视为竞争优势，因此将其和相关信息保密。但是训练数据的细节也可能成为知识产权相关诉讼的潜在来源，这也是不愿透露太多信息的另一个理由。

OpenAI因涉嫌违反知识产权法，未经创建者或所有者授权或报酬，在受版权保护的内容上训练其人工智能，目前正在面临诉讼。

OpenAI已经与一些内容提供商签订了许可协议，如Shutterstock和新闻发布商Axel Springer，并允许网站管理员阻止其网络爬虫从其网站上爬取数据用于训练。OpenAI还允许艺术家选择“退出”，并从公司用于训练图像生成模型的数据集中删除他们的作品，包括最新的DALL-E 3。

但是OpenAI并未为其其他产品提供类似的选择退出方案。在最近向英国上议院提交的一份声明中，OpenAI表示“没有版权材料就不可能创建有用的AI模型”，并声称公平使用——允许使用版权作品来制作二次创作，只要它是具有变革性的——在模型训练方面为其提供了保护。

合成语音

令人惊讶的是，语音引擎并没有经过用户数据的训练或微调。部分原因在于该模型的生成语音方式，它是扩散过程和变压器的组合。

“我们拿一小段音频样本和文字，生成与原始发言者相匹配的真实语音。”Harris说道。”使用的音频在请求完成后会被删除。”

正如他所解释的，该模型同时分析它所提取的语音数据和文本数据，这些文本数据是用来朗读的，生成一个匹配的语音，而无需为每个讲话者构建自定义模型。

这并不是什么新技术。多家创业公司多年来一直推出声音克隆产品，从ElevenLabs到Replica Studios再到Papercup、Deepdub和Respeecher都有。大科技巨头如亚马逊、谷歌和微软也有涉足 —— 其中微软是开放AI（OpenAI）的主要投资方。

哈里斯声称OpenAI的方法提供了更高质量的语音。

我们也知道它的定价会非常具有竞争力。虽然 OpenAI 从今天发布的营销资料中删除了 Voice Engine 的定价，但在 TechCrunch 查看的文件中，Voice Engine 的定价标为每百万个字符 15 美元，或者约 16.25 万个字。这将足够涵盖狄更斯的《雾都孤儿》并留有一点余地。（高清质量选项的成本是其两倍，但令人困惑的是，OpenAI 的一位发言人告诉 TechCrunch，高清和非高清的声音之间没有区别。你可以对此有何看法。）

这相当于大约18小时的音频，使得价格略低于每小时1美元。这的确比较流行的竞争对手ElevenLabs收费更便宜 - 每月100,000个字符收费11美元。但这牺牲了一些定制的功能。

Voice Engine没有提供调节声音的音调、音高或节奏的控制。实际上，目前它没有提供任何微调按钮或旋钮，尽管哈里斯指出，在15秒的语音样本中表现出的任何表达力都将贯穿后续的生成（例如，如果你用兴奋的口气说话，生成的合成声音将始终听起来兴奋）。当可以直接进行比较时，我们将看到阅读质量与其他模型的比较如何。

声音人才作为商品

在ZipRecruiter上，声优的工资范围从每小时12美元到79美元不等 — 即使在低端（有经纪人的演员将会每个项目要求更高的价格），也比Voice Engine贵得多。如果OpenAI的工具能够流行起来，可能会使声音工作变得平价化。那么，这对声优们意味着什么呢？

人才行业并不会毫无准备地被打败，它一直在陷入对生成式人工智能的生存威胁。越来越多的配音演员被要求放弃他们的声音权利，以便客户可以使用人工智能生成合成版本，最终可能取代他们。声音工作，特别是廉价的初级工作，有可能被AI生成的语音所取代。

现在，一些AI语音平台正在尝试寻找平衡。

去年，Replica Studios与SAG-AFTRA签署了一项颇具争议的协议，以创建和授权复制媒体艺术家工会成员的声音。双方表示，该安排建立了公平和道德的条款和条件，以确保表演者在就合成声音在新作品中的使用条款进行谈判时获得同意，包括视频游戏。

与此同时，ElevenLabs主办了一个合成语音市场，允许用户创建、验证并公开共享语音。当其他人使用这种语音时，原始创建者会获得报酬-按每1000个字符一定金额计算。

OpenAI将在短期内不会建立任何劳工工会协议或市场，只要求用户获得“明确同意”来克隆他人的声音，做出“清晰披露”来表明哪些声音是由人工智能生成的，并同意不得在生成过程中使用未成年人、已故人士或政治人物的声音。

哈里斯说：“这与配音演员行业的交集是我们非常关注和好奇的事情。我认为将会有很多机会通过这种技术扩大你作为配音演员的影响力。但这些都是我们在实际部署并使用这项技术时会学到的东西。”

道德与深度伪造技术

语音克隆应用程序可能已被滥用，情况远远超过恐吓演员的生计。

臭名昭著的信息板块4chan以其阴谋内容而闻名，利用ElevenLabs平台分享模仿像Emma Watson这样的名人的仇恨信息。《The Verge》的James Vincent能够利用人工智能工具恶意地、迅速地克隆声音，生成包含从暴力威胁到种族主义和跨性别歧视言论的样本。另外，在Vice，记者Joseph Cox记录了生成足以愚弄银行认证系统的声音克隆。

有人担心坏人会利用声音克隆来影响选举。而这种担忧并非没有根据：今年1月，一场电话活动使用了深度伪造的拜登总统来阻止新罕布什尔州的公民投票 — 导致联邦通信委员会采取行动，试图让未来类似的活动非法化。

除了在政策层面禁止深度伪造技术之外，OpenAI还采取了哪些措施来防止Voice Engine被滥用？Harris提到了一些。

首先，语音引擎仅向一小部分开发者提供使用权限，大约10人。OpenAI 首席执行官哈里斯表示，OpenAI 优先考虑“低风险”和“社会效益”之类的用例，比如医疗和可访问性领域，同时也在进行“负责任”的合成媒体实验。

一些早期采用Voice Engine技术的公司包括教育科技公司Age of Learning，他们利用该工具生成已选角演员的配音，以及故事应用HeyGen，利用Voice Engine进行翻译。Livox和Lifespan正在利用Voice Engine为语言障碍和残疾人士创建语音，Dimagi正在开发基于Voice Engine的工具，为卫生工作者提供以他们的母语为主要语言的反馈。

这是从Lifespan生成的语音录音。

https://techcrunch.com/wp-content/uploads/2024/03/寿命生成排序.mp3

请访问以下链接以收听音频：https://techcrunch.com/wp-content/uploads/2024/03/lifespan_generation_talking.mp3

这里有一个来自Livox的例子：

https://techcrunch.com/wp-content/uploads/2024/03/livox_generation_chinese.mp3

其次，使用Voice Engine 创建的克隆被加上了水印，这是OpenAI开发的一种技术，可以在录音中嵌入听不见的标识符。（其他供应商包括 Resemble AI 和微软也采用类似的水印技术。）Harris并没有承诺这种水印没有被绕过的方法，但描述它为“防篡改”。

“如果有一个音频片段存在，我们可以很容易地查看这个片段，并确定它是由我们的系统生成的，以及实际进行生成的开发人员，”哈里斯说。“到目前为止，它还没有开源-我们目前内部使用。我们对公开提供它很感兴趣，但显然，这带来了暴露和破坏的风险。”

其三，OpenAI计划为其红队网络成员提供对Voice Engine的访问权限，红队网络是一个由专家组成的合同团队，帮助公司进行人工智能模型风险评估和应对策略。他们将使用Voice Engine来识别恶意用途。

一些专家认为，人工智能红队并不全面，厂商有责任开发工具来防御人工智能可能造成的伤害。OpenAI在语音引擎领域并没有走得那么远，但哈里斯声称公司的“最重要原则”是安全释放技术。

普通释放

取决于预演效果和公众对Voice Engine的接受程度，OpenAI可能会向更广泛的开发者群体发布这一工具，但目前公司不愿意做任何具体承诺。

哈里斯确实预览了Voice Engine的路线图，透露OpenAI正在测试一种安全机制，用户需要阅读随机生成的文本以证明他们在场并知晓其语音如何被使用。哈里斯表示，这可能会让OpenAI有信心将Voice Engine带给更多人，或者这只是个开始。

“实际语音匹配技术将继续推动我们前进的因素，将主要取决于我们从试点项目中学到的内容，发现的安全问题以及我们已经采取的缓解措施，”他说。“我们不希望人们在人工语音和实际人类语音之间感到困惑。”

在这一点上我们可以达成一致。