D-ID 推出了一款人工智能视频翻译工具,其中包括语音克隆和唇形同步功能。
人工智能视频创作平台 D-ID 是最新一家推出使用人工智能技术将视频翻译成其他语言的工具的公司。然而,在这种情况下,作为人工智能编辑过程的一部分,D-ID 还会克隆说话者的声音,并改变他们的嘴唇动作以匹配翻译后的文字。
这项技术源于 D-ID 早期的工作——您可能还记得几年前的热门趋势,当时用户为他们的旧家庭照片制作动画,后来这些照片能够说话。在那次成功的基础上,这家初创公司于 2022 年完成了 2500 万美元的 B 轮融资,旨在为其在美国不断增加的使用其技术制作人工智能驱动视频的企业客户提供服务。
凭借该公司现已推出的 AI 视频翻译技术(目前免费提供给 D-ID 订阅用户),创作者可以自动将他们的视频翻译成其他语言,以帮助他们扩大影响力。目前总共提供 30 种语言,包括阿拉伯语、普通话、日语、印地语、西班牙语和法语等。D-ID 订阅服务中,最便宜的套餐每年起价 56 美元,包含可用于 AI 功能的最少信用点数,然后价格上升到每年 1293 美元,之后转为企业定价。
D-ID 表示,新的人工智能视频技术可以帮助客户在将营销、娱乐和社交媒体等领域的活动推广至全球受众时节省本地化成本。该技术将与其他配音和人工智能视频解决方案展开竞争。
多年来,配音技术让视频观众能更轻松地听到自己语言的音频,但小创作者往往无法使用这类技术。随着各公司改善技术获取途径,这种情况一直在改变。例如,YouTube 推出了一项多语言音频功能,旨在帮助创作者将其视频翻译成其他语言,从而与更广泛的观众建立联系。知名创作者 MrBeast(吉米·唐纳森)是早期采用者之一,他利用这项技术将自己的几部热门视频翻译成了另外 11 种语言。
借助人工智能,创造、翻译或克隆声音的能力也在不断增强。今年,微软宣布将在你观看时使用人工智能来翻译和为 YouTube 视频及其他内容配音。7 月,创作者平台 Vimeo 推出了翻译音频和字幕的工具,并通过人工智能技术复制演讲者的声音来实现这一功能。众多公司也提供语音克隆或人工智能翻译工具(有时两者兼具),其中包括Descript、ElevenLabs、Speechify、Veed、Camb.ai、Captions.ai 和 Akool 等公司,还有一些工具能让你使用可以说几十种语言的人工智能化身来创建视频,比如 HeyGen、Deepbrain AI 等公司的工具。
像 Wav2lip 这样的配音和唇形同步人工智能库,也让初创公司更容易构建这类工具,同时向创作者宣传使用它们能让使用人工智能技术变得更简单,也许成本也更低。(D-ID 新开发的专有模型名为 Rosetta-1,为 AI 视频翻译提供支持。)
D-ID 表示,其新的视频翻译技术将通过 D-ID Studio 及其应用程序编程接口(API)提供。目前提供一个月的试用,更多演示可在其网站上查看。
该公司表示,视频时长可以在 10 秒到 5 分钟之间,文件大小应在 2GB 以下。该功能仅适用于画面中只有一人的情况,并且为了获得最佳效果,此人应始终面向摄像头,面部清晰可见。
推荐阅读
这位创始人不得不训练他的人工智能,不让其对人们搞“瑞克摇”恶作剧。 注释:“Rickroll”指的是一种网络恶作剧,通过误导他人点击链接,最终看到的却是歌手瑞克·阿斯泰尔(Rick Astley)的歌曲《Never Gonna Give You Up》的音乐视频。
ChatGPT:关于这个人工智能驱动的聊天机器人,您需要了解的一切
一位州参议员表示,OpenAI 反对加州的人工智能法案“毫无道理”。
使拜登“深度伪造”骗局得以实现的电信公司将向联邦通信委员会支付 100 万美元。
“Skyfire 让人工智能代理花你的钱”