DeepMind的新人工智能为视频生成配乐和对话

AI7号2024-06-171718

Chat中文镜像

DeepMind,谷歌的人工智能研究实验室,表示正在开发人工智能技术,用于为视频生成配乐。

DeepMind在官方博客上表示,它认为V2A技术(即“视频转音频”)是AI生成媒体拼图中的一个重要组成部分。尽管包括DeepMind在内的许多机构已经开发了视频生成的AI模型,但这些模型不能创造与它们生成的视频同步的音效。

DeepMind写道:“视频生成模型正在以惊人的速度发展,但许多当前系统只能生成无声输出。V2A技术可能成为将生成的电影变得生动起来的一种有希望的方法。”

DeepMind的V2A技术通过对声音描述(例如“水下海蜇脉动,海洋生物,海洋”)与视频进行配对,创造与视频中角色和情感相匹配的音乐、音效甚至对话,使用DeepMind的SynthID技术进行水印处理,以应对深度伪造现象。DeepMind表示,驱动V2A的人工智能模型是一种扩散模型,经过对声音和对话文本以及视频片段的组合进行训练。

根据DeepMind称:“通过在视频、音频和额外的注释上进行训练,我们的技术学会将特定的音频事件与不同的视觉场景联系起来,并在回应注释或文字稿提供的信息的同时进行学习。”

关于训练数据是否受版权保护以及数据的创建者是否被通知了DeepMind的工作,目前还没有消息。我们已经联系了DeepMind澄清情况,如果他们回复了我们,我们会更新这篇文章。

基于人工智能的声音生成工具并不是什么新鲜事物。初创公司Stability AI上周刚发布了一个,而ElevenLabs在五月份也推出了一个。而用于制作视频音效的模型也不少。微软的一个项目可以从静止图像生成说话和唱歌的视频,而像Pika和GenreX这样的平台已经训练出模型,能够从视频中猜测出在特定场景中适合的音乐或效果。

但DeepMind声称,其V2A技术独特之处在于它能够理解视频中的原始像素,并自动将生成的声音与视频同步,可选择不使用描述。

V2A并不完美,DeepMind也承认这一点。因为底层模型没有在大量带有伪影或失真的视频上训练过,所以对这些视频生成的音频质量并不特别高。总的来说,生成的音频并不十分令人信服;我的同事Natasha Lomas形容它为“一堆老套的声音”,我也不能不同意。

因此,为了防止滥用,DeepMind表示不会立即或可能永远不会将这项技术发布给公众。

“为了确保我们的V2A技术对创意社区产生积极影响,我们正在收集来自顶尖创作者和电影制作人的多元视角和见解,并利用这些宝贵的反馈信息来指导我们持续的研究和开发,”DeepMind写道。“在我们考虑向更广泛的公众开放访问之前,我们的V2A技术将经过严格的安全评估和测试。”

DeepMind将其V2A技术推销为特别适用于档案馆员和处理历史影像的人。但是,沿着这些方向的生成式人工智能也会威胁到电影和电视行业。需要一些严格的劳工保护措施,以确保生成式媒体工具不会消灭工作岗位,甚至是整个专业。