编译/前方智能
DeepMind 在其官方博客上的一篇文章中表示,他们正在开发用于为视频生成配乐的 AI 技术。DeepMind 将这项技术视为 AI 生成媒体拼图的重要组成部分。
图源:Google DeepMind
虽然目前包括 DeepMind 在内的许多 AI 公司都已经开发了文生视频的 AI 模型,但这些模型无法创建与生成的视频同步的音效。
DeepMind 的这项技术可以创建与视频中的角色和基调相匹配的音乐、音效甚至对话,并由 DeepMind 的深度伪造对抗技术 SynthID 加水印。
DeepMind 表示这个 AI 模型是一个扩散模型,通过对视频、音频和附加注释进行训练,他们的技术学会了将特定的音频事件与各种视觉场景联系起来,同时对注释或转录中提供的信息做出响应。至于使用的训练数据是否受版权保护,DeepMind 并没有在博客中说明。
目前这项技术还并不完美,再加上底层模型没有在大量带有伪影或失真的视频上进行训练,因此它不会为这些视频生成特别高质量的音频。基于这个原因,DeepMind 不会在近期向公众发布这项技术。
来源:TechCrunch