Meta推出首个支持语音文字同时输入的AI音频生成模型“Audiobox”

IP归属:广东

编译/VR陀螺

近日,Meta发布了最新的AI音频生成模型“Audiobox”。该模型以Meta6月发布的Voicebox框架为基础开发,能生成各种环境及风格的语音、音效,同时整合了生成、编辑能力,以及多种输入机制,增强了对不同应用场景的声音控制能力。

图源:Meta

在Meta看来,Audiobox是第一个可接受语音及文字描述来改造声音的模型。通过Audiobox,用户可以运用自然语言文字提示描述想要的声音或语音类型,例如可输入“流水环境中的鸟叫声”等文字信息生成场景音效,或是输入“高声调、快节奏讲话的年轻女性”生成人声。 此外,用户还可以输入人声及文字信息,合成在指定环境下带有情绪起伏的一段对话。

Audiobox目前已经开放向特定研究人员及学术界试用,以测试模型质量及安全伦理性,未来几周后还将通过网页开放试用申请。

来源:ai.meta

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

VR陀螺专栏: https://www.tuoluo.cn/columns/author1286744/

本文网址: https://www.tuoluo.cn/article/detail-10110652.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章