AI初创公司Stability AI近日发布了Stable Audio Open 1.0,以进一步扩大其在音频市场的影响力。
图源:Stability AI
据悉,Stable Audio Open 1.0是此前推出的商业Stable Audio产品的开源版本。2023年9月,Stability AI首次公开推出Stable Audio,产品定位为一款文本到音频的AI生成工具,而后又于今年4月3日发布Stable Audio 2.0,在生成的音频清晰度和长度上都实现了突破。
与Stable Audio不同的是,Stable Audio Open是一个开源版本,专注于创建鼓节拍,乐器即兴重复,环境声音和其他用于音乐制作和声音设计的音频样本,可根据提供的文本提示生成长达47秒的样本、音效和制作元素。
值得注意的是,Stable Audio Open无法生成逼真的人声,其目的不是创建完整的歌曲,而是将重点放在在较短的音频片段上,同时,由于模型在英文文本描述上进行训练,因此在其他语言中的表现不佳,由于训练数据集的偏差,模型也无法为所有音乐风格提供相同质量的输出。