在此前的“斯嘉丽·约翰逊语音侵权争议”后,OpenAI终于宣布于本周开始推出ChatGPT的高级语音模式,让用户得以首次访问GPT-4o的超现实音频响应。OpenAI表示,Alpha版本将于今天提供给部分ChatGPT Plus用户,该功能将在2024年秋季逐步向所有Plus用户推出。
图源:OpenAI
据悉,GPT-4o语音模式与目前可用的ChatGPT语音模式不同。ChatGPT的旧音频解决方案使用三个独立的模型:一个将语音转换为文本,GPT-4处理提示,第三个将ChatGPT的文本转换为语音。
而GPT-4o是多模态的,能够在没有辅助模型的帮助下处理这些任务,从而显著降低了会话的延迟。此外,OpenAI还声称GPT-4o可以感知声音中的情绪语调,包括悲伤、兴奋或唱歌。
在过去的几个月中,OpenAI已经与100多名会说45种不同语言的外部团队成员一起测试了GPT-4o的语音功能,相关安全措施报告将于8月初发布。而在Alpha版本推出后,OpenAI也将密切监控其使用情况。获得Alpha测试资格的用户将在ChatGPT应用程序中收到通知和一封电子邮件,其中包含GPT-4o的使用说明。
OpenAI表示,高级语音模式将仅限于ChatGPT与付费配音演员合作制作的四种预设语音- Juniper,Breeze,Cove和Ember。OpenAI在5月演示中展示的Sky语音已不再可用。公司代表对此表示:“ChatGPT不能模仿其他人(无论是个人还是公众人物)的声音,并且会阻止与这些预设声音不同的输出。”
OpenAI还称,公司引入了新的过滤器来阻止某些生成音乐或其他受版权保护的音频的请求,防止出现与Suno和Udio类似的因侵犯版权而陷入法律麻烦。