昔日王者Suno被超越,全球首个音乐推理大模型Mureka O1震撼发布!

IP归属:北京

作者|冰拿铁

编辑|星奈

媒体|AI大模型工场

还记得去年全网刷屏的“谢帝谢帝我要Diss你”吗?当下,朋友说要写歌怼你时,别以为他们在过嘴瘾——AI音乐大模型正让每个嘴炮王者动动手指,即可秒变创作鬼才:

随着AI重构音乐创作生态,乐理、和声、编曲等专业鸿沟则正被技术填平,让小白也能爆改“AI音乐家”,用音乐传情达意,无论是“写歌diss你”,还是深情款款的“想把我唱给你听”,都能在AI加持下分分钟实现。基于此,AI音乐也被AIGC行业视为极具潜力的落地场景,相关概念股的市场热度持续水涨船高。

然而,这样一个“大众”赛道,布局者却寥寥无几,尤其是国内,存在巨大空白待填补。好在昆仑万维等头号玩家在产业爆发前夜,即敏锐预判到其潜力,并基于自身在AI、音乐等领域的深耕与积淀,抢先完成占位:

去年四月,昆仑万维发布了第一代音乐生成模型Mureka V1(SkyMusic),并在此后一年持续打磨技术,迭代升级,把“自己卷自己”演绎得淋漓尽致。

3月26日,昆仑万维震撼发布全新基座模型:Mureka V6,并同步发布了全球首个采用 CoT 技术的音乐模型Mureka O1,在强大推理模型赋能下,Mureka O1会在音乐生成过程中加入思考与自我批判,显著提升音乐品质、音乐创作效率和灵活性。

而无论是Mureka V6还是O1模式,可支持的歌曲创作曲风和情绪均涉及20余种,包括爵士/Jazz、电子/electronic、流行/pop、乡村country等;情绪涵盖快乐、放纵、神秘、充满活力、悲伤等,能想到的风格无所不包!

👆🏻Mureka V6进入界面

👆🏻Mureka O1进入界面

这让行业感叹,随着“会思考的AI莫扎特”上线,过去AI音乐生成的“黑箱创作”、节奏断层、风格混乱、乐器编排打架等问题将大幅减少,音乐界终于迎来了自己的“DeepSeek时刻”。

与此同时,《Mureka》AI音乐人MV全网首发,给网友带来一场春日视听盛宴。

《Mureka》AI音乐人MV全网首发,歌手:Mureka;该作品由AI生成,其中音乐由Mureka生成,视频由SkyReels技术支持生成。

那么,“会思考的音乐家”表现如何?我们一起来看看吧!

一、零帧起手、多语言覆盖、“氛围感”BGM神器……“AI音乐家”Mureka强得可怕!

AI时代,不仅音乐无国界,音乐家也没有门槛了!一番体验下来,最惊艳我的是,Mureka上手性强、极易操作,是“零帧起手”的端到端创作神器,支持歌词、作曲、编曲、人声全流程生成,音乐小白也可以将自身情感注入AI生成的框架中,通过简单的流程生成满意的作品,这将极大地拓展音乐创作者群体,让普通人有机会参与到音乐创作中来,促进音乐内容的多样化和个性化。

比如,动动手指,即可给朋友生成一首讲述双方友情的春日诗,暖她一整年~

当开车上高速时,也可以来一首“充满自由气息的仿佛在公路旅行的流行摇滚”,一键拥有独属自己的《Take Me Home, Country Roads》!

再输入“在人来人往的城市里,置身于餐厅中悠闲的品尝美食时播放的爵士歌曲”,就是这么Chill~

EMO时,生成一首“深夜的酒吧在迷幻的灯光下黯然神伤听到的灵魂歌曲”:

半夜失眠,辗转反侧,思念已分手三年的前女友,这时不如化忧伤为音乐,把伤感酿成诗,一键生成“怀念曾经的感情的伤感R&B”:

同时,输入场景描述性Prompt,即可生成与特定场景完美契合的完整背景音乐。比如,选择Mureka V6模型,选择「纯音乐」创作功能,在文本框内输入「Latin song」,点击「创作」,Mureka快速为我们生成一首拉丁风纯音乐,仿佛置身于海滩,感受到热情且惬意的度假氛围。真·氛围感神器!

而对于“提示词词穷”的零基础小白,Mureka还贴心准备了提示词模板,如“一首悠闲浪漫的歌曲,讲述与心上人的深夜对话”一首充满力量的主题曲,强烈的嗓音和鼓舞人心的节拍”……化身用户最强嘴替。

此前很多用户自我调侃,自己用AI时像极了“说不明白诉求的甲方”。而Mureka预判了用户的预判,激活用户潜意识里的灵感,让其直呼“对对对,我就是要这种感觉来着!”

同时,Mureka还有歌曲参考(Reference Fuction)模式,即将音乐本身作为提示,用户可直接上传音频或Youtube链接作为创作提示,让Mureka“有样学样”,最快速度get用户心水歌曲的精髓。

比如,以《知否知否》为参考,上传古诗词歌词,让AI把古诗词《行香子》《漠漠春阴酒半酣》唱出来,结果可见,AI音乐感情充沛、旋律动人,已跨越“可用性”门槛,进入“高音质”阶段,突破了以往AI音乐局限于背景音或机械合成的瓶颈,使得AI音乐从辅助工具升级为创作伙伴,并不断拓展艺术边界,诗乐相和,让古诗词完成多样艺术表达。

也可以玩梗,以《好运来》为参考曲目,给自家张姐麻辣烫店定制店歌。感受下这欢快の小曲,张姐听了瞬间喜笑颜开,立省大额推广费:

当然,在全球化时代,Mureka V6 还支持美欧亚主流10种语言(线上支持中英葡西日韩)的歌词与音乐生成,涵盖多种风格与流派,满足全球用户需求。

👇🏻如下,中文表现可圈可点:

外语歌也不逊色,音色可控且保持一致性,不会让听众“出戏”,在人声音质、自然度等维度,一如既往地维持业内领先的SOTA水平👇🏻

此外,Mureka还支持音轨分离下载,提供音乐生成的独立的人声、伴奏等多轨输出,方便用户后续混音与二次创作,让音乐专业玩家狂喜,开启“无限DIY”模式。

一番体验下来,流程简单、风格多样的Mureka“人如其名”:据悉,Mureka名字的含义是Eureka flows music (尤里卡时刻),其中,Eureka源自希腊语的感叹词,意为我发现了,常用于表达灵感喷涌的时刻。

如今,Mureka加持下,每个创作者、音乐爱好者都能不断迎接自己的“尤里卡时刻”,并在音乐灵感爆发时快速将其落地,并创作出属于自己风格的歌曲。

那么,让用户实现“音乐自由”背后,有着哪些硬核技术支撑?

二、极致体验背后:AI音乐的SOTA级玩家,带来哪些技术颠覆?

在技术上,Mureka以先行者和领头羊的姿态打出明牌。此前,业界关于音乐领域的算法工作非常少,只有少数几个团队公开了自己的工作成果。而此次,Mureka团队以论文形式公开了Mureka O1的实现原理:👇🏻

项目主页:MusiCoT.github.io

具体而言,作为中国首个实现音乐AIGC SOTA的大模型,Mureka集成了在自然语言处理和音频生成技术上的最新突破,使得AI音乐创作表现达到新高度:

其中,在Mureka V6中,引入自研 ICL(in-context learning)技术,使得声场更加开阔,人声质感和混音设计进一步强化。当然,重头戏还在后面,即首次在音乐生成领域应用先进的Chain-of-Thought(CoT)技术的Mureka O1,让AI音乐神器化身“会思考的AI莫扎特”:

Mureka O1 是基于 Mureka V6 之上的推理优化版本,包含了Mureka团队最新发布的音乐生成领域的创新研究成果——MusiCoT,采取思维链Chain-of-Thought (CoT)方法。不同于传统自回归模型逐步生成音频,MusiCoT首次在细粒度音频token预测前预生成整体音乐结构,大幅提升生成音乐的结构连贯性与乐器编排精准度。

通俗地说,不会深度思考推理的AI音乐模型像没有图纸的施工队,直接开始砌砖头,逐段生成音乐片段,容易导致副歌和主歌风格不搭、鼓点突然消失等问题,就像房子盖到一半发现厕所没留水管。

思维链则爆改流程为“先通过缜密思考,画个蓝图再施工”,规划整首歌的“结构蓝图”,比如前奏用钢琴引入,主歌部分加入贝斯,副歌叠加弦乐和鼓,间奏来段吉他solo……相当于先确定哪里是客厅、哪里是卧室,再基于架构逐块生成具体旋律。就像按图纸精准施工,确保每个乐器的出现时机、音量大小都严丝合缝,避免了传统模型“打架子鼓时突然插进唢呐”的违和感,减少错拍、乐器冲突等车祸现场,特别适合需要精细控制结构的商用创作,比如游戏配乐或影视OST。

如此一来,通过逐步反馈与优化机制,Mureka显著提升了歌词旋律契合度、演唱准确性和艺术表现力,同时保持了低延时音乐生成。

同时,MusiCoT基于CLAP模型,无需人工标注即具备高扩展性,并显著提高了生成音乐的可解释性和质量,让AI进化成“举一反三的作曲小天才”。

如今,Mureka O1在与Suno V4等主流系统的客观评测中表现卓越,不仅保持了低延迟音乐生成,还显著提升了歌词旋律契合度、演唱准确性和艺术表现力,在发音唱对率、乐段准确率、文本相关度、制作质量等客观指标中,Mureka V6都显著优于Suno V4

👆🏻Mureka O1在文本生成音乐的客观测评中得分(来源:Mureka官方测评)

当然,音乐作为“灵魂按摩器”,最重要的还是听感。在最新的音乐评测中,Mureka O1展现出卓越的音乐品质,在最终的整体听感评测超过了Suno V4。其中,Mureka O1在乐器演奏法多样性和配器设计方面明显超越Suno V4,在音质、人声质感及BGM质感上也实现了显著提升。

👆🏻Mureka O1在主观测评中展现出卓越的音乐品质,整体听感评测超越Suno V4(来源:Mureka官方测评)

没有实感?放一个Mureka O1与Suno V4的对比,自行感受“降维打击”级音质:

悦耳无需多言!综上所述,MusiCoT正为高保真AI音乐生成开辟全新路径,推动音乐AI创作迈入结构化时代。

三、用户价值、商业价值两开花:以音乐为媒,构建“数字巴别塔”!

值得一提的是,除了遥遥领先的音质外,Mureka还是全球首个开放API服务的AI音乐生成平台。秉承“期待AI音乐能在多种场景下创造更大的价值”的愿景,Mureka同时开放两大类共计五种API服务,不仅包括音乐音频生成API(两种),还有语音合成API(三种)。无论是开发者,还是音乐平台,都可以将Mureka的音乐生成能力无缝集成到自己的产品或平台中,应用AI音乐功能拓展自己的商业价值。

对于企业而言,Mureka可以辅助音乐、视频、播客、广告等场景中的UGC/PGC音乐创作,让企业以极低的成本,用自己创作的版权音乐,训练属于自己的音乐模型,用于发布会、宣传MV等商业场景,降本增效;

而对于个人创作者来说,创造力将进一步得到释放。正如《AI红利:创作者解锁万亿市场》中指出,创意将是AI时代最好的生意,AI必将重塑创作者经济,解锁一个万亿规模的蓝海市场——AI淘汰的是机器式创作,但会放大人类独有的创造力:“未来最好的行业将是内容行业,那些具备思想深度、情感共鸣能力和文化洞察力的创作者,将借助AI工具释放更大的创造力,成为新时代的赢家。”

这和昆仑万维战略思路不谋而合。昆仑万维对音乐领域AIGC的探索,早在2021年就已经开始。昆仑万维董事长兼CEO方汉认为,AI音乐生成技术的出现,并不是为了“切走音乐行业的蛋糕”,而是使非专业人士也能轻松创作出具有一定水准的音乐作品,提高行业整体的生产力和创新能力。

基于此,昆仑万维喊出“All in AGI与AIGC”——早在2022年12月时,昆仑万维就正式发布了「昆仑天工」AIGC全系列算法与模型,并宣布模型开源,成为国内第一个全身心投入到AIGC开源社区的公司。从音乐到视频进行大量研发投入,目的就是降低创作门槛,实现通用人工智能,让每个人更好地塑造和表达自我。

这也符合行业发展的大势所趋,即从“狂卷基础模型”到“落地为王”。如今,以AI音乐为代表的AIGC势不可挡,存在巨大产业蓝海:在我国,《2024中国音乐产业发展总报告》显示,2023年中国数字音乐产业规模达到893.45亿元,中国网络音乐用户规模达到7.26亿。政策层面,《“十四五”文化产业发展规划》明确提出,推动人工智能技术与文化创作、传播、消费深度融合,促进文化产业的智能化转型,释放利好信号;

放眼全球,根据Fortune Business Insights数据,2023年全球数字音频工作站(DAW, Digital Audio Workstation)市场规模高达约30亿美元,预计2026年约70%的DAW企业将使用AI技术辅助音乐创作。

这也在Mureka的用户群体中得到了验证,目前,有超过 100 个国家和地区的用户用Mureka。值得一提的是,作为最早开拓海外市场的中国企业之一,昆仑万维当前业务已覆盖全球一百多个国家和地区,全球平均月活跃用户近4亿,覆盖AGI与AIGC、信息分发、元宇宙、社交娱乐及游戏等多个领域,让行业看到了昆仑万维“以AIGC为媒,构建数字巴别塔”的潜力:

在西方传说中,人类在洪水之后试图建造一座“通天塔”,然而,由于语言多样性带来的隔阂,人类由言语不通演变成相互起了冲突,最终“高耸入云的塔轰然倒塌”。

而如今,AI时代,新的“数字巴别塔”在人类精神平原上重新矗立——前有DeepSeek以开源促进AI普惠浪潮涌动、让世界惊叹“中国时刻”,后有昆仑万维以前沿技术为桨,以音乐等世界通用语言为帆,“浮舟沧海,立马昆仑”,探索AIGC应用边界。一言以蔽之,头部企业正立足中国、扬帆世界,驶向人类文明融合互鉴的新彼岸。

文中音频试听及视频链接:https://mp.weixin.qq.com/s/mr0SyBi4TLbKYAaN0D9-DA

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

AI大模型工场专栏: https://www.tuoluo.cn/columns/author1911862/

本文网址: https://www.tuoluo.cn/article/detail-10120936.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章