昔日王者Suno被超越，全球首个音乐推理大模型Mureka O1震撼发布！

AI大模型工场原创 2025-03-27 09:20 热度 5727

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：北京

作者｜冰拿铁

编辑｜星奈

媒体｜AI大模型工场

还记得去年全网刷屏的“谢帝谢帝我要Diss你”吗？当下，朋友说要写歌怼你时，别以为他们在过嘴瘾——AI音乐大模型正让每个嘴炮王者动动手指，即可秒变创作鬼才：

随着AI重构音乐创作生态，乐理、和声、编曲等专业鸿沟则正被技术填平，让小白也能爆改“AI音乐家”，用音乐传情达意，无论是“写歌diss你”，还是深情款款的“想把我唱给你听”，都能在AI加持下分分钟实现。基于此，AI音乐也被AIGC行业视为极具潜力的落地场景，相关概念股的市场热度持续水涨船高。

然而，这样一个“大众”赛道，布局者却寥寥无几，尤其是国内，存在巨大空白待填补。好在昆仑万维等头号玩家在产业爆发前夜，即敏锐预判到其潜力，并基于自身在AI、音乐等领域的深耕与积淀，抢先完成占位：

去年四月，昆仑万维发布了第一代音乐生成模型Mureka V1（SkyMusic），并在此后一年持续打磨技术，迭代升级，把“自己卷自己”演绎得淋漓尽致。

3月26日，昆仑万维震撼发布全新基座模型：Mureka V6，并同步发布了全球首个采用 CoT 技术的音乐模型Mureka O1，在强大推理模型赋能下，Mureka O1会在音乐生成过程中加入思考与自我批判，显著提升音乐品质、音乐创作效率和灵活性。

而无论是Mureka V6还是O1模式，可支持的歌曲创作曲风和情绪均涉及20余种，包括爵士/Jazz、电子/electronic、流行/pop、乡村country等；情绪涵盖快乐、放纵、神秘、充满活力、悲伤等，能想到的风格无所不包！

👆🏻Mureka V6进入界面

👆🏻Mureka O1进入界面

这让行业感叹，随着“会思考的AI莫扎特”上线，过去AI音乐生成的“黑箱创作”、节奏断层、风格混乱、乐器编排打架等问题将大幅减少，音乐界终于迎来了自己的“DeepSeek时刻”。

与此同时，《Mureka》AI音乐人MV全网首发，给网友带来一场春日视听盛宴。

《Mureka》AI音乐人MV全网首发，歌手：Mureka；该作品由AI生成，其中音乐由Mureka生成，视频由SkyReels技术支持生成。

那么，“会思考的音乐家”表现如何？我们一起来看看吧！

一、零帧起手、多语言覆盖、“氛围感”BGM神器……“AI音乐家”Mureka强得可怕！

AI时代，不仅音乐无国界，音乐家也没有门槛了！一番体验下来，最惊艳我的是，Mureka上手性强、极易操作，是“零帧起手”的端到端创作神器，支持歌词、作曲、编曲、人声全流程生成，音乐小白也可以将自身情感注入AI生成的框架中，通过简单的流程生成满意的作品，这将极大地拓展音乐创作者群体，让普通人有机会参与到音乐创作中来，促进音乐内容的多样化和个性化。

比如，动动手指，即可给朋友生成一首讲述双方友情的春日诗，暖她一整年~

当开车上高速时，也可以来一首“充满自由气息的仿佛在公路旅行的流行摇滚”，一键拥有独属自己的《Take Me Home, Country Roads》！

再输入“在人来人往的城市里，置身于餐厅中悠闲的品尝美食时播放的爵士歌曲”，就是这么Chill~

EMO时，生成一首“深夜的酒吧在迷幻的灯光下黯然神伤听到的灵魂歌曲”：

半夜失眠，辗转反侧，思念已分手三年的前女友，这时不如化忧伤为音乐，把伤感酿成诗，一键生成“怀念曾经的感情的伤感R&B”：

同时，输入场景描述性Prompt，即可生成与特定场景完美契合的完整背景音乐。比如，选择Mureka V6模型，选择「纯音乐」创作功能，在文本框内输入「Latin song」，点击「创作」，Mureka快速为我们生成一首拉丁风纯音乐，仿佛置身于海滩，感受到热情且惬意的度假氛围。真·氛围感神器！

而对于“提示词词穷”的零基础小白，Mureka还贴心准备了提示词模板，如“一首悠闲浪漫的歌曲，讲述与心上人的深夜对话”一首充满力量的主题曲，强烈的嗓音和鼓舞人心的节拍”……化身用户最强嘴替。

此前很多用户自我调侃，自己用AI时像极了“说不明白诉求的甲方”。而Mureka预判了用户的预判，激活用户潜意识里的灵感，让其直呼“对对对，我就是要这种感觉来着！”

同时，Mureka还有歌曲参考（Reference Fuction）模式，即将音乐本身作为提示，用户可直接上传音频或Youtube链接作为创作提示，让Mureka“有样学样”，最快速度get用户心水歌曲的精髓。

比如，以《知否知否》为参考，上传古诗词歌词，让AI把古诗词《行香子》《漠漠春阴酒半酣》唱出来，结果可见，AI音乐感情充沛、旋律动人，已跨越“可用性”门槛，进入“高音质”阶段，突破了以往AI音乐局限于背景音或机械合成的瓶颈，使得AI音乐从辅助工具升级为创作伙伴，并不断拓展艺术边界，诗乐相和，让古诗词完成多样艺术表达。

也可以玩梗，以《好运来》为参考曲目，给自家张姐麻辣烫店定制店歌。感受下这欢快の小曲，张姐听了瞬间喜笑颜开，立省大额推广费：

当然，在全球化时代，Mureka V6 还支持美欧亚主流10种语言（线上支持中英葡西日韩）的歌词与音乐生成，涵盖多种风格与流派，满足全球用户需求。

👇🏻如下，中文表现可圈可点：

外语歌也不逊色，音色可控且保持一致性，不会让听众“出戏”，在人声音质、自然度等维度，一如既往地维持业内领先的SOTA水平👇🏻

此外，Mureka还支持音轨分离下载，提供音乐生成的独立的人声、伴奏等多轨输出，方便用户后续混音与二次创作，让音乐专业玩家狂喜，开启“无限DIY”模式。

一番体验下来，流程简单、风格多样的Mureka“人如其名”：据悉，Mureka名字的含义是Eureka flows music （尤里卡时刻），其中，Eureka源自希腊语的感叹词，意为我发现了，常用于表达灵感喷涌的时刻。

如今，Mureka加持下，每个创作者、音乐爱好者都能不断迎接自己的“尤里卡时刻”，并在音乐灵感爆发时快速将其落地，并创作出属于自己风格的歌曲。

那么，让用户实现“音乐自由”背后，有着哪些硬核技术支撑？

二、极致体验背后：AI音乐的SOTA级玩家，带来哪些技术颠覆？

在技术上，Mureka以先行者和领头羊的姿态打出明牌。此前，业界关于音乐领域的算法工作非常少，只有少数几个团队公开了自己的工作成果。而此次，Mureka团队以论文形式公开了Mureka O1的实现原理：👇🏻

项目主页：MusiCoT.github.io

具体而言，作为中国首个实现音乐AIGC SOTA的大模型，Mureka集成了在自然语言处理和音频生成技术上的最新突破，使得AI音乐创作表现达到新高度：

其中，在Mureka V6中，引入自研 ICL（in-context learning）技术，使得声场更加开阔，人声质感和混音设计进一步强化。当然，重头戏还在后面，即首次在音乐生成领域应用先进的Chain-of-Thought（CoT）技术的Mureka O1，让AI音乐神器化身“会思考的AI莫扎特”：

Mureka O1 是基于 Mureka V6 之上的推理优化版本，包含了Mureka团队最新发布的音乐生成领域的创新研究成果——MusiCoT，采取思维链Chain-of-Thought （CoT）方法。不同于传统自回归模型逐步生成音频，MusiCoT首次在细粒度音频token预测前预生成整体音乐结构，大幅提升生成音乐的结构连贯性与乐器编排精准度。

通俗地说，不会深度思考推理的AI音乐模型像没有图纸的施工队，直接开始砌砖头，逐段生成音乐片段，容易导致副歌和主歌风格不搭、鼓点突然消失等问题，就像房子盖到一半发现厕所没留水管。

思维链则爆改流程为“先通过缜密思考，画个蓝图再施工”，规划整首歌的“结构蓝图”，比如前奏用钢琴引入，主歌部分加入贝斯，副歌叠加弦乐和鼓，间奏来段吉他solo……相当于先确定哪里是客厅、哪里是卧室，再基于架构逐块生成具体旋律。就像按图纸精准施工，确保每个乐器的出现时机、音量大小都严丝合缝，避免了传统模型“打架子鼓时突然插进唢呐”的违和感，减少错拍、乐器冲突等车祸现场，特别适合需要精细控制结构的商用创作，比如游戏配乐或影视OST。

如此一来，通过逐步反馈与优化机制，Mureka显著提升了歌词旋律契合度、演唱准确性和艺术表现力，同时保持了低延时音乐生成。

同时，MusiCoT基于CLAP模型，无需人工标注即具备高扩展性，并显著提高了生成音乐的可解释性和质量，让AI进化成“举一反三的作曲小天才”。

如今，Mureka O1在与Suno V4等主流系统的客观评测中表现卓越，不仅保持了低延迟音乐生成，还显著提升了歌词旋律契合度、演唱准确性和艺术表现力，在发音唱对率、乐段准确率、文本相关度、制作质量等客观指标中，Mureka V6都显著优于Suno V4。

👆🏻Mureka O1在文本生成音乐的客观测评中得分（来源：Mureka官方测评）

当然，音乐作为“灵魂按摩器”，最重要的还是听感。在最新的音乐评测中，Mureka O1展现出卓越的音乐品质，在最终的整体听感评测超过了Suno V4。其中，Mureka O1在乐器演奏法多样性和配器设计方面明显超越Suno V4，在音质、人声质感及BGM质感上也实现了显著提升。

👆🏻Mureka O1在主观测评中展现出卓越的音乐品质，整体听感评测超越Suno V4（来源：Mureka官方测评）

没有实感？放一个Mureka O1与Suno V4的对比，自行感受“降维打击”级音质：

悦耳无需多言！综上所述，MusiCoT正为高保真AI音乐生成开辟全新路径，推动音乐AI创作迈入结构化时代。

三、用户价值、商业价值两开花：以音乐为媒，构建“数字巴别塔”！

值得一提的是，除了遥遥领先的音质外，Mureka还是全球首个开放API服务的AI音乐生成平台。秉承“期待AI音乐能在多种场景下创造更大的价值”的愿景，Mureka同时开放两大类共计五种API服务，不仅包括音乐音频生成API（两种），还有语音合成API（三种）。无论是开发者，还是音乐平台，都可以将Mureka的音乐生成能力无缝集成到自己的产品或平台中，应用AI音乐功能拓展自己的商业价值。

对于企业而言，Mureka可以辅助音乐、视频、播客、广告等场景中的UGC/PGC音乐创作，让企业以极低的成本，用自己创作的版权音乐，训练属于自己的音乐模型，用于发布会、宣传MV等商业场景，降本增效；

而对于个人创作者来说，创造力将进一步得到释放。正如《AI红利：创作者解锁万亿市场》中指出，创意将是AI时代最好的生意，AI必将重塑创作者经济，解锁一个万亿规模的蓝海市场——AI淘汰的是机器式创作，但会放大人类独有的创造力：“未来最好的行业将是内容行业，那些具备思想深度、情感共鸣能力和文化洞察力的创作者，将借助AI工具释放更大的创造力，成为新时代的赢家。”

这和昆仑万维战略思路不谋而合。昆仑万维对音乐领域AIGC的探索，早在2021年就已经开始。昆仑万维董事长兼CEO方汉认为，AI音乐生成技术的出现，并不是为了“切走音乐行业的蛋糕”，而是使非专业人士也能轻松创作出具有一定水准的音乐作品，提高行业整体的生产力和创新能力。

基于此，昆仑万维喊出“All in AGI与AIGC”——早在2022年12月时，昆仑万维就正式发布了「昆仑天工」AIGC全系列算法与模型，并宣布模型开源，成为国内第一个全身心投入到AIGC开源社区的公司。从音乐到视频进行大量研发投入，目的就是降低创作门槛，实现通用人工智能，让每个人更好地塑造和表达自我。

这也符合行业发展的大势所趋，即从“狂卷基础模型”到“落地为王”。如今，以AI音乐为代表的AIGC势不可挡，存在巨大产业蓝海：在我国，《2024中国音乐产业发展总报告》显示，2023年中国数字音乐产业规模达到893.45亿元，中国网络音乐用户规模达到7.26亿。政策层面，《“十四五”文化产业发展规划》明确提出，推动人工智能技术与文化创作、传播、消费深度融合，促进文化产业的智能化转型，释放利好信号；

放眼全球，根据Fortune Business Insights数据，2023年全球数字音频工作站（DAW, Digital Audio Workstation）市场规模高达约30亿美元，预计2026年约70%的DAW企业将使用AI技术辅助音乐创作。

这也在Mureka的用户群体中得到了验证，目前，有超过 100 个国家和地区的用户用Mureka。值得一提的是，作为最早开拓海外市场的中国企业之一，昆仑万维当前业务已覆盖全球一百多个国家和地区，全球平均月活跃用户近4亿，覆盖AGI与AIGC、信息分发、元宇宙、社交娱乐及游戏等多个领域，让行业看到了昆仑万维“以AIGC为媒，构建数字巴别塔”的潜力：

在西方传说中，人类在洪水之后试图建造一座“通天塔”，然而，由于语言多样性带来的隔阂，人类由言语不通演变成相互起了冲突，最终“高耸入云的塔轰然倒塌”。

而如今，AI时代，新的“数字巴别塔”在人类精神平原上重新矗立——前有DeepSeek以开源促进AI普惠浪潮涌动、让世界惊叹“中国时刻”，后有昆仑万维以前沿技术为桨，以音乐等世界通用语言为帆，“浮舟沧海，立马昆仑”，探索AIGC应用边界。一言以蔽之，头部企业正立足中国、扬帆世界，驶向人类文明融合互鉴的新彼岸。

文中音频试听及视频链接：https://mp.weixin.qq.com/s/mr0SyBi4TLbKYAaN0D9-DA

推理艺术音乐

陀螺科技现已开放专栏入驻，详情请见入驻指南： https://www.tuoluo.cn/article/detail-27547.html

AI大模型工场专栏： https://www.tuoluo.cn/columns/author1911862/

本文网址： https://www.tuoluo.cn/article/detail-10120936.html

免责声明：
1、本文版权归原作者所有，仅代表作者本人观点，不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

上一篇：查“老鼠仓”、曝做市商，币安打响反腐第一枪？

下一篇：我在互联网“挖线索”，靠信息差赚大钱