为什么在2025年,大厂必须下注世界模型?

IP归属:北京

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

作者|西梅汁

编辑|星奈

媒体|AI大模型工场

 

过去,AI 行业的关注点几乎都集中在大语言模型上:从 ChatGPT 引爆全球,到国内外大厂纷纷追赶,参数规模、功能体验不断拉高。但随着同质化加剧,行业开始面临一个问题,语言模型之外,下一个真正高门槛、能构筑护城河的方向在哪里?

近期的答案似乎逐渐浮出水面:世界模型。在短短一个月里,谷歌 DeepMind、昆仑万维、腾讯先后亮出最新成果,把“理解语言”拓展为“理解世界”。这种同步动作背后,既是技术演进的自然结果,也是产业竞争的战略选择。

01

谷歌、昆仑万维与腾讯的“世界模型月”

 

“世界模型”领域正变得热闹起来。

8 月 5 日,谷歌 DeepMind 发布了第三代世界模型 Genie 3,这是首个支持实时交互的世界模型。用户只需要输入文本提示,Genie 3 就能以每秒 24 帧的速度,实时生成一个可以自由探索的动态世界。比如输入“一片海边的黄昏,有小船和海鸥,可以走动观看。”

此前的世界模型,虽然也能生成场景,但大多是静态的,或者只能支持短时间的交互。Genie 3 则将单次交互时长从几十秒延长到数分钟,并加入了 “可提示的世界事件” 和 “视觉记忆” 等关键特性。用户在场景里留下的痕迹,比如涂鸦、移动的家具等,都会被保留下来,极大提升了真实感。

在发布 Genie 3 的同时,在发布 Genie 3 的同时,谷歌强调了其在机器人训练、自动驾驶仿真等领域的潜在价值,并指出这类世界模型可为 AI 智能体提供虚拟环境进行学习和交互,谷歌希望借此构建一个大规模的智能体训练平台。

仅仅一周之后,昆仑万维也推出了自己的世界模型 Matrix Game 2.0。与 Genie 3 相比,Matrix Game 2.0 的最大亮点在于全面开源,开发者可以直接将其集成到自己的项目中。昆仑万维称,这是业内首个在通用场景中实现实时长序列交互生成的开源世界模型。

Matrix Game 2.0 的性能也十分出色,能够以 25FPS 的速度,在多种复杂场景中稳定生成连续视频内容,生成时长可扩展至分钟级。用户可以通过简单指令,自由探索、操控并实时构建虚拟环境。

比如输入:“一座漂浮的岛屿上有瀑布和小屋,夜空中繁星与行星闪耀,整体采用动漫风格,细节丰富,色彩鲜艳,营造出充满魔法气息的氛围”。

模型就能生成 25fps 的流畅画面,你用键盘操作角色时,它会做出符合物理逻辑的反应,比如绕开障碍、跨越台阶,而不是随机跳动。技术上,它结合了 3D 因果 VAE 与扩散 Transformer,并用 GTA5 与 Unreal Engine 搭建了 1350 小时交互视频数据集,保证了动作的合理性和场景的多样性。更重要的是,它在 8 月份开源,意味着研究者和开发者可以直接调用,在 VR、影视、甚至元宇宙内容创作中探索落地。

还有,在 2025 年 WAIC 上,腾讯正式发布并开源了混元 3D 世界模型 1.0(HunyuanWorld-1.0)。它是业内首个同时具备 沉浸漫游、交互和物理仿真 能力的开源 3D 世界生成模型。

该模型融合了全景视觉生成与分层 3D 重建技术,支持文本或图像输入,可在几分钟内生成高质量、风格多样的 360° 虚拟场景。生成的世界支持对象级解耦与交互,并能导出标准 3D Mesh 格式,兼容 Unity、Unreal Engine、Blender 等主流工具,从而满足 游戏、虚拟演出、沉浸式社交及科研仿真的应用需求。

混元 3D 世界模型的推出与腾讯在游戏和虚拟内容上的业务积累高度相关。在未来的应用中,它可能被用于构建沉浸式场景、虚拟演出或互动社交环境。比如输入:“一间日式风格的木屋,内部摆放茶具,可以从室外走进室内。

模型会生成一个 360° 可探索的空间,不仅能围绕木屋,还能看到其内部,与茶具互动。它通过“分层 3D 重建”技术,既保证了全景一致性,又支持对象级别的交互,而且生成的场景可直接导入主流 3D 引擎,快速转化为标准化资产。在7月正式开源后,8月中旬腾讯又推出了 Lite 版,让消费级显卡也能运行,显示出其扩大开发者生态的意图。

02

从语言到世界

 

世界模型为何会在此时成为“大厂必争之地”?

从技术逻辑看,LLM赛道已经高度内卷。近年来,几乎所有主流大厂都推出了百亿、千亿参数的语言模型,功能趋同,差异化有限。即便是ChatGPT、Claude、文心、通义、Kimi等产品,在文本问答、写作辅助上的体验差距逐渐缩小。行业迫切需要一个更高壁垒的方向。而三维环境推理、物理世界建模,正是这种“更高门槛”。

所谓“世界模型”,核心是让AI不仅能理解静态的数据,还能模拟现实世界的动态过程。它既包含对空间、物体、人物的建模,也涉及因果关系和物理规律的学习。DeepMind在2023年就提出,世界模型是实现具身智能的前提,因为机器人必须在脑中“预测下一秒会发生什么”,才能做出正确动作。

当然,推动这一方向走向前台的,可能还有现实的产业需求。

在机器人领域,真实环境下的训练成本极高。一台机械臂学习“抓起物体”的任务,可能需要上千次失败实验。世界模型提供虚拟环境,让机器人先在仿真里试错,再迁移到现实,大幅降低成本。

在自动驾驶场景,复杂路况和长尾情况是研发难点。世界模型可以生成各种极端天气、复杂交通的虚拟场景,用于补充真实道路数据。特斯拉在 2024 年披露,其 FSD 系统每天生成数十亿公里虚拟驾驶数据,仿真平台已成为必要环节。

在游戏行业,AI 原生游戏的探索正在进行。传统游戏依赖人工设计关卡和剧情,而世界模型可以通过自然语言提示生成场景、角色和交互。Matrix Game 就是这一方向的代表。对开发者而言,这意味着开发周期缩短,对玩家而言,则可能获得更具开放性的体验。

影视、虚拟现实、元宇宙 等领域,也开始尝试用世界模型生成大规模动态场景。

对大厂来说,这不仅是应用驱动,也是壁垒所在。训练一个高保真世界模型的算力消耗,往往是比同规模语言模型高的。高质量三维动态数据远比文本、图像稀缺。英伟达 Cosmos 的参数规模虽只有 14B,但使用了 2000 万小时真实世界交互和工业数据。资源门槛和技术复杂度,让世界模型成为大厂优势能够发挥的方向。

总的来看,三家公司切入点各不相同:

DeepMind 更偏科研导向,把 Genie 与智能体框架 AgentWorlds 结合,用于大规模训练。

而昆仑万维依托游戏业务,主攻“AI原生游戏”,并借开源吸引开发者。

腾讯则强调工具化,结合游戏、社交生态,未来可能扩展到机器人研究。

不同路径背后,是相似的逻辑:在语言模型趋同之后,寻找新的高门槛赛道。

 

03

长期豪赌,长线博弈

 

世界模型距离大规模落地还有不短的距离。

即使是DeepMind、腾讯这样的公司,也承认训练 Genie 3、混元 3D 的资源消耗巨大。DeepMind在论文里指出,Genie 3 在复杂场景下的稳定性仍有限。腾讯则表示,混元 3D 的训练成本相当于两套大语言模型。

三维动态数据难以获取。大多数团队依赖合成或引擎生成,但能否无缝迁移到现实,仍是未知数。OpenAI Robotics 的研究就发现,虚拟环境里的表现往往无法直接映射到真实机器人。

当前产品多为演示或实验性。Matrix Game 2.0 能生成任务和角色,但仍远未形成规模化用户市场。自动驾驶仿真仍需真实道路补充。机器人在虚拟环境学到的技能,迁移成功率有限。

这些不确定性,决定了世界模型是一场高投入、长周期的豪赌。研发一个中等规模世界模型,每年投入可能高达数亿美元。但对大厂而言,风险在于不下注。若未来十年,机器人、自动驾驶、虚拟世界确实以世界模型为基础,那么提前缺席意味着失去定义入口的机会。

因此我们看到,谷歌、昆仑万维、腾讯几乎在同一时间亮相。这未必意味着立刻能带来收入,但已经成为它们战略叙事的一部分。

在行业中,世界模型也频繁被提到。英伟达 CEO 黄仁勋在今年演讲中说:“世界模型是 AI 下一步的核心,不仅要理解语言,还要理解世界。”中国工程院院士张亚勤去年在论坛上也指出,世界模型可能成为连接虚拟与现实的关键技术之一。

未来几年,其余厂商是否会加入竞争仍待观察。但可以确认的是,世界模型已经从研究概念,进入大厂的资源清单。

高算力成本、数据难题、应用落地的不确定性,决定了它短期内不会成为“下一个 ChatGPT”。但也正因如此,它成了大厂不能缺席的方向。

这是一场长期博弈:结果如何,取决于技术和市场的共同演化。无论它是否会成为未来的关键基础设施,大厂们已经在下注。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

AI大模型工场专栏: https://www.tuoluo.cn/columns/author1911862/

本文网址: https://www.tuoluo.cn/article/detail-10125014.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章