英伟达发布开源世界模型“SANA-WM”，可单图生成一分钟的720p视频_陀螺科技

我要发布

英伟达发布开源世界模型“SANA-WM”，可单图生成一分钟的720p视频

VR陀螺原创 2026-05-25 17:07 热度 39259

分享

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：广东

文章AI导读

一键萃取文章精髓，核心观点即刻呈现

# 梳理该事件的完整脉络

# 该文章有哪些有意思的观点或数据

# 大家对该事件的态度表现如何？

编译/VR陀螺

NVIDIA的研究团队于2026年5月14日发布了关于开源世界模型“SANA-WM”的论文。所谓世界模型，是指通过学习现实空间中的物理运动和深度信息，并据此生成图像的人工智能模型。SANA-WM也被视为具身智能、机器人训练、游戏原型开发、VR/AR内容创作和影视预可视化等领域的研究新基准。

在SANA-WM中，只需输入一张静态图像和摄像机的移动路径，即可生成60秒、720p分辨率的高保真可控视频。摄像机的运动可通过6DoF进行控制。除了上下左右的移动外，还可以指定平移、俯仰等旋转方向的运动，因此可以输出仿佛在实际移动中拍摄的影像。

演示页面上公开了雪山小径、水下遗迹、沙漠科幻废墟等多种场景的样片。此外，这些演示视频是通过结合2.6B参数，且整个推理过程可在单张H100 GPU上高效完成。

在技术层面，据称该模型在实现36倍于现有开源模型的吞吐量（指系统或设备每单位时间可处理的“实际数据量”或“作业处理能力”）的同时，还达到了与LingBot-World和HY-WorldPlay等闭源产品相当的视频质量。

仅使用约21.3万条带度量尺度姿态标注的公开视频片段，在64张H100上训练15天即可完成。标准推理可在单块H100上运行。若对蒸馏版应用NVFP4量化技术，即使使用RTX 5090，也能将60秒的720p视频生成时间缩短至34秒。

来源：moguravr

SANA SANA-WM 世界模型英伟达

陀螺科技现已开放专栏入驻，详情请见入驻指南： https://www.tuoluo.cn/article/detail-27547.html

VR陀螺专栏： https://www.tuoluo.cn/columns/author1286744/

本文网址： https://www.tuoluo.cn/article/detail-10128955.html

免责声明：
1、本文版权归原作者所有，仅代表作者本人观点，不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

上一篇：第34届雨舞影展沉浸式单元作品公布，持续发掘并推广创新叙事手法

下一篇： Meta正式进军韩国，加速布局亚洲AI眼镜市场

相关文章

VAST完成超10亿元人民币A3战略轮融资，持续深耕AI...

Ori Inbar提出“I Spatial”愿景，用空间...

估值14.5亿美元，Odyssey成为世界模型赛道新独角...

VAST 完成近2亿美元融资并发布世界模型 Projec...

黄仁勋写给 2026 届毕业生的寄语：所有人都在同一条起...

热点丨英伟达H200解禁入华，带着25%“买路钱”的“甜...