英伟达发布开源世界模型“SANA-WM”,可单图生成一分钟的720p视频

IP归属:广东

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

编译/VR陀螺

NVIDIA的研究团队于2026年5月14日发布了关于开源世界模型“SANA-WM”的论文。所谓世界模型,是指通过学习现实空间中的物理运动和深度信息,并据此生成图像的人工智能模型。SANA-WM也被视为具身智能、机器人训练、游戏原型开发、VR/AR内容创作和影视预可视化等领域的研究新基准。

在SANA-WM中,只需输入一张静态图像和摄像机的移动路径,即可生成60秒、720p分辨率的高保真可控视频。摄像机的运动可通过6DoF进行控制。除了上下左右的移动外,还可以指定平移、俯仰等旋转方向的运动,因此可以输出仿佛在实际移动中拍摄的影像。

演示页面上公开了雪山小径、水下遗迹、沙漠科幻废墟等多种场景的样片。此外,这些演示视频是通过结合2.6B参数,且整个推理过程可在单张H100 GPU上高效完成。

在技术层面,据称该模型在实现36倍于现有开源模型的吞吐量(指系统或设备每单位时间可处理的“实际数据量”或“作业处理能力”)的同时,还达到了与LingBot-World和HY-WorldPlay等闭源产品相当的视频质量。

仅使用约21.3万条带度量尺度姿态标注的公开视频片段,在64张H100上训练15天即可完成。标准推理可在单块H100上运行。若对蒸馏版应用NVFP4量化技术,即使使用RTX 5090,也能将60秒的720p视频生成时间缩短至34秒。

来源:moguravr

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

VR陀螺专栏: https://www.tuoluo.cn/columns/author1286744/

本文网址: https://www.tuoluo.cn/article/detail-10128955.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章