苹果展示新AI系统GAUDI，可将文字提示转变为3D场景_陀螺科技

我要发布

苹果展示新AI系统GAUDI，可将文字提示转变为3D场景

VR陀螺原创 2022-08-02 15:10 热度 23904

分享

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：广东

文章AI导读

一键萃取文章精髓，核心观点即刻呈现

# 梳理该事件的完整脉络

# 该文章有哪些有意思的观点或数据

# 大家对该事件的态度表现如何？

编译/VR陀螺

近日，苹果公司展示了其新的人工智能系统GAUDI，该系统可以根据文本提示创建3D场景，是一款基于新一代NeRFs的生成式人工智能系统。

所谓的神经渲染能够将人工智能引入计算机图形。例如，Nvidia的人工智能研究人员正在展示如何从照片中创建3D物体，谷歌正在依靠神经辐射场（NeRFs）进行沉浸式视图或开发用于渲染人物的NeRFs。

到目前为止，NeRFs主要是作为3D模型和3D场景的一种神经存储介质，然后可以从不同的摄像机视角进行渲染，这种视角就是经常显示的摄像机在房间里或物体周围的移动方式。用于VR体验的 NeRFs 的初步实验也在进行中。

但是，如果NeRFs从不同角度逼真地呈现图像的能力可以用于生成式人工智能呢？像OpenAI的DALL-E 2或谷歌的Imagen和Parti这样的人工智能系统显示了可控生成式人工智能的潜力，但只适用于2D图像和图形。

谷歌在2021年底通过Dream Fields展示了3D人工智能的生成，这个人工智能系统结合了NeRFs生成3D视图的能力和OpenAI的CLIP评估图像内容的能力。其结果是，Dream Fields生成的NeRFs与文本描述相匹配。

现在，苹果的人工智能团队正在推出GAUDI，这是一个用于生成沉浸式3D场景的神经架构，该人工智能系统可以根据文本提示创建3D场景。

图源：苹果

例如，虽然谷歌致力于用Dream Fields生成单个对象，但将生成式人工智能扩展到完全无约束的3D场景仍然是一个尚未解决的问题。

其中一个原因是可能的摄像机位置的限制。虽然对于单个对象来说，每一个可能的合理摄像机位置都可以被映射到一个圆顶上，但在3D场景中，这些摄像机位置会受到物体和墙壁等障碍物的限制。如果在场景生成过程中不考虑这些因素，生成的3D场景就无法使用。

苹果公司的GAUDI模型通过三个专门的网络来解决这个问题：一个摄像机姿势解码器对可能的摄像机位置进行预测，并确保输出是3D场景架构的有效位置。

图源：苹果

场景解码器可以通过一种3D画布的形式对场景进行预测，辐射场解码器在上面使用体积渲染方程绘制后续图像。

在四个不同的数据集的实验中（包括室内扫描数据集 ARKitScences），研究人员表明GAUDI可以重建学习的视图，并与现有方法的质量相匹配。

苹果公司还展示了GAUDI可以通过3D室内场景生成新的摄像机运动。生成可以是随机的，可以从图像开始，或由文本编码器的文本输入控制，例如，输入"穿过走廊 "或 "上楼梯"。

GAUDI生成的视频质量仍然很低，充满了伪影。但通过其人工智能系统，苹果正在为生成式人工智能系统奠定另一个基础，该系统可以渲染3D物体和场景。一个可能的应用是，为苹果的XR头显生成数字位置。

来源：mixed

AI GAUDI 苹果

陀螺科技现已开放专栏入驻，详情请见入驻指南： https://www.tuoluo.cn/article/detail-27547.html

VR陀螺专栏： https://www.tuoluo.cn/columns/author1286744/

本文网址： https://www.tuoluo.cn/article/detail-10100787.html

免责声明：
1、本文版权归原作者所有，仅代表作者本人观点，不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

上一篇：巴西医生通过VR模拟手术训练成功分离年龄最大的颅骨双胞胎

下一篇： Meta将VR和AR体验带入2023年法国橄榄球世界杯

相关文章

我用这本「40万字的AI指南」，让TRAE Work给我...

在这届WAIC上，我们看到了智能体、具身智能和算力的三大...

取次硅谷懒回顾，半缘DeepSeek半缘Kimi

一大批AI硬件，正在帮我们「教」孩子

当大模型搬进终端，AI手机竞赛全面提速

芯报丨三菱电机与索尼半导体解决方案公司将组建AI视觉合资...