XR 3D体验升级之路,Meta与英伟达选择了不同方向

IP归属:广东

文/VR陀螺 WiZ

Meta主打差异化的AR眼镜大杀器来了。

日前, Meta AI的社交媒体账号发布了一段视频,展示了AR眼镜如何基于Reality Labs Research的SceneScript模型识别现实世界对象并生成场景布局。

在Meta的演示中,识别复杂的环境世界并同步建模不再只是VR头显的专属。戴上AR眼镜,我们同样可以一键识别家具,并将其拆解为单独的几何部分。

图源:SceneScript

Meta将其称之为真·AR眼镜之路上的一个重要里程碑,即真正做到连接物理世界和数字世界。

看来在接入AI后,AR眼镜看来也要迎来自己的3D时代了。

Meta要用AI在AR眼镜上完成建模

对于AR眼镜改变生活的畅想已经有很多,但在SceneScript介绍的开头,Meta依旧将AR眼镜的使用场景聚焦于日常。

“想象一下,通过情境化AI与显示屏的结合,一副时尚、轻便的眼镜将可以让您在需要时无缝访问实时信息,在日常生活中主动为您提供帮助。”

在Meta看来,真正智能的AR眼镜必须能够根据使用者个人环境定制内容,例如将数字覆盖与物理空间无缝融合,或者提供定制化的路线导航。

而要实现这一目标,眼镜系统就必须能够理解物理环境的布局以及3D世界的形成规律。在这之前,头戴式设备主要通过来自相机或3D传感器捕获的原始视觉数据创建物理空间的虚拟表示,将这些原始数据转化为墙壁、天花板和门等一系列形状。

图源:Ray-Ban

Meta此前也提出了类似的方法。

通过一种单目和双目视差网格协同设计的3D深度传感方案,Meta认为AR眼镜不仅可以拍照,还可以捕捉具有双目视差的3D数据,进行第一视角的分析和利用。

该方案的重点主要是利用立体视差预测,优化3D深度传感的性能,这是一种常见的计算机视觉技术,在AR/VR、机器人和自动驾驶等领域都有着广泛应用。

然而,这种立体视差预测技术也容易因为摄像头/传感器被遮挡而出现捕捉到的3D数据不完整、建模性能下降。因此,为了确保准确性,AR眼镜系统还会识别校正数据的可靠程度,并在数据不可靠时切换至单目深度预测模式。

如今,SceneScript提出了新的解决方案,通过AI训练使AR眼镜可以直接使用端到端机器学习直接推断房间的几何形状,避开了使用硬编码规则将原始视觉数据转换为房间建筑元素可能带来的种种麻烦。

图源:SceneScript

据Meta介绍,SceneScript借鉴了大语言模型“预测单词”的方法,通过输入内容推出后文,并使用生成的一系列描述重建出复杂的室内3D环境。

Meta称这一方法降低了AR眼镜建模的难度,“只需要数KB的内存即可生成清晰且完整的几何形状”,同时这些形状数据还是可编辑的。

不过,仅从Meta提供的演示来看,SceneScript的生成效果还只是创建房间元素的几何形状边界,这与我们常识中的3D建模还是有所区别。

这是高通此前利用自监督神经网络单眼深度估计技术在AR眼镜上实现的3D建模效果:

图源:高通

这是SceneScript的效果:

图源:Meta

在Meta的描述中,SceneScript的建模主要是“根据视觉数据解释和重建复杂的环境”,使用场景为“创建、描述场景结构并提供文本描述”,重点在于识别。

Meta开发人员认为,SceneScript提供了一种场景识别标记的新方法,不仅适用于AR眼镜,同样也可以用在Quest 3等VR头显中。

此前,Quest 3已经能够生成房间的原始3D网格,并可以根据3D网格推断墙壁、地板和天花板的位置,但头显无法辨别网格中的哪些形状代表了更具体的元素,如门、窗、桌子、椅子和沙发,只能通过用户手动标记。

而如果将SceneScript技术集成到Quest 3的混合现实场景设置中,Quest 3就可以自动识别特定家具元素并替换内容,例如识别出房间中的窗户并将其替换成大门。

同时,Meta也想通过SceneScript为未来AR眼镜中的AI助手提供助力,例如精准回答“这张桌子能放进我的卧室吗?”或者“粉刷这个房间需要多少桶油漆?”这样的问题。

感知、识别、建模、测量、标记,AR眼镜俨然可以成为合格的装修助手。

其实不仅是Meta,许多科技厂商都在追逐3D建模的XR化,毕竟虚拟空间中的2D屏幕只是过渡,3D才是XR的舒适区。

相比装修,NVIDIA更中意数字孪生

在3D技术领域不甘人后的还包括总是能在科技变革中喝到汤的NVIDIA。

在日前举办的GTC 2024上,NVIDIA就展示了如何将基于OpenUSD Omniverse的企业数字孪生3D模型引入苹果Vision Pro。

NVIDIA将其称之为基于Omniverse Cloud API编程接口构建的新软件框架,开发人员可以将通用场景描述(OpenUSD)工业场景从内容创建应用程序发送到 NVIDIA 图形交付网络(GDN),并将3D体验传输到Vision Pro。

在这之前,Vision Pro中已经出现了很多借助Vision Pro实现出色3D显示效果的应用程序。

例如能显示缩小版真实地球的天气应用程序“CARROT Weather”。

图源:网络

以及用于设计教育领域的3D模型查看程序“Box”。

图源:YouTube

与Box不同的是,NVIDIA将与苹果的合作设定在了工业领域。为了验证这一框架的3D数字孪生效果,NVIDIA公布了一段演示:一位佩戴 Vision Pro 的设计师,通过使用CGI工作室“Katana”在 Omniverse 平台上开发的汽车配置器应用程序,就可以在几乎全保真的汽车3D模型上切换设计选项,甚至还能进入车辆内部空间观察细节。

图源:NVIDIA

Omniverse 解决方案允许汽车设计师将原型车的可视化模型共享为 AR 体验,并提供实时更新的Autodesk Vred 3D渲染。通过引入大语言模型和语音命令,Omniverse增强了对Vred 等工具的可访问性,即使不了解复杂的 VRed UI 和操作的用户也可以在没有深入软件知识的情况下更改产品AR渲染。

图源:NVIDIA

将空间计算与3D建模结合,是NVIDIA认为的实现工业数字孪生的捷径。

“空间计算已成为一种强大的技术,用于提供身临其境的体验以及人员、产品、流程和物理空间之间的无缝交互。工业企业用例需要令人难以置信的高分辨率显示器和以高帧速率运行的强大传感器,以制造更为逼真的体验。”

基于 Omniverse 的全新工作流程将 Apple Vision Pro 突破性的高分辨率显示屏与 NVIDIA 强大的 RTX 云渲染相结合,在不影响海量工程数据集细节的情况下就可以提供高保真的视觉效果。

两大科技巨头的合作可谓双赢。作为目前显示效果最佳的头戴式设备,Vision Pro的加入让NVIDIA的工业愿景有了可以保障的虚拟入口,NVIDIA Omniverse则为Vision Pro拓宽了工业应用领域。

而这类合作此前也有成功案例,领先的是工业元宇宙的倡导者之一西门子。

不久前,西门子宣布了将与索尼合作的消息,双方将打造结合虚拟现实和工业软件的新系统,旨在帮助工程师和设计师在工业虚拟世界的“无边界沉浸式工作空间”中进行实时协作。

图源:西门子

西门子透露新系统使用的索尼头显配备了 4K OLED 显示屏、拥有基于六个摄像头和传感器的空间识别功能以及视频“透视”功能,让用户可以将虚拟设计叠加到物理环境上。

西门子方面将这一合作打造的工业孪生体系称之为“与现实几乎无法区分的虚拟世界”,AI能够与人们一起实时协作,加速创新、增强可持续性并更快、更大规模地采用新技术,从而给整个行业带来深刻变革。

这一工业场景围绕着AR/VR展开,串联起各类工业软件,而最底层的基础则是操作系统。

早在 2022 年夏天,西门子就宣布扩大与 NVIDIA 的合作伙伴关系,以实现工业元宇宙并增加人工智能驱动的数字孪生技术的使用。而随着NVIDIA Omniverse Cloud API 的发布,NVIDIA将为西门子 Xcelerator平台中的“沉浸式可视化”提供支持,并利用生成式 AI 来简化复杂的工作流程。

图源:西门子

而这大概也是NVIDIA总是能在一轮轮的技术风口中喝到汤的原因,在AI的时代,底层操作系统、芯片技术、数据中心都是云计算、大模型、元宇宙不可或缺的。

3D建模的新时代

可以看到,Meta、NVIDIA已经在AI的道路上越走越远,两者都为XR平台上的3D显示提供了新的思路。

在AI的加持下,XR的3D潜力被真正激发出来,很多行业都迎来了颠覆时刻。

例如在医疗领域,3D模型+XR设备潜藏巨大价值,不仅能以合成数据集确保医疗信息的安全共享,更可服务于诸多逆向任务,涵盖异常探测、图像间转换、噪声消除及MRI重建等。

图源:网络

2024年3月,英国伦敦的克伦威尔医院就宣布结合Vision Pro成功执行了两次显微脊柱手术。

医护人员称,Vision Pro帮助护士准备必要的工具并跟踪程序,以便在正确的时间选择正确的工具,并在选择医疗用具时叠加图像。或者,正如该公司在一份声明中所说,空间计算设备作为“外科手术后勤和组织工具”提供了帮助。

再比如教育行业,XR技术可以满足教学过程中听、说、读、写四种主要的学习方式,通过利用视觉、听觉和触觉,使其在混合小组教学中异常有效。

图源: HoloLab

而生成式AI的加入则使得XR课堂更加智能化。3D打造的课堂、数字人教师让虚拟世界媲美现实世界,一举打破了线下教学受制于时空的桎梏,使得数字人教师能够随时随地与学子展开对话交流、互动指导,及时给予反馈与建议。此种互动型教学模式极大地提升了学生的参与热情与专注度,在激活好奇心的同时还能锻炼思维能力。

然后就是前面提到的装修行业,SceneScript 帮助Meta解锁了未来 AR 眼镜新的应用场景。

据悉,Meta这款搭载了生成式AI的“真正的”AR眼镜将很快面世,到时候,我们才能一探其AR建模的实力。

但在那之前Meta还有许多问题需要解决,高质量的3D生成需要高算力的AI芯片,而此前Ray-Ban智能眼镜搭载的是高通骁龙AR1 Gen 1芯片,针对的是轻量化的眼镜需求,3D显示效果很难做到最佳。

为此,Meta公司之后还宣布与联发科展开合作,共同研发一种用于智能眼镜的芯片,以取代高通的骁龙AR1 Gen 1。

图源:网络

解决了AR芯片的问题,Meta还需要解决算力的麻烦。2023年,Meta曾对外表示将计划自研v1芯片,以用于人工智能。而到了2024年,这一说法变成了Meta计划在今年年底前向芯片设计商NVIDIA购买35万个H100 GPU芯片。

到了最近,Meta更是表示已提前订购NVIDIA的新款Blackwell B200 AI GPU,成为第一个订购Blackwell B200的大型科技公司。

不得不说,凭借Omniverse拿下苹果后,又能通过GPU芯片拿下Meta,NVIDIA可能才是XR 3D建模领域隐形的老大。

而对于Meta来说,无论是之前的AR芯片受制于高通,还是如今的算力需求受制于NVIDIA,Meta都凭借着别人的技术打造出了愈来愈强的AR/VR设备,包括之后即将推出的新一代Ray-Ban智能眼镜。

图源:网络

正如Meta所强调的,以SceneScript为代表的生成式AI确实堪称AR眼镜发展历程中的一个重要里程碑,其影响力不仅限于革新硬件设备本身,更在于它正在深刻重塑各行各业的工作模式与生态格局。

这一技术的潜力在于能够实时理解并解析周围环境,精准识别各类物体及其属性,进而智能化地生成适应用户需求的交互场景与内容,极大地拓宽了AR眼镜的应用边界与用户体验。

但同时,AI赋能XR并非一日之功,需要XR设备制造商、AI技术研发机构、芯片制造商及算力平台提供商等产业链上的关键角色打破壁垒,形成紧密的合作网络,共同应对复杂的技术挑战。

随着技术的不断成熟与应用场景的持续拓展,我们可以预见,这一里程碑式的创新将在未来继续引领各行各业的工作生态向着更加智能化、高效化、个性化的方向演进,做到真正连接物理世界和数字世界。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

VR陀螺专栏: https://www.tuoluo.cn/columns/author1286744/

本文网址: https://www.tuoluo.cn/article/detail-10112143.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章