“AI 的下一波浪潮是机器人,其中最令人兴奋的发展之一是人形机器人。”
在 NVIDIA 创始人兼首席执行官黄仁勋看来,在科技飞速发展的今天,AI 已经成为推动社会进步的重要力量,而在 AI 的众多应用领域中,人形机器人以其独特的优势,成为下一个即将被 AI 颠覆的领域。
而为了在全球范围内加速人形机器人的发展,2024 年 7 月 29 日,NVIDIA 在 SIGGRAPH 上宣布推出 OpenUSD(通用场景描述)的重大成果,其中包括向全球领先的机器人制造商、AI 模型开发商和软件制造商提供的一系列 NVIDIA NIM 微服务。
同时,黄仁勋还和 Meta 创始人兼首席执行官马克·扎克伯格在 SIGGRAPH 2024 炉边谈话中,探讨了开源 AI 和 AI 助手的变革潜力。
图源:NVIDIA
将机器人仿真环境部署时间从数周缩短到分钟级
据悉,NVIDIA NIM 微服务是一系列专门针对物理 AI 应用设计的开发工具和服务。
这些微服务可生成回答用户查询的将材质应用于 3D 物体、理解 3D 空间和物理学 OpenusD 语言、生成 OpenUSD Python 代码、以帮助加快数字孪生的开发等,旨在帮助开发人员更容易地构建、训练和部署能够感知、理解和与物理世界互动的智能系统。
同时还可用于机器人和工业仿真数据格式的全新 USD 连接器以及各种开发者工具,开发者可通过它们将 NVIDIA RTXT 全光线追踪数据集传输到 Apple Vision Pro。
图源:NVIDIA
NVIDIA NIM 微服务的核心优势在于其高度模块化和可扩展的设计。这些微服务可以根据不同的应用需求进行灵活组合和定制,从而满足各种复杂的物理 AI 场景。此外,NIM 微服务还提供了丰富的 API 接口和开发文档,使得开发人员能够轻松地将其集成到自己的项目中。
其中,作为专为机器人仿真和学习设计的 NVIDIA NIM 微服务由 NVIDIA 推理软件驱动,提供了预构建的容器,使得开发者能够轻松地将仿真环境部署时间从数周缩短到几分钟。
通过基于 NVIDIA Omniverse 平台的机器人仿真参考应用程序“NVIDIA Isaac Sim”增强生成式物理 AI 仿真工作流,开发者可以在虚拟环境中对机器人进行全方位的测试和训练。这不仅消除了实际操作中可能遇到的安全隐患,还有助于提高测试效率。
此外,NVIDIA NIM 还提供了两项新的 AI 微服务:MimicGen NIM 和 Robocasa NIM。
MimicGen NIM 可以根据 Apple Vision Pro 等空间计算设备记录的远程操作数据生成合成运动数据,为机器人提供丰富的学习材料。Robocasa NIM 在 OpenUSD 中生成机器人任务和仿真就绪环境,为开发者提供了便捷、高效的开发平台。
而 NVIDIA OSMO 则是一项云原生托管服务,旨在帮助用户在本地/云端跨分布式计算资源编排和扩展复杂的机器人开发工作流。这一服务的推出意味着机器人训练和仿真工作流得到进一步简化,部署和开发周期时间从之前的几个月缩短至不到一周。
NVIDIA OSMO 的强大之处在于其可扩展性和灵活性。用户可以根据实际需求随时调整计算资源的分配,以满足不同阶段的开发需求。同时,OSMO 还提供了丰富的可视化工具,让用户能够直观地管理和监控整个开发过程。
NVIDIA OSMO 还支持多种任务类型,包括合成数据生成、模型训练、强化学习以及大规模的人形机器人、自主移动机器人和工业机械臂软件在环测试等。这使得开发者能够在一个平台上完成从数据收集到模型训练再到实际应用的全流程开发。
而在人形机器人的开发过程中,获取大量的真实世界数据是至关重要的一步,不过传统的远程操作方法往往耗时且成本高昂。为此,NVIDIA 还在 SIGGRAPH 上展示了一个由 AI 和 Omniverse 支持的远程操作参考工作流。
该工作流允许研究者从极少量远程捕捉的人类演示中生成大量合成运动和感知数据。
首先,开发者使用 Apple Vision Pro 等空间计算设备捕获少量的远程操作示范,然后通过在 NVIDIA Isaac Sim 中模拟这些录像,并使用 MimicGen NIM 基于录像生成合成数据集,开发者便可以使用真实数据和合成数据对 Project GROOT 人形机器人基础模型进行训练,使用 Isaac Lab 中的机器人学习框架“Robocasa NIM”生成经验并重新训练机器人模型,降低时间和技术成本。
图源:NVIDIA
通过 AI 和仿真的完美结合,开发者能够以更高效、更经济的方式获取训练数据,从而加速人形机器人的研发进程。“在整个工作流中,NVIDIA OSMO 将计算任务无缝地分配给不同的资源,为开发者减少了数周的管理工作量。”
值得注意的是,为了进一步推动人形机器人的发展,NVIDIA 还推出了人形机器人开发者计划。
该计划将为开发者提供 NVIDIA 旗下三个计算平台:用于训练模型的 NVIDIA AI 超级计算机、使机器人可以在仿真世界中学习和完善技能的 NVIDIA lsaac Sim、用于运行模型的 NVIDIA Jetson Thor 人形机器人计算机的访问权限,以及新产品和 Project GROOT 通用人形基础模型的最新版本。
首批加入早期访问计划的企业包括 1x、波士顿动力公司、字节跳动 ByteDance Research、Field AI、Figure、傅利叶、银河通用、逐际动力、Mentee、Neura Robotics、星动纪元和 Skild AI 等。
黄仁勋对此表示:“我们正在推进整个 NVIDIA 机器人堆栈的发展,面向全球人形机器人开发者和公司开放访问,让他们能够使用最符合其需求的平台、加速库和 AI 模型。”
NVIDIA 改变物理世界
但显然,机器人只是 NVIDIA AI 应用布局的一环,对于 NVIDIA 来说,NVIDIA 的野心应该是“改变整个物理世界”。
在 SIGGRAPH 大会上,NVIDIA 还宣布了 fVDB(Flexible Voxel Database)深度学习框架的推出,以生成现实世界的 AI 虚拟表示,为自动驾驶汽车、气候科学和智能城市等领域的应用提供支持。
图源:NVIDIA
fVDB 建立在 OpenVDB 之上,后者作为模拟和渲染稀疏体积数据的行业标准库,已经在视觉效果行业中赢得了广泛的认可和应用。
通过引入 AI 操作符和 GPU 加速技术,fVDB 实现了比传统框架更大的空间规模、更快的处理速度和更强的运算能力。这使得研究人员和企业能够以前所未有的规模和分辨率挖掘空间智能,推动物理 AI 技术的进一步发展。
在空间规模方面,fVDB 实现了比以往框架大 4 倍的突破,这意味着在构建虚拟环境时,可以容纳更多的细节和数据。而在处理速度上,fVDB 的速度比以前的框架快了 3.5 倍,这对于实时渲染和数据分析至关重要。
在自动驾驶汽车领域,fVDB 框架的应用将使得车辆能够更准确地感知周围环境,提高驾驶的安全性和效率。通过生成大规模、高分辨率的虚拟环境,自动驾驶系统可以在不实际行驶的情况下进行训练和测试,从而加速技术的成熟和商业化进程。
在气候科学领域,fVDB 框架可以帮助科学家构建更为精确的气候模型,模拟气候变化对地球的影响。
而在智能城市领域,fVDB 框架的应用将使得城市管理者能够更好地监控和管理城市运行。通过构建城市的数字孪生模型,开发者可以实时监测交通流量、能源消耗等关键指标,从而优化城市规划和管理。
意大利巴勒莫市就利用 NVIDIA NIM 微服务部署了视觉 AI 代理来分析实时交通摄像头数据。通过自然语言提问,政府能够迅速获得关于街道活动的准确数据,并据此调整交通管理策略,提高城市交通运行效率。
图源:NVIDIA
同时,在自动驾驶汽车、机器人等制造业领域,NVIDIA 开发的全球首个用于 OpenUSD 开发的生成式 AI 模型同样将以 NVIDIA NIM 微服务的形式提供。
借助这些模型,开发者能够将生成式 Al copilot 和智能体整合到 USD 工作流中,拓宽 3D 世界的可能性,帮助加快 USD 在制造业、汽车行业和机器人等新工业领域的应用。模型将作为 NVIDIA NIM 微服务的一部分,使开发者能够更加灵活地创建和编辑 3D 场景,实现更加逼真的视觉效果和更加智能的交互体验。
全球领先的电子产品制造商富士康和和硕已采用 NVIDIA NIM 微服务和 Metropolis 参考工作流程来优化其制造流程。通过数字孪生技术,这些公司在虚拟环境中能够进行更彻底的测试和改进,从而提高生产效率并保障生产安全。
值得一提的是,fVDB 框架还具有出色的互操作性。它可以充分利用大规模现实世界数据集,将 VDB 数据集读入完整尺寸的 3D 环境中,并实现 AI 就绪和实时渲染。这意味着企业可以将 fVDB 无缝集成到现有的工作流程中,充分利用现有的数据和资源,实现更高效的数据处理和分析。
当然,基于 NVIDIA NIM 微服务构建的生成式 AI 模型不仅在自动驾驶汽车、气候科学和智能城市等领域展现出强大的潜力,也在创意产业中发挥了重要作用。
NVIDIA 与全球领先的创意内容平台 Shutterstock 和 Getty Images 合作,推出了基于 NVIDIA Edify 的多模态生成式 AI 架构。
通过这一架构,设计师和艺术家可以利用生成式 AI 快速创建 3D 资产和照明虚拟环境,快速生成高质量的 3D 模型和图像,为创意产业带来更多的可能性。
图源:NVIDIA
根据NVIDIA描绘的愿景,这些人类与AI的合作代表着AI交互的未来。而同样在此次SIGGRAPH 2024上,黄仁勋在与扎克伯格的对话中重诉了这一点:与 AI 的交互不应该仅是基于文本交互。
“今天的 AI有点类似一来一回的模式。你说一句,它回你一句。未来的 AI 将会考虑多个选项,生成一个选项树,并模拟结果,从而使其更强大。”
在黄仁勋的设想中,这一模式的承载体最终还是要回归到AI助手上,“未来每个人都将有自己的AI助手”。
而扎克伯格则将AI的未来继续押注在VR/AR上,扎克伯格对通过眼镜将 AI 与现实世界结合在一起表示乐观,认为Meta与眼镜制造商 Luxotic 的合作将有助于变革教育、娱乐和工作。
不过,双方都认为AI的未来需要开源推动。在扎克伯格看来,对于开源的坚持让Meta 迅速成为 AI领域的领导者。Meta Al 已被用于 Facebook、Instagram和 WhatsApp。Meta 在各行各业推进开源 AI 的脚步并未停止,不久前才刚刚发布了Llama 3.1大模型。
扎克伯格认为:Llama 3.1有望成为采用开源 A1的“转折点”,而支撑这一节点到来的关键在于合作。
据悉,Llama 3.1花费了大量时间和训练资源投入,这一迄今为止最大的 Lama 版本拥有 4050 亿个参数,使用了 16000 多个 NVIDIA H100 GPU 进行了训练。
而在SIGGRAPH当天的另一场访谈中,黄仁勋证实NVIDIA本周已经开始向全世界发送目前最强AI芯片Blackwell的工程样片。对于Meta来说,更强的AI芯片带来更强的开源模型,而对于NVIDIA来说,早已渗透到日常生活的AI 技术的各个环节几乎都有NVIDIA的身影,NVIDIA早就开始改变物理世界。
当然,黄仁勋和扎克伯格两位科技圈的大佬的炉边谈话还有更多关于AI行业解读的亮点,这里附上直播链接,感兴趣的朋友也可以回看完整实录:https://www.nvidia.cn/events/siggraph/#featured-programs
图源:NVIDIA
小结
可以说,NVIDIA 在 AI 芯片、生成式 AI 模型与 NVIDIA NIM 微服务方面的创新为“构建更大的世界数字模型”奠定了基础。通过计算机视觉能力感知和与物理世界互动,NVIDIA 为各个行业带来了 AI 巨大的价值和潜力。
而在这一轮 AI 变革中,NVIDIA 显然是将下一波热点押注在了以机器人为代表的重工业上。在NVIDIA Omniverse 与仿真技术副总裁 RevLebaredian 看来,“借助 NVIDIA NIM 微服务为 OpenUSD 带来的增强功能和可访问性,各个行业都可以创建基于物理学的虚拟世界和数字孪生,在加快创新的同时,为机器人这次新一轮 AI 技术热潮做好准备。”
重工业的生成式 AI 潮已经到来。