Meta具身智能新突破,可感知物体形变、振动、热量、气味的“AI机器手”明年上市

IP归属:广东

能从微观角度观察物理世界的机器人就要来了。

日前,Meta 发布了几项关于机器人和具体智能系统的新研究成果,其中关于触觉感知、机器人灵巧性和人机交互的研究被认为是实现机器人理解物理世界并与之交互的关键,能帮助机器人完成需要推理和规划的更复杂的任务。

在元宇宙、虚拟现实、生成式 AI 研究之后,通过赋予机器人触摸和感觉的能力,Meta 又在具身 AI 领域迈出了重要一步。

触觉感知模型 Meta Sparsh

Sparsh 是 Meta 与华盛顿大学和卡内基梅隆大学合作创建的基于视觉的触觉传感编码器模型,该模型可以为机器人提供触摸感知功能。

据悉,“Sparsh”名称源自梵语,意为触觉或接触感官体验,Meta 将 Sparsh 描述为一种通用模型,可应用于不同类型的基于视觉的触觉传感器和各种任务。

为了克服前几代触摸感知模型面临的挑战,研究人员通过自监督学习(SSL)训练 Sparsh,以提高模型泛化能力,从而消除对标记数据的需求。

图源:Meta

研究人员为 Sparsh 设计了六个以触觉为中心的任务,包括力估计、滑移检测、位姿估计、抓取稳定性、织物识别和珠迷宫操作,涵盖触觉特性理解、物理感知和机器人操作规划等方面。

图源:Meta

通过在不同数据集中整合的超过 460,000 张触觉图像上进行训练,Sparsh 在有限的标记数据预算下,TacBench 基准测试结果比特定于任务和传感器的端到端模型平均提高了 95.1%。

手指形触觉传感器 Digit 360

Digit 360 是 Meta 此次发布的一款人造手指形触觉传感器硬件产品,该传感器具有 830 万个触觉像素、超过 18 种传感功能,可用于捕获指尖表面的全向和颗粒变形、感知振动、热量,甚至“闻到气味”,为机器人提供对环境和物体交互的更丰富理解。

图源:Meta

具体来看,Digit 360 通过化学沉积技术在机器手指尖表面直接生成银薄膜,该方法可以减少传感涂层厚度并提高灵敏度。

同时,Digit 360在指尖内置一种定制的固体浸没超鱼眼镜头,以适应视觉触觉传感的独特环境。该镜头的设计目的是增加空间分辨率,允许色差,引入浅景深以适应物体压痕深度,并去除抗反射涂层以捕捉和解释指尖内的反射和散射。

图源:Meta

多模态感知模组则进一步扩展了 Digit 360 的能力,提供了对非视觉模态的感知能力,如动态信号、表面音频纹理和振动、热变化以及气味,这些信息主要通过内部麦克风和压力 MEMS 传感器捕获。

此外,Digit 360 还搭载了端侧 AI 模型,以减少对基于云的服务器的依赖,这使得其能够在本地处理信息并以最小的延迟响应触摸,类似让机器人也能拥有人类和动物的反射弧。通过实验比较,Digit 360 的本地处理可以将延迟从此前的 6 毫秒减少到 1.2 毫秒。

图源:Meta

实验结果显示,Digit 360 可以分辨出小至 7mm 的空间特征,感知法向力和切向力的分辨率分别为 1.01mN 和 1.27mN,感知振动高达 10kHz,均优于行业现有水平。该技术将赋予机器人如下能力:

  • 识别接触的物品纹理、压力和表面不规则性变化;

  • 感应热量,甚至检测化学性质;

  • 捕获全向变形,响应物体来自各个角度的触感。

这意味着,Digit 360 将很适合被用于复杂的科学研究。Meta 研究人员表示,Digit 360 并不适合普通消费者,而是面向“正在探索 AI 与物理世界交互深度的研究人员和科学家”。

这项技术为未来的触摸感知研究提供了一个开源的模块化解决方案,有助于 AI 系统深入“研究”现实世界物体触感、纹理和压力的复杂性,同时还在机器人、医学假肢、虚拟现实等场景有巨大的应用潜力。

图源:Meta

目前,Meta 已经开源了 Digit 360 的代码和设计。有开发人员认为,与此前的其他开源项目类似,Meta 对 Digit 360 的开源有助于推广机器人触觉技术,Digit360 捕获的信息可以帮助技术社区开发更逼真的虚拟环境,这对 Meta 未来的元宇宙目标相当重要。

为此,Digit 360 专门发布了一个机器人应用程序开发软硬件平台 Digit Plexus。

该平台的软件集成和硬件组件允许通过单根电缆实现无缝数据收集、控制和分析,可以将指尖、手指和手掌上基于视觉和基于皮肤的触觉传感器(如 Digit、Digit 360 和 ReSkin)连接到控制板中,并将所有数据编码到主机。Digit Plexus 的代码和设计同样已经公布,以方便研究人员在平台上构建并推进机器人灵巧性研究。

新的人机协作评估基准 PARTNR

最后,Meta 还发布了人机协作评估基准框架 PARTNR,用于评估人工智能模型与人类合作完成家务时的规划和推理任务能力。

PARTNR 建立在 Meta 的模拟环境 Habitat 3.0 之上,是同类产品中最大的基准测试,包括了 100,000 个自然语言任务,跨越 60 个房屋和 5,800 多个独特的对象。该基准测试带有最先进的 LLM 基线,支持跨规划、感知和技能执行等轴进行系统分析,旨在评估大型语言和视觉模型 (LLMs/VLM)通过人机协同工具与人类协作时的性能。

具体来看,该方法首先基于模拟房屋中的对象和家具生成,生成任务和评估函数,然后,通过模拟反馈和人机交互来过滤和注释不可行的指令,生成自由形式的可行任务及其初始场景状态描述,例如“清理客厅里的所有盘子”。

图源:Meta

而后 LLM 生成评估函数,评估任务是否完成。评估函数可以查询对象、家具和房间的状态,并使用依赖关系和约束定义任务的执行顺序。

图源:Meta

结语

随着触觉感应机器人的出现,AI 现在不只能在屏幕中发挥作用,还与现实世界进行真实的、拟人的交互。

根据 Meta 官方的消息,Meta 将与触觉传感器制造商 GelSight Inc。合作制造 Digit 360,同时与韩国机器人公司 Wonik Robotics 合作,在 Digit Plexus 平台上开发带有触觉传感器的完全集成机械手 Allegro Hand,两项新产品预计都将于明年推出,开始步入商业化。

图源:meta

届时,在大语言模型和视觉语言模型等基础模型的帮助下,机器人可以完成需要推理和规划的更复杂的任务,真正像人类一样通过视觉、听觉和触觉感知世界。而人类也可以借助微观下的机器人多感官技术解锁机器人在现实、虚拟世界中的一系列可能性,让机器真正成为机器“人”。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10117380.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章