AI芯天下丨产业丨谷歌发布本地VLA模型,具身智能正在进入“端侧时代”

IP归属:广东

前言

如果过去十年机器人领域的焦点先后经历了[可见]的视觉感知、[可理解]的语言理解,那么在VLA模型出现之后,机器人开始进入[动作精准]的第三阶段。

目前,VLA模型已逐渐成为具身智能行业的共识,被视为连接感知、语言和行为的通用架构。

VLA模型是通往通用智能的关键基础,它使机器人能够从互联网等多源数据中学习,并将这些学习转化为具体行动。

作者| 方文三

图片来源|网 络

本地VLA模型Gemini Robotics On-Device发布

近日,谷歌发布了Gemini Robotics On-Device,这一具身智能离线模型,实现了视觉-语言-动作(VLA)多模态大模型在具身机器人上的本地离线运行。

能够同步处理视觉输入、自然语言指令以及动作输出。即便在无网络环境下,该模型也能保持稳定运行。

这一系列复杂的处理过程,如今均能在机器人的内部计算单元中实现。

特别值得注意的是该模型的适应性和通用性。

谷歌指出,Gemini Robotics On-Device是首个向开发者开放微调功能的机器人VLA模型,开发者能够根据自己的特定需求和应用场景,对模型进行个性化训练。

研究显示,仅需50至100个新的任务演示(通常通过远程操作机器人完成),模型便能迅速学习并掌握新技能,展现出卓越的[快速任务适应]能力。

此外,谷歌还公开了相应的软件开发工具包(SDK),标志着具身智能技术向实用化迈出了新的一步。

Gemini Robotics是谷歌于三月份推出的VLA系列模型之一,其核心在于将多模态大模型的能力引入现实世界。

而Gemini Robotics On-Device,顾名思义,是专为机器人设备本地运行而优化的模型。旨在以最低限度的计算资源实现机器人的智能化。

本地模型的优势在于,即便在网络连接不稳定或完全无连接的情况下,也能确保具身机器人的性能稳定。

在多种测试场景中,Gemini Robotics On-Device展现了强大的视觉、语义和行为泛化能力,能够理解自然语言指令,并完成如解开袋子或折叠衣物等高度灵巧的任务。

由于该模型独立于数据网络运行,它特别适合对延迟敏感的应用,并确保在网络间歇性或零连接的环境中也能稳定工作。

评测数据显示,On-Device版本在泛化性能测试中表现突出。

尽管在视觉泛化、语义理解和行为泛化等多个维度上,与云端版本的Gemini Robotics相比略有差距,但已大幅超越了先前最佳的本地模型。

在处理分布外任务和复杂多步骤指令时,Gemini Robotics On-Device相较于先前的本地模型也展现出了显著的优势。

Gemini Robotics On-Device的推出,象征着具身智能从依赖云端计算能力向本地自主运行的关键转变。

具身智能的部署一直面临挑战

在此之前,包括谷歌在内的许多机器人系统,通常采用一种混合架构:在机器人上部署一个较小的模型以处理快速响应,同时将需要复杂推理和规划的任务交由云端强大的服务器处理。

尽管这种方法可行,但其对网络连接的稳定性和速度提出了极高的要求。

任何网络延迟或中断都可能导致机器人反应迟缓甚至停摆;

同时,将传感器数据(尤其是来自家庭或医疗等隐私敏感环境的视觉数据)上传至云端,也引发了持续的隐私和安全顾虑。

①对云计算资源的重度依赖,这限制了机器人在网络不稳定或无网络环境下的独立作业能力;

②模型体积庞大,难以在机器人有限的计算资源上高效运行。

目前大多数机器人需要经过成千上万次的训练,才能完成一个任务。

谷歌希望为机器人领域提供一个开放、通用且易于开发的平台,正如安卓系统对智能手机行业所做的那样。

过去受限于带宽和计算能力,许多机器人AI仅能进行示范。

具身智能技术的发展长期受到对云计算资源高度依赖的制约,这导致机器人在缺乏网络连接或网络不稳定的情况下难以独立完成任务。

此外,由于模型体积庞大,它们在机器人有限的计算资源上难以实现高效运行。

为机器人产业的实际应用开辟了新的道路,为机器人在更广泛场景中的应用提供了可能性。

例如,机器人在无网络连接的工厂中进行精确的零件装配、在灾区废墟中进行自主救援等应用场景,都依赖于机器人端侧模型的部署。

目前,由于各类机器人在本体结构、自由度以及传感器配置上的差异,实现统一的软件架构颇具挑战。

一旦硬件标准实现统一,类似于智能手机生态系统中USB接口、键盘、屏幕等通用组件所形成的规范,将显著促进算法标准化和本地部署的实现。

具身智能正在进入端侧时代

本地VLA模型将使机器人更适合家庭、医疗、教育等敏感场景,解决数据隐私、实时反应、安全稳定性等核心挑战。

在过去的几年中,大型语言模型的[端侧部署]已成为一个重要趋势。

从最初依赖大规模云端计算资源,到如今能够在手机、平板等边缘设备本地运行,模型的压缩优化、推理加速与硬件协同不断取得进展。

同样的演进路径,正在具身智能领域逐步展开。

VLA模型(视觉-语言-动作模型)作为具身智能的核心架构,本质上是赋予机器人从多模态信息中理解任务并作出相应行动的能力。

此次大模型版本的发布,也可能在业界引发连锁反应。随着AI算力和模型架构的持续演进,[边缘智能]正从传统的物联网走向以具身智能为代表的更高级阶段。

本地化VLA的引领,预示着具身智能发展的新阶段。

这一突破性技术标志着机器人AI从依赖云端计算向自主边缘智能的转变,为工业制造、医疗护理、家庭服务等领域带来了前所未有的可能性。

彻底摆脱对云端的依赖,机器人AI实现了[独立思考]。

传统机器人AI系统普遍依赖于云端计算资源,通过网络将传感器数据上传至远程服务器进行处理后再传回指令。

尽管这种架构的计算能力强大,但其固有的缺陷包括网络延迟、连接不稳定和隐私安全问题。

今年,诸如谷歌、微软、Figure AI等国际企业纷纷推出了各自的VLA模型,与此同时,国内的银河通用、智元机器人、自变量机器人等公司也已在这一领域展开了相应的战略部署。

今年6月1日,银河通用正式推出了自主研发的产品级端到端导航大模型TrackVLA。

该模型具备纯视觉环境感知、语言指令驱动、自主推理能力以及零样本泛化能力的具身大模型。

而在一周后的2025北京智源大会上,银河通用又发布了全球首个面向零售场景的端到端VLA大模型GroceryVLA。

尾:

从全球具身智能的发展趋势来看,Gemini Robotics On-Device的推出,代表了大模型技术在机器人领域的一次重大范式转变。

过去十年,机器人智能主要依赖于云端大模型的支持,而未来将转向边缘本地部署、大模型小型化以及高频自适应更新的新阶段。

这一趋势对谷歌、特斯拉等具身智能国际巨头至关重要,同时也对我国具身智能产业链提出了更高的要求。

部分资料参考:新智元:《谷歌让机器人[长脑子]了!首发离线具身VLA模型,断网精准操控》,量子位:《谷歌发布本地具身智能模型!全程无联网执行精细操作,从人形机器人到工业机器人全覆盖》,DeepTech深科技:《谷歌发布Gemini Robotics On-Device,首次实现机器人AI模型完全本地化运行》,蓝鯨TMT:《谷歌发布本地VLA模型,机器人界的[安卓系统]要来了?》,头部科技:《机器人[本地最强大脑]诞生,谷歌DeepMind推出新一代VLA模型,国内研究多维进击》,智维洞察:《谷歌发布Gemini本地模型,具身智能再提速》,机器觉醒时代: 《谷歌RT-1模型—— 具身智能VLA模型在早期的重要探索》

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

AI芯天下专栏: https://www.tuoluo.cn/columns/author1911711/

本文网址: https://www.tuoluo.cn/article/detail-10123326.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章