作者|栗子
编辑|星奈
媒体|AI大模型工场
最近两天,首届世界人形机器人运动会吸引了全世界的关注,各种机器人大显神通,有百米“飞人”,有“撞人逃逸”的,打拳搏击的,踢足球的等等,机器人贡献了各种“名场面”。
不过在16日上午的跳高赛场上,出现了一个让全场沸腾的瞬间。身高171cm、体重65kg的全尺寸双足人形机器人——星动L7,在助跑蓄力后完成一个酷似“超级玛丽跳”的动作,腾空、悬停、稳稳落地,最终定格在95.641cm的高度。这一成绩不仅让它斩获该项目的桂冠,更是直接创造了世界纪录。
从起跳时的动力爆发,到腾空时的姿态修正,再到落地时的稳定缓冲,L7展现出机器人“算法+硬件”高度耦合的能力。
在上周WRC主论坛上,星动纪元创始人陈建宇用“通用大脑与通用本体相结合”总结了L7背后的技术逻辑,并进一步描绘了机器人从工厂走进家庭的清晰路径。
回看他的演讲,让外界意识到,这场跳高夺冠并非仅仅是一场表演,也揭示了更大的趋势:人形机器人已经走到“ChatGPT”时刻的前夜,相关技术也正在快速收敛,机器人也正在从“表演”走向“实用”。
星动L7是星动纪元近期发布的最新一代全尺寸高性能人形机器人,这款身高171 cm的双足机器人,凭借国内首个“既能整活、又能干活”的表现引发关注——它既能完成360°旋转爆发跳、街舞Breaking等高动态“整活”动作,又能在物流、工厂实现分拣、扫码、打螺丝,还能完成撕纸巾、拉窗帘等柔性“干活”操作,实现“双突破”。
其搭载的 400N・m、25rad/s 自研关节模组性能居全国首位,可完成 360° 旋转跳、街舞等高动态爆发动作,实测跑步速度达 4m/s,打破人形机器人奔跑速度纪录。同时,其上肢 7 轴仿人机械臂配合腰部 3 个自由度,具备 2.1 米直径全域操作空间,手部搭载的全直驱仿人五指灵巧手可复现人类手部动作,协同端到端 VLA 大模型 ERA-42,仅需少量数据就能学习多种新技能。在商业化落地上,星动L7还支持 "全尺寸 + 半身形态" 切换方案,适配多样化场景,用“按需定制”的方案,降低单场景部署成本。
除了L7,星动纪元还有面向服务业的Q5、行业首创直驱灵巧手XHAND1等产品,组成“通用本体+通用大脑”的完整矩阵。它们的核心大脑正是星动纪元自研的ERA-42端到端VLA具身大模型,通过融合世界模型和强化学习,实现“看视频学技能”“少量数据快速上手”的能力。
“VLA已经成为行业共识。”陈建宇在采访中直言。早年间,业界对端到端模型是否可行仍有分歧,但如今无论国内外,越来越多厂商展现出不错的VLA成果,逐渐形成了收敛的技术路线。星动纪元自创立之初就坚定选择这一方向,如今,这条“少有人走的路”正成为行业主流。
在WRC论坛结束后,陈建宇接受媒体采访,回答了VLA及星动纪元未来的发展等行业最关注的几个问题,以下为现场陈建宇与媒体的对话实录,有删减:
Q:今年具身智能领域的技术路线有哪些明显变化?为何VLA会成为共识?
陈建宇:今年技术路线在大方向上呈现显著收敛,无论软件还是硬件。VLA这个概念在去年甚至前年提及甚少,最开始行业对端到端存在诸多争议,连是否采用learning base方法都有分歧——此前机器人学习多以基于模型计算等方法为主。
后来,机器人通过强化学习实现更稳定行走,大家才逐渐认可learning base方法。而分层式模型与端到端VLA模型的争议,也随着国内外团队(包括星动纪元及友商)展现出不错的VLA能力,让行业逐步相信这一路线的可行性。
星动纪元从创立第一天就坚持这一路线,因为从第一性原理判断,这是最终路径。我们和同行的实践证明了其有效性,也让更大范围的人开始接受。
Q:世界模型与VLA是什么关系?它是VLA的演进方向吗?
陈建宇:我把VLA视为更广泛的概念——只要机器人具备视觉感知、语言交互能力,包含行为输出,且是端到端模型,能与人语言交互、在物理世界作业,就属于VLA。从这个意义上,世界模型是VLA的一条演进路径,是下一个范式的VLA模型。
世界模型并非独立存在,而是在现有狭义VLA基础上,进一步改进机器人的精细化操作能力、泛化能力和认知能力。要实现VLA进阶,两大核心技术不可或缺:
一是世界模型与生成式模型的融合,不是简单引入单独的世界模型,而是让模型同时生成对未来的预测、认知及行为。星动纪元去年完成了全球首个融合工作,论文引发广泛讨论,不少同行已开始关注合作,这很快会形成新共识。
二是VLA的强化学习,运动控制模型(如仅用于走路的模型)可成为通用范式。我们去年已开展探索并发表论文,核心是研究如何在现有VLA框架下通过强化学习提升机器人在各类任务中的通用能力。
Q:人形机器人上下肢协同存在技术卡点吗?如何实现全身控制?
陈建宇:全身协同技术我们已基本跑通,没有绝对意义上的卡点。但人形机器人上下肢技术本身难度都很高,需分步骤攻克,不过这并非不可逾越——目前已有很多成功案例可证明。
具体来说,上肢和下肢在建模及交互设计上,VLA与运动控制层的交互设计上,都需要精心设计;数据收集需做好规划;而模型架构是关键,优质架构不应局限于仅控制上肢或全身,一旦架构足够优秀,控制上肢、下肢或全身的区别并不大。
Q:提升泛化能力与运动控制,哪个更急迫?具身智能的核心竞争力是什么?
陈建宇:泛化能力的提升核心在大脑(模型),但难度更高,因为要应对更复杂的交互场景;运动控制作为底层支撑,也需要良好的泛化能力,以保证动作精准柔顺,但其仅涉及机器人自身动作控制。
决定具身智能能力差异的关键有三点:第一,模型架构是重中之重,直接决定能力上限;第二,数据的多样性、来源丰富度及质量比数量更重要;第三,本体的性能与复杂度——比如有腿才能上下楼,有灵巧手才能用复杂工具,本体优劣会限制任务上限和复杂度。
Q:当前机器人效率离理想状态还有差距,如何突破?
陈建宇:我持乐观态度。在部分真实工业场景中,我们的机器人效率已达人类的70%以上,预计明年提升至90%,正快速接近理想状态。这得益于端到端模型的实时反馈与控制能力——与此前分阶段处理(先识别、再规划、后动作)不同,端到端能像人类一样实时响应、即时校正,大幅提升节拍效率。同时,硬件本体的性能,尤其是速度等指标,也提供了支撑。随着软硬件打磨,未来效率有望达到甚至超越人类。
Q:人形机器人的杀手级应用会出现在哪里?进入家庭还需多久?
陈建宇:杀手级应用需分长期与短期。长期来看,最终会进入家庭;但前期需在B端场景先行落地——一方面为企业创造价值,另一方面通过实际场景磨炼技术、积累数据,推动技术飞轮转动,因此工业等B端场景会率先发展。
机器人进入家庭其实已发生,比如扫地机器人。未来几年,会有更多简单形态机器人走进家庭;同时,少部分高净值家庭可能开始使用功能尚不完善的通用人形机器人尝鲜,这一趋势近几年会逐步显现。以未来五年为界限,我认为将是家用机器人爆发的窗口期。
Q:灵巧手从去年到今年有哪些突破?星动纪元的定位是什么?
陈建宇:去年灵巧手样机刚出来,现在已实现稳定量产,成本下降很多,稳定性提升,客户量增加。此外,力量和速度有提升,还推出了更高自由度的新品。更重要的是,硬件结合VLA后,已能端到端直接控制每个手指关节的高频动作,打磨得非常不错。
星动纪元的定位是软硬一体:硬件做通用人形,软件做端到端通用模型。从2022年实验室阶段就沿此路径,先造双腿、做运动控制,再构建完整人形及端到端模型,后来攻克双手技术——因为双手比双腿更重要,所有精细操作都依赖双手,而双腿的核心是将双手运到作业地点。
我们在VLA模型研究上国内时间最长、成果最丰富,从快慢系统到世界模型再到强化学习,均全球率先研发;硬件上深度自研,能做完整双手双足机器人,灵巧手可产品化出售,核心零部件从电机到减速器均自主设计。
Q:星动纪元为何坚持开源?未来技术演进的关键是什么?
陈建宇:我们会持续推进模型开源。去年初推出全球首个运控强化学习开源算法humanoid gym,目前是github上最受欢迎的人形机器人开源算法,有1000多个star;今年初又开源了VLA的生成式大模型VPP,后续还有更多动作。
具身智能的进步需要整个生态共同努力。AI领域发展快,很大程度得益于开源风气——开源后行业能在已有基础上深入研究,后续成果又能启发先行者。我们开源后,不少同行在我们工作基础上改进并开源,无论论文还是模型,都给了我们很多启发。
未来技术演进的关键,仍是沿着VLA的广义路径持续迭代,融合世界模型与强化学习,提升机器人的精细化操作、泛化与认知能力,同时通过软硬一体打磨,让机器人从实验室走向产业化,最终走进千家万户。
结语
或许在不远的未来,机器人将不再只是工具,而是成为家庭的新成员。为孩子讲睡前故事,为老人递一杯热茶,为忙碌的职场人分担家务。
一个由具身机器人赋能千行百业、融入千家万户的时代,正带着希望与温度,加速向我们走来。