前言:
随着大模型技术逐渐度过“尝鲜期”,开始加速深入各类业务场景之中,B端市场毫无疑问成为了大语言模型技术的主战场。
数字化转型的逐渐深入,B端企业在发展的过程中积累了大量行业与业务数据,而这些数据也成为了垂直领域大模型在B端企业落地生根的“沃土”。
作者| 方文三
图片来源|网 络
技术路径上,大模型呈现LLM-VLM-VLA 进阶特征,从文本理解、图像+文本多模态感知,逐步迈向“视觉-语言-动作”一体化的具身智能,核心是实现从虚拟语义到物理世界操作的跨越。
行业面临两大核心需求:一是“具身化”,机器人需掌握折叠衣物等人类看似简单的物理世界任务;二是“泛化性”,需适应多样化场景与任务,平衡通用大模型与垂域模型的应用边界。
当前主要瓶颈集中在数据缺乏与采集成本高,真机数据获取难度大,纯遥操数据又难以支撑泛化能力,同时商业化落地需在精度与成本间取舍。
本体厂、科技大厂与独角兽企业各有侧重,优必选推出Thinker 多模态大模型,结合群脑网络与Co-Agent技术,聚焦工业与商业场景,2025年订单超6.3亿元;
智元机器人通过ViLLA模型融合VLM+MoE架构,依托真机+互联网+视频数据,实现小样本快速泛化;
Figure AI采用Helix双系统大模型,快慢系统分别负责场景理解与快速动作执行,BotQ工厂年产能达1.2万台;
银河通用以“合成数据预训练+真机实采后训练”模式,推出DexonomySim抓取数据集,已获100家门店订单;谷歌、Physical Intelligence等则侧重技术开源与跨本体数据训练,推动通用能力提升。
数采工具领域,汉威科技开发柔性可穿戴动捕服,南山智尚推出织物触觉智能手套,解决数据采集成本高的痛点;
垂域场景中,物流自动化领域的杭叉集团、安徽合力布局智能搬运机器人,极智嘉发布仓储专用具身智能基座模型。
以下是《Sim+to+Real,具身大模型的问题、现状与投资机会》报告部分内容:









