乐高总能激发人们的无限想象力,形态各异的积木经过“大神”的双手拼凑后,总能带来让人眼前一亮的创意产品。
图源:乐高
比如这个乐高版本的 Apple Store 就利用现有的积木完美还原了一家苹果零售店,Apple Store 应该具有的特征你都可以在这个模型中找到 —— Apple Store 高高的玻璃外墙、店铺外面巨大的白色苹果 logo、木桌上展示的各类产品、穿着蓝色 T 恤的苹果员工、室内种植的绿植等一应俱全。
回到实际操作上,不是每个人都能迸发出这样的创意,即便有了这样的想法,或许也不知道如何利用手中的积木拼凑出美观、结构合理、足够稳定的模型。
最近卡内基梅隆大学(CMU)团队推出的 LegoGPT 项目,让“用 AI 造乐高”成为现实。这个项目不仅能根据文本描述自动生成乐高模型,而且生成的模型还能实际搭建出来,并且“站得住”——不塌、不散。
从“看起来像”到“真的能搭”
过去几年,AI 生成内容(AIGC)在图像、视频、3D 建模等领域风头正劲。你让 AI 生成一个物品的模型,它能画得有模有样,但问题也很明显:现有的许多 3D 生成模型仅仅专注于生成具有详细几何形状的物品,但这些 3D 设计往往无法在物理上实现,也就是只关注了外形,而没有关注结构。生成的 3D 模型如果没有适当的支撑,整体结构可能会发生坍塌或断裂。
尤其在乐高世界,拼搭的限制比想象中多得多:每一块积木都有尺寸、受力、连接方式的
CMU 团队的 LegoGPT,就是为了解决“AI 只会画不会搭”的痛点。它的目标很直接:输入一句话,比如“一把电吉他”,AI 不仅要生成一张电吉他的乐高拼搭图,还要保证这把电吉他真的能拼起来,而且结构稳定,不会一碰就散。
让 AI 像乐高大师一样“搭乐高”
LegoGPT的核心思路,其实和“让 AI 学会写作文”很像。AI 先“读懂”你的描述,然后一步步“搭砖头”,每次选一块合适的乐高积木,放到合适的位置。整个过程分为几个关键步骤:
图源:LegoGPT
-
数据集准备:团队首先构建了一个大规模、物理稳定的乐高模型数据集(StableText2Lego),里面有 47000 多个乐高结构,每个都配有详细的文字描述。这些描述不是人工写的,而是用 OpenAI 的 GPT-4o 模型,结合 24 个不同视角的渲染图自动生成的,专注于几何结构而非颜色。
-
模型训练:LegoGPT 基于 Meta 的 LLaMA-3.2-1B-Instruct 模型进行微调,把“下一块积木放哪儿”这个问题,转化为类似“下一个单词是什么”的自回归预测。每次生成一块积木,模型都会检查它是否和已有的积木冲突,是否在允许的空间内。
-
自动化拼搭与验证:为了验证 AI 生成的拼搭方案的可行性,团队还用机器人手臂自动搭建了一批模型。结果证明,AI 的拼搭方案不仅能让机器人顺利完成,也能让人类玩家手动拼搭成功。
-
物理稳定性检测:生成完一个模型后,系统会用数学模型模拟重力和结构受力,检测结构是否“站得住”。如果发现某一块积木导致结构不稳,系统就会回滚到上一个稳定状态,然后换一种搭法重新尝试。
这套“物理感知回滚”方法是 LegoGPT 能够让模型稳定的关键。没有它,只有 24% 的设计能够保持稳定,而使用完整系统时则达到了 98.8%。
AI 的乐高创意工厂
LegoGPT 目前支持在 20×20×20 格子的空间里,用 8 种常见乐高积木(1×1、1×2、1×4、1×6、1×8、2×2、2×4、2×6)进行拼搭。虽然看起来有点“简陋”,但它已经能应对 20 个常见物体类别,比如桌子、椅子、沙发、吉他、书架等。
图源:LegoGPT
图源:LegoGPT
用户只需要输入一句自然语言描述,比如“有扶手的沙发”、“流线型船只”、“高背椅”,LegoGPT 就能生成一套拼搭方案,并且给出每一步的搭建顺序。更有趣的是,团队还开发了一种基于文本的 LEGO 纹理方法,可以让让 AI 根据描述自动生成不同的配色和纹理。
从效果图来看,目前 LegoGPT 造出来的东西造型简洁、色块分明、细节少。但它的最大优势,就是“能搭出来,能站得住”。对于乐高玩家来说,这比那些只会画图的 AI 更实用。
LegoGPT 团队已将数据集、模型和代码全部开源,方便全球乐高爱好者和研究者“接力”创新。
AI 乐高与现实乐高:全尺寸 F1 赛车的启示
当然,LegoGPT 目前还只是“起步阶段的 AI 乐高大师”。受限于空间(20×20×20 格)、积木类型(8 种基础积木)、类别(20 类常见物体),它现在造出来的东西还比较小巧、简单,难以复现文章开头乐高版 Apple Store 中的复杂结构和精细细节。
团队也坦言,下一步会扩展积木类型库,加入更多尺寸、形状(比如斜坡、圆弧、贴片等),并扩大训练数据集,支持更多物体类别。未来,或许还能让 AI 直接生成“带颜色、带纹理、带细节”的乐高艺术品,甚至自动生成拼搭说明书和动画演示。
图源:F1
聊到这里,不禁让人联想到最近在 F1 迈阿密大奖赛上大放异彩的“全尺寸乐高 F1 赛车”。这个由乐高官方团队花费一年时间、用 40 万块乐高积木和钢架结构打造的巨型模型,不仅外观与 F1 赛车还原度极高,还能实际载人上路,成为车手巡游的“座驾”(车手们也玩得很开心)。
乐高工程师们用数字建模、力学分析、模块化设计等方法,把一辆 F1 赛车拆解成五大部分,再用胶水、锤子和钢架加固,确保每一块砖都足够稳定与牢固。每辆车造价高昂、耗时 2000 小时,但最终能让 F1 车手坐进驾驶舱,驰骋赛道。
虽然 LegoGPT 目前还造不出这种“巨无霸”,但它的物理约束思路、拼搭回滚机制、自动化拼搭验证,和现实乐高工程师的做法如出一辙。未来,随着 AI 能力提升、积木类型丰富、硬件升级,或许 AI 真的能帮我们“自动设计和制造”出全尺寸、可驾驶的乐高汽车。
现在一辆乐高 F1 赛车需要使用 40 万块乐高积木,耗时 2000 小时才能组建完成,或许未来在 LegoGPT 的帮助下可以优化结构设计减少乐高积木的使用,并缩短耗时。
AI 乐高的未来:人人都是创作者
LegoGPT 的出现,不仅让 AI 生成内容迈向“可制造、可落地”,也让普通人拥有了“数字乐高设计师”的能力。你不需要掌握复杂的 3D 建模软件,也不需要精通物理结构,只要输入一句话,就能让 AI 帮你“造梦成真”。
AI 不仅能帮你“设计乐高”,也许某一天还能让你一键实现“个性化定制制造”——你输入一段描述,AI 帮你设计、拼搭、下单,甚至机器人工厂帮你装好快递到家。
当然,它的意义远不止于乐高。类似的 AI 生成+物理约束+自动制造思路,可以推广到家具、建筑、机械等各类制造业。未来的“个性化制造”,也许就是这样:你有想法,AI 帮你设计,机器人帮你制造,最终每个人都能拥有独一无二的定制产品。