AI 乐高大师:输入文字,搭出现实,LegoGPT 改变创意搭建

IP归属:广东

乐高总能激发人们的无限想象力,形态各异的积木经过“大神”的双手拼凑后,总能带来让人眼前一亮的创意产品。

图源:乐高

比如这个乐高版本的 Apple Store 就利用现有的积木完美还原了一家苹果零售店,Apple Store 应该具有的特征你都可以在这个模型中找到 —— Apple Store 高高的玻璃外墙、店铺外面巨大的白色苹果 logo、木桌上展示的各类产品、穿着蓝色 T 恤的苹果员工、室内种植的绿植等一应俱全。

回到实际操作上,不是每个人都能迸发出这样的创意,即便有了这样的想法,或许也不知道如何利用手中的积木拼凑出美观、结构合理、足够稳定的模型。

最近卡内基梅隆大学(CMU)团队推出的 LegoGPT 项目,让“用 AI 造乐高”成为现实。这个项目不仅能根据文本描述自动生成乐高模型,而且生成的模型还能实际搭建出来,并且“站得住”——不塌、不散。

从“看起来像”到“真的能搭”

过去几年,AI 生成内容(AIGC)在图像、视频、3D 建模等领域风头正劲。你让 AI 生成一个物品的模型,它能画得有模有样,但问题也很明显:现有的许多 3D 生成模型仅仅专注于生成具有详细几何形状的物品,但这些 3D 设计往往无法在物理上实现,也就是只关注了外形,而没有关注结构。生成的 3D 模型如果没有适当的支撑,整体结构可能会发生坍塌或断裂。

尤其在乐高世界,拼搭的限制比想象中多得多:每一块积木都有尺寸、受力、连接方式的

CMU 团队的 LegoGPT,就是为了解决“AI 只会画不会搭”的痛点。它的目标很直接:输入一句话,比如“一把电吉他”,AI 不仅要生成一张电吉他的乐高拼搭图,还要保证这把电吉他真的能拼起来,而且结构稳定,不会一碰就散。

让 AI 像乐高大师一样“搭乐高”

LegoGPT的核心思路,其实和“让 AI 学会写作文”很像。AI 先“读懂”你的描述,然后一步步“搭砖头”,每次选一块合适的乐高积木,放到合适的位置。整个过程分为几个关键步骤:

图源:LegoGPT

  • 数据集准备:团队首先构建了一个大规模、物理稳定的乐高模型数据集(StableText2Lego),里面有 47000 多个乐高结构,每个都配有详细的文字描述。这些描述不是人工写的,而是用 OpenAI 的 GPT-4o 模型,结合 24 个不同视角的渲染图自动生成的,专注于几何结构而非颜色。

  • 模型训练:LegoGPT 基于 Meta 的 LLaMA-3.2-1B-Instruct 模型进行微调,把“下一块积木放哪儿”这个问题,转化为类似“下一个单词是什么”的自回归预测。每次生成一块积木,模型都会检查它是否和已有的积木冲突,是否在允许的空间内。

  • 自动化拼搭与验证:为了验证 AI 生成的拼搭方案的可行性,团队还用机器人手臂自动搭建了一批模型。结果证明,AI 的拼搭方案不仅能让机器人顺利完成,也能让人类玩家手动拼搭成功。

https://mpvideo.qpic.cn/0bc3uma2eaabauamlwrfqzufdi6dukrqdiqa.f10002.mp4?dis_k=6b8620327b175277ca52a1d098f0adb2&dis_t=1747276079&play_scene=10110&auth_info=WZGRht8oQJmy4Z4ieOLCm4RgdGZPZA4tbDoXSTApSWViexxrNwNhGV9hC2wPXnp5aQ15R1tu&auth_key=ecfc61d5561d8fd774a7c669302cb896&vid=wxv_3986669563495497731&format_id=10002&support_redirect=1&mmversion=7.0.20.1781

  • 物理稳定性检测:生成完一个模型后,系统会用数学模型模拟重力和结构受力,检测结构是否“站得住”。如果发现某一块积木导致结构不稳,系统就会回滚到上一个稳定状态,然后换一种搭法重新尝试。

这套“物理感知回滚”方法是 LegoGPT 能够让模型稳定的关键。没有它,只有 24% 的设计能够保持稳定,而使用完整系统时则达到了 98.8%。

AI 的乐高创意工厂

LegoGPT 目前支持在 20×20×20 格子的空间里,用 8 种常见乐高积木(1×1、1×2、1×4、1×6、1×8、2×2、2×4、2×6)进行拼搭。虽然看起来有点“简陋”,但它已经能应对 20 个常见物体类别,比如桌子、椅子、沙发、吉他、书架等。

图源:LegoGPT

图源:LegoGPT

用户只需要输入一句自然语言描述,比如“有扶手的沙发”、“流线型船只”、“高背椅”,LegoGPT 就能生成一套拼搭方案,并且给出每一步的搭建顺序。更有趣的是,团队还开发了一种基于文本的 LEGO 纹理方法,可以让让 AI 根据描述自动生成不同的配色和纹理。

从效果图来看,目前 LegoGPT 造出来的东西造型简洁、色块分明、细节少。但它的最大优势,就是“能搭出来,能站得住”。对于乐高玩家来说,这比那些只会画图的 AI 更实用。

LegoGPT 团队已将数据集、模型和代码全部开源,方便全球乐高爱好者和研究者“接力”创新。

AI 乐高与现实乐高:全尺寸 F1 赛车的启示

当然,LegoGPT 目前还只是“起步阶段的 AI 乐高大师”。受限于空间(20×20×20 格)、积木类型(8 种基础积木)、类别(20 类常见物体),它现在造出来的东西还比较小巧、简单,难以复现文章开头乐高版 Apple Store 中的复杂结构和精细细节。

团队也坦言,下一步会扩展积木类型库,加入更多尺寸、形状(比如斜坡、圆弧、贴片等),并扩大训练数据集,支持更多物体类别。未来,或许还能让 AI 直接生成“带颜色、带纹理、带细节”的乐高艺术品,甚至自动生成拼搭说明书和动画演示。

图源:F1

聊到这里,不禁让人联想到最近在 F1 迈阿密大奖赛上大放异彩的“全尺寸乐高 F1 赛车”。这个由乐高官方团队花费一年时间、用 40 万块乐高积木和钢架结构打造的巨型模型,不仅外观与 F1 赛车还原度极高,还能实际载人上路,成为车手巡游的“座驾”(车手们也玩得很开心)。

https://mpvideo.qpic.cn/0bc3cma2maab3mamc5jfxvufce6duyjqdjqa.f10002.mp4?dis_k=97e12157c9a256c54405519964861cf4&dis_t=1747276079&play_scene=10110&auth_info=W7PFmud9QMS77pJ8frLFn4JvITtIZA8raW5MGTUpTTFgLEluMFdhRFZuBzIJDn19bwIsGlxu&auth_key=a5cb2077eed0766af2ee36a57b724d1e&vid=wxv_3986670140699148303&format_id=10002&support_redirect=1&mmversion=7.0.20.1781

乐高工程师们用数字建模、力学分析、模块化设计等方法,把一辆 F1 赛车拆解成五大部分,再用胶水、锤子和钢架加固,确保每一块砖都足够稳定与牢固。每辆车造价高昂、耗时 2000 小时,但最终能让 F1 车手坐进驾驶舱,驰骋赛道。

虽然 LegoGPT 目前还造不出这种“巨无霸”,但它的物理约束思路、拼搭回滚机制、自动化拼搭验证,和现实乐高工程师的做法如出一辙。未来,随着 AI 能力提升、积木类型丰富、硬件升级,或许 AI 真的能帮我们“自动设计和制造”出全尺寸、可驾驶的乐高汽车。

现在一辆乐高 F1 赛车需要使用 40 万块乐高积木,耗时 2000 小时才能组建完成,或许未来在 LegoGPT 的帮助下可以优化结构设计减少乐高积木的使用,并缩短耗时。

AI 乐高的未来:人人都是创作者

LegoGPT 的出现,不仅让 AI 生成内容迈向“可制造、可落地”,也让普通人拥有了“数字乐高设计师”的能力。你不需要掌握复杂的 3D 建模软件,也不需要精通物理结构,只要输入一句话,就能让 AI 帮你“造梦成真”。

AI 不仅能帮你“设计乐高”,也许某一天还能让你一键实现“个性化定制制造”——你输入一段描述,AI 帮你设计、拼搭、下单,甚至机器人工厂帮你装好快递到家。

当然,它的意义远不止于乐高。类似的 AI 生成+物理约束+自动制造思路,可以推广到家具、建筑、机械等各类制造业。未来的“个性化制造”,也许就是这样:你有想法,AI 帮你设计,机器人帮你制造,最终每个人都能拥有独一无二的定制产品。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10122054.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章