对话影眸科技 CTO 张启煊:大力不会永远出奇迹

IP归属:重庆

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

3D 生成行业很大,但刚刚到GPT-2 的水平,国内团队要领先海外团队,大厂与创业公司在同一起跑线。

撰文|蓝洞商业 赵卫卫

消费级的生成式AI屡见不鲜,工业级的生成式AI亟待新突破,继腾讯混元入局3D生成模型之后,字节跳动最近也发布了3D生成大模型Seed3D 1.0。

工业级的3D生成意味着更高的精度和质量,而且适用的行业也主要集中在B端行业。腾讯混元3D生成模型已经进化到了3.0版本,主要用于游戏开发,而字节跳动展示的3D生成大模型使用场景,主要瞄准仿真环境中的具身智能大模型训练。

衡量一个3D生成模型的能力,目前没有绝对标准,只有相对质量的对比。

在字节跳动Seed3D 1.0的测试图中,还原度、透视与结构、几何质量等多个维度都优于同行对手,而它选取的国内对手中,表现较好的分别是影眸科技的Rodin Gen-1.5、腾讯Hunyuan 3D-2.1和VAST的Tripo 2.5。

影眸科技团队,后排左一为CEO吴迪,前排左一为CTO张启煊

尤其是影眸科技,这家专注于3D大模型技术的创业公司由吴迪、张启煊等人于2020年创立,去年A轮融资时,影眸科技的主要产品Rodin用45天就拿到了100万美元ARR,字节跳动和美团龙珠领投,在今年的A+轮中,字节跳动继续追加投资。

值得注意的是,过去一年间,字节在自身AI业务上飞速发展,但战略投资很少出手AI项目,影眸科技是为数不多的一家。

如今,字节跳动亲自下场布局3D生成模型,不难看出对这一赛道的重视,这也意味着3D生成市场会迎来更快发展。

9月,影眸科技上新了Rodin Gen-2.0版本的模型,相比上一代模型,生成的3D模型有了更加锐利和平直的边缘,这一代模型在交互上增加了分件功能,让用户通过指定颗粒度来控制和重新拆分零件,增加了用户可用性的同时领先于同类产品。

与此同时,网易游戏的《蛋仔派对》、3D打印行业的拓竹等公司和产品,都已经用上了影眸科技的Rodin,他们通过Rodin的3D生成开发产品,这大大提升了3D内容生产的规模和效率。

但3D生成的ChatGPT时刻尚未到来,影眸科技CTO张启煊认为,当下行业差不多刚刚发展到GPT-2的水平,而未来进化的方向,是要满足不同行业的具体使用场景,更需要互联网大厂和创业公司们齐头并进。

在腾讯、字节纷纷下场布局3D生成模型的当下,影眸科技作为创业公司如何思考未来的发展?「蓝洞商业」对话了影眸科技CTO张启煊,以下为内容精编:

蓝洞:你看到大厂相继入局3D生成的产品之后,第一反应是什么?

张启煊:这更像是一个信号,表示愿意投入3D生成这件事。

腾讯混元3D大模型真正的飞跃,是今年三四月份,混元3D把模型参数量上到了百亿级规模,这种尝试需要一次性投入巨大的算力成本,对初创公司来说风险很大,但幸运的是混元成功了,后面的公司再去Scaling(规模化)就比较有信心了。

蓝洞:大厂在3D生成的场景上各有侧重,比如腾讯主要是游戏,字节主要是具身智能和电商,你们呢?

张启煊:具身智能的几家头部公司也都在用我们的产品,包括上海交大的穆尧老师有一个Robo Twin项目,通过结合现实世界的遥操作数据与数字孪生的合成数据,为双臂机器人的研究提供强有力的支持,他们就选择我们Rodin去生成具身智能的3D资产,因为生成的模型横平竖直规整度很高。

具身智能领域的数据来源有两个,一个是真实数据,另一个是虚拟数据。

如果你要在仿真环境中做虚拟数据的话,肯定需要3D资产在仿真环境中使用,那这个3D资产不可能靠扫描,也不太能够雇人去建,靠现有的数据集的话又太少了,这时候3D生成就是很好的方向。

消费级的文字、音频、图片或是视频内容生成,都是往社交媒体走的,但3D生成不是这种模态,它不是直接跟大众接触,从网易游戏到3D打印行业的拓竹,都是我们的客户,但不同行业对3D的要求是不一样的,差异非常巨大。

比如3D打印行业更关注模型的水密性,而游戏行业是一个很长的工业管线,我们在逐步攻破布线、UV和绑定动画等问题,因为表面的平整度和曲面规范性非常重要。

蓝洞:对于一个普通用户来说,现在接触你们的3D生成最普遍的形式是什么?

张启煊:一个是3D打印,另外一个就是网易的游戏《蛋仔派对》。《蛋仔派对》上的「AI模型生成」功能,让玩家输出文字或上传图片就可以生成高质量模型,然后在乐园工坊中直接使用,这意味着3D⽣成技术已经进⼊了⼤规模商业应⽤阶段。

能够跟大厂合作,是因为我们团队在国内的图形学中是领先的,在国际图形学顶级会议上斩获过「最佳论文奖」和「TOP10技术论文速览」双料荣誉。

对于很多游戏公司来说,选择第三方模型是现阶段最稳妥的方案,因为各家模型有各自的特点,语言模型上GPT-5更好还是Claude更好?视频生成上Sora-2跟VEO-3.1哪个更好?大家都很难说绝对领先,我们只能说第一梯队是谁。

蓝洞:现阶段国内3D生成的第一梯队是谁?

张启煊:我认为是我们Rodin-2跟腾讯混元3D。我们不担心竞争,最担心的是大厂没有加入这个游戏。

目前海外市场,基本占了我们收入的百分之七八十。海外主要在布局这一块的是Roblox,它是一个在线游戏创建平台,让用户通过免费工具来创作内容,Roblox最早做了3D Control Net,能够产生高质量的输出。

一年前发布1.0版本的时候,我们的一个卖点就是可控性很高,用3D的Control Net把设计产品的长宽高比例等固定下来,而不是让AI胡乱生成, 这对游戏和工业设计是非常重要的刚需。上个月,混元3D也发布了原生3D组件生成模型的可控功能。

蓝洞:上个月发布的新版本,相比去年的1.5版本,行业有哪些新变化?外界有哪些新的反馈?

张启煊:现在跟去年相比,总的来说3D生成整个行业最大的变化就是参数量上去了。

比如去年年底,我们发布Rodin Gen-1.5版本的时候,参数量是超过40亿,而现在整个3D生成行业第一梯队中的模型,标配已经是百亿参数了,百亿参数也就意味着你背后的数据量,已经到百万级别了。

所以行业飞速发展,一方面创业公司有了资本和资源去收集大量3D数据,渠道已经打通,也不再担心3D数据从哪里来,而另外一方面,第一波做3D生成的公司已经赚钱了,所以互联网大厂也注意到了这个方向,开始跟游戏业务做协同,后面包括初创公司和大厂的竞争会更激烈。

我们影眸的特点是模型侧各种功能性上的改进,比如将模型快速拆解为多个独立部件,这些功能性和底层框架上比较领先。

上个月发布的新版本,我们已经提前把基座模型给到一些用户体验,主打的功能就是分件,用户体验感觉很不错。

但意想不到的反馈是,很多人觉得我们贴图质量变差了,其实我们做过AB test,换回原来的贴图模型会更差,背后原因是模型质量提升了之后,大家对贴图的要求更高了,显得贴图质量变差了。

我们每个版本的迭代都是朝着用户需求展开,比如国内一家知名智能硬件科技企业,他们设计师都在用我们的产品,给我们的反馈是需要3D生成边缘锐利,我们回去就在1.5版本中把这个特性做出来了。如今到2.0版本,我们分件功能也是来自设计行业的需求,让设计变得更可控,使用面更广了。

对于3D打印行业来说,现在小红书上很多案例,都是用我们的产品生成3D设计之后拼装的案例。现在还需要下载之后在三维软件中进一步操作,但后面我们会把这一套流程集成在我们网站中,不再需要用户二次操作。

蓝洞:从你们的产品UI设计上,能感觉你们的审美超过很多大厂,这是怎么来的?

张启煊:我们团队很多艺术家,几个创始成员都喜欢拍电影,都会自己用三维动画软件Blender做3D渲染,所以很多产品宣传片让外界以为是专业团队做的,其实都是我们自己设计的。在交互上的设计也是,与其说满足自己的审美偏好,不如说帮用户做到足够方便,否则效果不会好。

蓝洞:就目前3D生成来说,大厂比创业公司的优势大很多吗?

张启煊:大模型最重要的还是数据。至少目前,大厂跟创业公司在3D生成上是站在同一起跑线的。比如说,我们现在的数据量级已经超出腾讯这样级别的大厂在做的游戏数据量。

举个例子,一般中小型游戏有几百到上千个模型,中大型游戏则是几千到上万个。假设顶级游戏公司有100个游戏,每个游戏有1万个模型,那么它最多有100万个模型,而我们现在有的数量级已经远远超过这个数量了。

大厂可以大力出奇迹,一次两次可以,但第三次可能就难了。大家能看出GPT-5和GPT-4o的巨大差别吗?所以要的是在体验和场景使用上的新突破。

3D是个很大的行业,但3D生成现在其实差不多刚刚到GPT-2的水平,而且国内的团队要领先海外团队,我们私下开玩笑说,最聪明的那批人全都没在做3D生成,海外的聪明人都去做AI视频生成,都去做AGI了。

蓝洞:制约3D生成下一步发展的条件,除了巨大的算力消耗还有什么?如何找到新的突破方向?

张启煊:之前是有了模型之后去定制产品,比如从GPT-3.5到GPT- 4,而其实一个新的方向是为了一个产品去定制一个模型,比如最新的Sora 2。

它是为了社交媒体玩法,设计了可以植入人物多人合拍的功能,这些功能都是需要在网络侧引入的。再比如Google的AI图像生成和编辑工具Nano Banana,也是从产品角度出发设计了一个新的网络结构。

那对应到3D生成领域,我们很早就意识到为了用户需求要在功能上进行设计,比如之前的3D Control Net和现在的分件,都是因为要满足不同行业的具体使用场景,而不是加大数据和参数让绝对质量变高。

3D生成行业刚刚起步,因为3D行业不同行业对3D模型需求差异远要比图像跟视频高很多。比如工业设计都要CAD模型,需要的是曲面模型而不是网格化的,那就要求我们把模型变成曲面参数表达,每完成一个新的里程碑,就会在新的领域里发现新的客户去使用你的东西,这就是后面大家整个AI生成行业去迭代的方向。

蓝洞:最近美国李飞飞团队也发布了全新实时生成式世界模型RTFM,一张H100就可以运行,他们主导的3D生成方向本质是学会了渲染的AI,而你之前也提到未来看好的方向是用生成式的方式去做渲染,这其中有什么不同?

张启煊:我们其实不是一个赛道。李飞飞老师功成名就,她要考虑的是人类未来10年或20年后的东西,所以很前卫,他们的产品有点像视频生成,是颠覆现在图形渲染管线的事,其实不是为了这一代游戏和这一代的CG去做的,所以周期肯定更长。

而我们作为一家小初创公司,要先解决现阶段的生存问题。3D生成是基于Mesh表达, 所谓Mesh表达就是由大量三角形面拼接而成的3D模型表达形式,它跟现在的CG还有游戏的工业是接轨的。

我看好未来生成式的方式去做渲染,我们也确实在布局,但跟我们现在的Rodin产品不太相关。之前大家想要呈现一个精致的视频画面,背后有3D模型、光照和材质等等要求,然后通过渲染引擎去得到最后的图像。而生成式AI改变了这个规则,图像可以直接降噪生成视频,但做不到非常精准,我们就希望把视频生成变成一个渲染器,去完成妥当的渲染。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

蓝洞商业专栏: https://www.tuoluo.cn/columns/author1878792/

本文网址: https://www.tuoluo.cn/article/detail-10126223.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章