一根香蕉引发的AI狂潮

IP归属:北京

文章AI导读

一键萃取文章精髓,核心观点即刻呈现

八月中旬,一个低调的匿名模型悄然登陆海外AI测评平台LMArena,没有开发者标签,也没有品牌背书,只有一个奇怪的代号“Nano Banana”。

虽然看起来老实巴交的,但Nano Banana却在平台的Battle模式中,展现出惊人的图像一致性和自然语言编辑能力,轻松击败了众多知名对手。网友们被其一骑绝尘的硬实力折服,自发为它打上“一致性之王”和“Photoshop杀手”等标签。

很快,Nano Banana的热度从AI测评平台蔓延至Reddit和Discord的技术论坛中,人们激烈讨论模型本身的同时,都试图揭开背后开发者的神秘面纱。

正当网友众说纷纭、如火如荼地解谜时,谷歌AI Studio负责人Logon在X平台发布了一个香蕉表情符号,DeepMind产品经理Naina也分享了一张香蕉艺术贴墙作品,加上谷歌以往就有将小型模型命名为Nano的历史,答案变得呼之欲出。

当Nano Banana的热度攀升到峰值时,谷歌终于在8月27日亲自下场揭晓答案:Nano Banana正是其全新推出的图像生成与编辑模型Gemini 2.5 Flash Image。

这场匿名模型引发的全球竞猜游戏,以谷歌官宣认领而告终,但颠覆性的AI图像狂潮,才刚刚开始。

Nano Banana风暴席卷互联网

Nano Banana正式上线一周后,谷歌实验室总裁Josh Woodward在X平台透露,该模型全面推出后已累计完成超2亿次图像编辑,为Gemini吸引了超过1000万新用户,其火爆程度甚至导致谷歌内部“TPU严重过载,SRE警报不停”。

汹涌而来的热情用户,让Nano Banana几乎刷屏了全球各大社交媒体,人们争先恐后参与体验、开发新玩法、分享传播的盛景,不禁令业内人士发出“好像2023年ChatGPT时刻”的感叹。

率先出圈的是Nano Banana多元素拼接的玩法,用户可以上传一张多元素排布图,并给图中每个物品打好标签,然后在指令中下达你想要生成的图片概述即可。

比如一位叫Travis David的用户在X发文称,他将13个元素排布在一张图里上传到Nano Banana,轻松获得了一张堪比VOGUE杂志的时尚大片。

Travis发文中表示,目前13个元素几乎逼近Nano Banana的上限

多元素拼接功能在海量用户的开发下,很快出现各类邪修玩法。

最基础的当属“实现OOTD自由”,以往需要费劲心思扒明星同款穿搭的时尚博主们,如今只要把图片上传给Nano Banana,模型就能秒出穿搭清单,甚至二次元动漫角色的穿搭也能被转化为OOTD图。

只需要上传图片,提示词是“向我展示这个人物的ootd“即可

实测过程中,刺猬公社发现,用户甚至可以让Nano Banana按照指令生成某种风格的模特穿搭图,再将生成的穿搭图拆解为OOTD,全程仅耗时三分钟。拆解OOTD过程中,它犯了一个小小的错误,导致“靴子”单品出现两次,提出修改指令时,它也能“听懂人话”,只删掉多余元素,没有改动图片的其他部分。

这个使用场景反过来同样惊艳,对于日常真人出镜拍摄OOTD的网红模特来说,大可以省去画全妆、找场地、摆pose等一系列为了出片所做的繁琐工作,选一张状态好的全身照、一张面部写真,再把穿搭单品图片上传,写真级别且无需修图的素材转瞬即得。

除了应用于人与物之间的图像生成,网友们还发现Nano Banana同样适用于人与人关系的拼贴,这让一众追星党们直呼万岁。

无论是遥不可及的好莱坞巨星,还是叱咤风云的商界巨擎,就算是叫嚣着自己是火星人的马斯克,只要一声令(prompt)下,都得千里奔赴来跟你拍一张合照。

而更进阶、也是近期最出圈的玩法,就是利用Nano Banana自制手办。

简单的操作是上传自家毛孩子、明星、二次元偶像的图片,直接下令生成适用手办制作的图像,Nano Banana就会给出建模图,甚至连手办成品的细节图乃至视频也能获取。

Nano Banana制作的手办效果图

虽然还没有用户实测做出手办的分享,但刺猬公社发现在万能的电商平台上,已有商家开始承接基于Nano Banana生成图像的手办制作。经我们询问,该商家表示AI生成的手办建模图只能作为参考,实物做出来仍有差距。

左侧是用户上传图片,右侧是商家根据Nano Banana生成图片制作的手办

很多人看到这里也许已瞠目结舌,但Nano Banana的全部实力远不止于此,比如它在地图和建筑领域的空间推理图像再生效果,就让很多专业人士啧啧称奇。

Nano Banana的地图视觉推理能力之强,可以在只上传一张平面地图的情况下,按照用户打的标签和指令,平地起高楼般生成地图对应的实景。

相对应地,如果用户上传一张城市建筑实景图,Nano Banana又能清晰地给出图中建筑的模型图,或者按照用户的要求标注图片建筑的相关信息。

在用户指令要求下,Nano Banana可标注建筑信息/图源:互联网

不仅如此,有网友实测这个功能同样适用于数码电子产品甚至智能汽车。

随着Nano Banana的走红,层出不穷的创意玩法以日为单位被开发出来,利用模型做漫画分镜、给线图上色,甚至直接生成有连贯剧情的电影画面…….

上述一切的发生只用了短短两周时间,其爆发速度甚至超越了当年横空出世的ChatGPT。

剥开Nano Banana的香蕉皮

剥开这款AI产品的香蕉皮,就会发现Nano Banana能够风靡社交媒体,绝非仅是互联网营销的胜利,更是一场技术范式的突破。

通俗来说,Nano Banana的技术突破可以理解为一整套针对“理解-生成-保持一致-快速迭代”闭环的工程化解决方案。

在理解上,早期的AI模型往往“偏科”严重,ChatGPT有很强的文字读写能力,但不太懂图像;而Midjourney和DALL-E 3为代表的模型,绘图能力虽强但对文字的解读却很浅显,经常把指令的需求搞错。

原因在于这些传统模型更像一个“翻译官”,它将用户的指令(prompt)转化成一个中间的、抽象的数学表示,然后图像生成模型再根据这个数学表示来绘图。

这种单向管道式的工作原理,一方面不可避免地会在“中间表示”环节丢失大量原始指令的细微语义;另一方面,它很难原生地处理图像输入,当用户上传一张图片进行编辑时,模型需要先将图片“反向翻译”成中间表示,然后再进一步绘图。

而Nano Banana则像一个生于多语言环境的人,从训练之初就以文本、图像、代码等数据给模型学习,因此它不再需要将一个模态“翻译”成另一个模态,而是天然就具有多模态语义对齐能力。正是这种在文字和图像之间无缝丝滑的切换能力,使得用户可以用日常对话的形式(模糊指令),无痛用嘴修图。

Nano Banana的技术突破远不止于此,它在交错式生成与一致性保持上,也对传统模型进行了降维打击。

顾名思义,交错式生成指模型能够在一个连续的、多步骤的会话中,综合理解所有上下文的能力,包括用户之前下达的文字指令、上传的图片,以及模型自己生成的历史结果;而一致性保持则指模型在多次生成和编辑中,保持特定主题(人物、物体、风格)的核心能力,也是AI图像模型长期竞逐的“圣杯”。

用一个例子来呈现Nano Banana与传统模型的差距,假设任务是为哈利波特创作一组不同场景下的插图。

传统模型就像是与多位独立的插画师合作,每次下达任务前,你都需要用文字重新描述哈利的全部特征“黑头发、绿眼睛、圆眼镜,额头有闪电伤疤”,但令人抓狂的是,每个插画师对文字的理解不尽相同,最终得到的每张图片的哈利虽然都有上述特征,但看起来并不像同一个人。

不仅如此,独立插画师之间对彼此的风格并不了解,如果你想让插画师B绘制“哈利在图书馆复习的场景,且与插画师A负责的魁地奇球场分镜风格一致”,这几乎是不可能完成的任务,因为插画师B既不知道魁地奇球场什么样,也不知道插画师A的风格是什么。

而Nano Banana则像一位与你长期合作的资深插画师,你只需要在最开始工作时告诉他哈利的特征,然后就能与老友对话般轻松和流畅的方式,让这位记忆力绝佳的艺术家,听从你的调遣。

此外,Nano Banana还有着远超传统模型的快速迭代能力。

任何好模型若无法快速响应用户,都会极大降低破圈与普及的潜力。在对用户指令的响应与快速迭代上,传统模型就像用打字机写作,任何一个修改都可能需要重打整页纸,而Nano Banana则进化到了word写作,可以随时删除/修改局部,并立刻看到整篇文章(图像)的新面貌。

Nano Banana能实现这一突破,不仅在于团队将模型压缩优化到实际产品中以秒级响应(实测约13秒/张)返还高清图像,上述多模态语义对齐、交错式生成和一致性保持等优势的加持,也是Nano Banana对用户指令快速响应迭代的重要原因。

颠覆、重塑与共生

从问世到席卷全球的两周时间,Nano Banana的冲击波同样撼动了资本市场与产业端的神经。

谷歌发布Nano Banana当日,创意软件巨头Adobe的股价就应声下跌约2%;比即时波动更关键的是长线走势,据Business Insider报道,Adobe的股价在过去一年累计下跌了35%,主要原因之一就是极速发展的人工智能带来的颠覆性变革。

颠覆带来的危机感随着网友不断解锁Nano Banana的新玩法,传导至更多职业领域。

一位刚入行的电商服装模特告诉刺猬公社,原本中小商家聘请模特拍摄每天成本约1500元/人,上架时间至少以周为单位,而Nano Banana能将这一整套流程压缩至分钟级,“如果AI生成图像的细节继续完善下去,未来肯定不需要这么多真人模特了”。

还有很多电商摄影师、后期修图师,乃至视觉设计师,也纷纷在社媒平台发帖调侃称眼看着被AI抢了饭碗,准备转行去卖咖啡、送外卖、开滴滴。

AI在产业端造成的轰动不仅发生在图像赛道,就在谷歌上线Nano Banana的前一天,翻译界的最高学府蒙特雷国际研究学院宣布关闭,这家曾培养了大量外交官、翻译专家和国际NGO组织负责人的顶级名校,自ChatGPT问世以来生源大幅锐减,最终陷入财务困境。

但历史上的技术革命告诉我们,创新从未单纯地使某个行业消亡,旧生产关系被颠覆的同时,必然伴随产业重构和新职业的诞生。

模特行业不会消亡,但将走向分化,“批量平替”需求势必会被AI取代,但只有人类才能表现出的“故事性”与“情感细节”,始终是市场的稀缺资源。

与此同时,商业摄影师、修图师和设计师的角色也在被重塑,他们的核心价值不再局限于操控相机或软件,而是延展到审美判断、叙事构思和情绪引导,以及最关键的新能力:驾驭AI实现创作意图。

而对于Adobe在内的工具型平台而言,摩根士丹利分析师认为,这些应用软件在AI时代的价值,在于提供“最后一公里”服务。

事实上,互联网用户对于图像和文字生成的需求,无论是千人千面的多样化程度,还是用户基数决定的庞大且碎片化的指令数量,都决定了通用AI模型很难提供端到端的完美解决方案。

因此就像物流运输公司负责中途货运,最后一公里交由快递站点配送一样,Adobe等平台目前也开始接入第三方基础大模型,并基于自身的数据与资源进行后期训练,最终打造出更贴合用户需求、更专业的AI落地产品。

换一种视角看,这场技术浪潮并不是一场零和游戏。Nano Banana的出现加速了产业洗牌,但同时也在打开新的机会窗口。无论是创作者、设计师还是企业,真正的挑战并非如何抵挡AI,而是如何找到与之协作的路径。

工业革命时期的机器扩展了人类的肌肉力量,如今的生成式AI则在延展人类的想象力和表达力。或许我们正在进入一个全新的内容创作阶段,在这里,人与AI并非对立的两极,而是互为补充的伙伴关系。

与AI共生的时代,正缓缓拉开帷幕。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

刺猬公社专栏: https://www.tuoluo.cn/columns/author1912119/

本文网址: https://www.tuoluo.cn/article/detail-10125273.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章