一根香蕉引发的AI狂潮

刺猬公社原创 2025-09-15 09:31 热度 3154

微信扫一扫：分享

微信里点“发现”，扫一下
二维码便可将本文分享至朋友圈

IP归属：北京

文章AI导读

一键萃取文章精髓，核心观点即刻呈现

# 梳理该事件的完整脉络

# 该文章有哪些有意思的观点或数据

# 大家对该事件的态度表现如何？

八月中旬，一个低调的匿名模型悄然登陆海外AI测评平台LMArena，没有开发者标签，也没有品牌背书，只有一个奇怪的代号“Nano Banana”。

虽然看起来老实巴交的，但Nano Banana却在平台的Battle模式中，展现出惊人的图像一致性和自然语言编辑能力，轻松击败了众多知名对手。网友们被其一骑绝尘的硬实力折服，自发为它打上“一致性之王”和“Photoshop杀手”等标签。

很快，Nano Banana的热度从AI测评平台蔓延至Reddit和Discord的技术论坛中，人们激烈讨论模型本身的同时，都试图揭开背后开发者的神秘面纱。

正当网友众说纷纭、如火如荼地解谜时，谷歌AI Studio负责人Logon在X平台发布了一个香蕉表情符号，DeepMind产品经理Naina也分享了一张香蕉艺术贴墙作品，加上谷歌以往就有将小型模型命名为Nano的历史，答案变得呼之欲出。

当Nano Banana的热度攀升到峰值时，谷歌终于在8月27日亲自下场揭晓答案：Nano Banana正是其全新推出的图像生成与编辑模型Gemini 2.5 Flash Image。

这场匿名模型引发的全球竞猜游戏，以谷歌官宣认领而告终，但颠覆性的AI图像狂潮，才刚刚开始。

Nano Banana风暴席卷互联网

Nano Banana正式上线一周后，谷歌实验室总裁Josh Woodward在X平台透露，该模型全面推出后已累计完成超2亿次图像编辑，为Gemini吸引了超过1000万新用户，其火爆程度甚至导致谷歌内部“TPU严重过载，SRE警报不停”。

汹涌而来的热情用户，让Nano Banana几乎刷屏了全球各大社交媒体，人们争先恐后参与体验、开发新玩法、分享传播的盛景，不禁令业内人士发出“好像2023年ChatGPT时刻”的感叹。

率先出圈的是Nano Banana多元素拼接的玩法，用户可以上传一张多元素排布图，并给图中每个物品打好标签，然后在指令中下达你想要生成的图片概述即可。

比如一位叫Travis David的用户在X发文称，他将13个元素排布在一张图里上传到Nano Banana，轻松获得了一张堪比VOGUE杂志的时尚大片。

Travis发文中表示，目前13个元素几乎逼近Nano Banana的上限

多元素拼接功能在海量用户的开发下，很快出现各类邪修玩法。

最基础的当属“实现OOTD自由”，以往需要费劲心思扒明星同款穿搭的时尚博主们，如今只要把图片上传给Nano Banana，模型就能秒出穿搭清单，甚至二次元动漫角色的穿搭也能被转化为OOTD图。

只需要上传图片，提示词是“向我展示这个人物的ootd“即可

实测过程中，刺猬公社发现，用户甚至可以让Nano Banana按照指令生成某种风格的模特穿搭图，再将生成的穿搭图拆解为OOTD，全程仅耗时三分钟。拆解OOTD过程中，它犯了一个小小的错误，导致“靴子”单品出现两次，提出修改指令时，它也能“听懂人话”，只删掉多余元素，没有改动图片的其他部分。

这个使用场景反过来同样惊艳，对于日常真人出镜拍摄OOTD的网红模特来说，大可以省去画全妆、找场地、摆pose等一系列为了出片所做的繁琐工作，选一张状态好的全身照、一张面部写真，再把穿搭单品图片上传，写真级别且无需修图的素材转瞬即得。

除了应用于人与物之间的图像生成，网友们还发现Nano Banana同样适用于人与人关系的拼贴，这让一众追星党们直呼万岁。

无论是遥不可及的好莱坞巨星，还是叱咤风云的商界巨擎，就算是叫嚣着自己是火星人的马斯克，只要一声令（prompt)下，都得千里奔赴来跟你拍一张合照。

而更进阶、也是近期最出圈的玩法，就是利用Nano Banana自制手办。

简单的操作是上传自家毛孩子、明星、二次元偶像的图片，直接下令生成适用手办制作的图像，Nano Banana就会给出建模图，甚至连手办成品的细节图乃至视频也能获取。

Nano Banana制作的手办效果图

虽然还没有用户实测做出手办的分享，但刺猬公社发现在万能的电商平台上，已有商家开始承接基于Nano Banana生成图像的手办制作。经我们询问，该商家表示AI生成的手办建模图只能作为参考，实物做出来仍有差距。

左侧是用户上传图片，右侧是商家根据Nano Banana生成图片制作的手办

很多人看到这里也许已瞠目结舌，但Nano Banana的全部实力远不止于此，比如它在地图和建筑领域的空间推理图像再生效果，就让很多专业人士啧啧称奇。

Nano Banana的地图视觉推理能力之强，可以在只上传一张平面地图的情况下，按照用户打的标签和指令，平地起高楼般生成地图对应的实景。

相对应地，如果用户上传一张城市建筑实景图，Nano Banana又能清晰地给出图中建筑的模型图，或者按照用户的要求标注图片建筑的相关信息。

在用户指令要求下，Nano Banana可标注建筑信息/图源：互联网

不仅如此，有网友实测这个功能同样适用于数码电子产品甚至智能汽车。

随着Nano Banana的走红，层出不穷的创意玩法以日为单位被开发出来，利用模型做漫画分镜、给线图上色，甚至直接生成有连贯剧情的电影画面…….

上述一切的发生只用了短短两周时间，其爆发速度甚至超越了当年横空出世的ChatGPT。

剥开Nano Banana的香蕉皮

剥开这款AI产品的香蕉皮，就会发现Nano Banana能够风靡社交媒体，绝非仅是互联网营销的胜利，更是一场技术范式的突破。

通俗来说，Nano Banana的技术突破可以理解为一整套针对“理解-生成-保持一致-快速迭代”闭环的工程化解决方案。

在理解上，早期的AI模型往往“偏科”严重，ChatGPT有很强的文字读写能力，但不太懂图像；而Midjourney和DALL-E 3为代表的模型，绘图能力虽强但对文字的解读却很浅显，经常把指令的需求搞错。

原因在于这些传统模型更像一个“翻译官”，它将用户的指令（prompt）转化成一个中间的、抽象的数学表示，然后图像生成模型再根据这个数学表示来绘图。

这种单向管道式的工作原理，一方面不可避免地会在“中间表示”环节丢失大量原始指令的细微语义；另一方面，它很难原生地处理图像输入，当用户上传一张图片进行编辑时，模型需要先将图片“反向翻译”成中间表示，然后再进一步绘图。

而Nano Banana则像一个生于多语言环境的人，从训练之初就以文本、图像、代码等数据给模型学习，因此它不再需要将一个模态“翻译”成另一个模态，而是天然就具有多模态语义对齐能力。正是这种在文字和图像之间无缝丝滑的切换能力，使得用户可以用日常对话的形式（模糊指令），无痛用嘴修图。

Nano Banana的技术突破远不止于此，它在交错式生成与一致性保持上，也对传统模型进行了降维打击。

顾名思义，交错式生成指模型能够在一个连续的、多步骤的会话中，综合理解所有上下文的能力，包括用户之前下达的文字指令、上传的图片，以及模型自己生成的历史结果；而一致性保持则指模型在多次生成和编辑中，保持特定主题（人物、物体、风格）的核心能力，也是AI图像模型长期竞逐的“圣杯”。

用一个例子来呈现Nano Banana与传统模型的差距，假设任务是为哈利波特创作一组不同场景下的插图。

传统模型就像是与多位独立的插画师合作，每次下达任务前，你都需要用文字重新描述哈利的全部特征“黑头发、绿眼睛、圆眼镜，额头有闪电伤疤”，但令人抓狂的是，每个插画师对文字的理解不尽相同，最终得到的每张图片的哈利虽然都有上述特征，但看起来并不像同一个人。

不仅如此，独立插画师之间对彼此的风格并不了解，如果你想让插画师B绘制“哈利在图书馆复习的场景，且与插画师A负责的魁地奇球场分镜风格一致”，这几乎是不可能完成的任务，因为插画师B既不知道魁地奇球场什么样，也不知道插画师A的风格是什么。

而Nano Banana则像一位与你长期合作的资深插画师，你只需要在最开始工作时告诉他哈利的特征，然后就能与老友对话般轻松和流畅的方式，让这位记忆力绝佳的艺术家，听从你的调遣。

此外，Nano Banana还有着远超传统模型的快速迭代能力。

任何好模型若无法快速响应用户，都会极大降低破圈与普及的潜力。在对用户指令的响应与快速迭代上，传统模型就像用打字机写作，任何一个修改都可能需要重打整页纸，而Nano Banana则进化到了word写作，可以随时删除/修改局部，并立刻看到整篇文章（图像）的新面貌。

Nano Banana能实现这一突破，不仅在于团队将模型压缩优化到实际产品中以秒级响应（实测约13秒/张）返还高清图像，上述多模态语义对齐、交错式生成和一致性保持等优势的加持，也是Nano Banana对用户指令快速响应迭代的重要原因。

颠覆、重塑与共生

从问世到席卷全球的两周时间，Nano Banana的冲击波同样撼动了资本市场与产业端的神经。

谷歌发布Nano Banana当日，创意软件巨头Adobe的股价就应声下跌约2%；比即时波动更关键的是长线走势，据Business Insider报道，Adobe的股价在过去一年累计下跌了35%，主要原因之一就是极速发展的人工智能带来的颠覆性变革。

颠覆带来的危机感随着网友不断解锁Nano Banana的新玩法，传导至更多职业领域。

一位刚入行的电商服装模特告诉刺猬公社，原本中小商家聘请模特拍摄每天成本约1500元/人，上架时间至少以周为单位，而Nano Banana能将这一整套流程压缩至分钟级，“如果AI生成图像的细节继续完善下去，未来肯定不需要这么多真人模特了”。

还有很多电商摄影师、后期修图师，乃至视觉设计师，也纷纷在社媒平台发帖调侃称眼看着被AI抢了饭碗，准备转行去卖咖啡、送外卖、开滴滴。

AI在产业端造成的轰动不仅发生在图像赛道，就在谷歌上线Nano Banana的前一天，翻译界的最高学府蒙特雷国际研究学院宣布关闭，这家曾培养了大量外交官、翻译专家和国际NGO组织负责人的顶级名校，自ChatGPT问世以来生源大幅锐减，最终陷入财务困境。

但历史上的技术革命告诉我们，创新从未单纯地使某个行业消亡，旧生产关系被颠覆的同时，必然伴随产业重构和新职业的诞生。

模特行业不会消亡，但将走向分化，“批量平替”需求势必会被AI取代，但只有人类才能表现出的“故事性”与“情感细节”，始终是市场的稀缺资源。

与此同时，商业摄影师、修图师和设计师的角色也在被重塑，他们的核心价值不再局限于操控相机或软件，而是延展到审美判断、叙事构思和情绪引导，以及最关键的新能力：驾驭AI实现创作意图。

而对于Adobe在内的工具型平台而言，摩根士丹利分析师认为，这些应用软件在AI时代的价值，在于提供“最后一公里”服务。

事实上，互联网用户对于图像和文字生成的需求，无论是千人千面的多样化程度，还是用户基数决定的庞大且碎片化的指令数量，都决定了通用AI模型很难提供端到端的完美解决方案。

因此就像物流运输公司负责中途货运，最后一公里交由快递站点配送一样，Adobe等平台目前也开始接入第三方基础大模型，并基于自身的数据与资源进行后期训练，最终打造出更贴合用户需求、更专业的AI落地产品。

换一种视角看，这场技术浪潮并不是一场零和游戏。Nano Banana的出现加速了产业洗牌，但同时也在打开新的机会窗口。无论是创作者、设计师还是企业，真正的挑战并非如何抵挡AI，而是如何找到与之协作的路径。

工业革命时期的机器扩展了人类的肌肉力量，如今的生成式AI则在延展人类的想象力和表达力。或许我们正在进入一个全新的内容创作阶段，在这里，人与AI并非对立的两极，而是互为补充的伙伴关系。

与AI共生的时代，正缓缓拉开帷幕。

AI NanoBanana 模型

陀螺科技现已开放专栏入驻，详情请见入驻指南： https://www.tuoluo.cn/article/detail-27547.html

刺猬公社专栏： https://www.tuoluo.cn/columns/author1912119/

本文网址： https://www.tuoluo.cn/article/detail-10125273.html

免责声明：
1、本文版权归原作者所有，仅代表作者本人观点，不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为，侵权责任将由作者本人承担。

上一篇：靠嘴吃饭的罗永浩，把西贝吃怕了

下一篇： AI芯天下丨分析丨斑马智行要赴港上市，技术优势能否转化成商业成果？

AI“炒币”实录：DeepSeek翻倍，Qwen3下重注...

区块链行业真的需要创新了

Sora 2上线之后，我却发现了AIGC的另一种可能性

调研称今年26%的游戏人曾被裁，高管：想等AI成熟了再招...

祝贺英伟达成为历史上第一家5万亿美元市值公司

X402又是一场叙事泡沫？看看专家、KOL怎么说