深度体验谷歌Nano Banana后，我们发现了它的AB面

2025-09-15 13:24:09 来源：智百道

　　文 / 道哥

　　上线不到两周，谷歌旗下的Nano Banana已在全球生产超2亿张图片，亚太地区用户热情度居首。

　　这个图片编辑模型界的“新星”，上个月在全球人工智能社区里还是一个不知出处的神秘代号。在AI模型匿名对战平台LMArena上，它以惊人的表现迅速登顶排行榜，在处理复杂指令、保持角色连贯性和理解上下文细节方面的能力，轻松击败了包括OpenAI和Midjourney在内的所有知名对手。一时间，关于“Nano Banana”究竟是何方神圣的猜测甚嚣尘上。

　　谜底很快揭晓，谷歌正式宣布这匹黑马正是其最新升级的图像生成与编辑模型——Gemini 2.5 Flash Image，它作为一项重大更新被集成到了谷歌的AI应用Gemini之中，由Google DeepMind提供技术支持。

　　《智百道》认为，“Nano Banana”的问世，并非仅仅是图像模型的又一次迭代，它预示着谷歌正试图将AI转变为一个深度嵌入工作流程的“创意协作者”，意在打破当前市场上由Midjourney主导的艺术美学和由OpenAI主导的文本生产力工具之间的二元格局，开辟一条以“工作流”为核心的全新赛道。

　　01 重新定义“P图”，像对话一样编辑现实

　　传统AI图像工具的交互模式，往往是“一问一答”式的，用户需要绞尽脑汁设计出完美的提示词(prompt)，模型则一次性生成结果。后续的修改，无论是通过Midjourney的“Vary”功能还是DALL-E的局部重绘，都感觉像是独立的、离散的操作。

　　“Nano Banana”则引入了一种“创意伙伴”(creative partner)的新模式，用户可以发起一个初始指令，然后通过连续的自然语言对话，对生成的图像进行迭代式优化。这种多轮编辑能力，使得AI能够记忆上下文，理解用户的连续意图，从而实现渐进式的、精细化调整。

　　《智百道》尝试让模型生成一个“空荡荡的房间”，接着说“把墙壁刷成鹅黄色”，然后是“在墙边加一个书架”，最后“放置吊灯、沙发和地毯”。在整个过程中，“Nano Banana”始终保持着对场景的整体认知，每一次修改都在前一次的基础上进行，而不是推倒重来。

　　《智百道》认为，这种交互方式极大地降低了使用门槛，让复杂的视觉构想得以通过最自然的对话形式逐步实现。让用户的角色从一个“提示词工程师”转变为一个真正的“创意总监”，其价值不再仅仅是提出最初的构想，更在于通过与AI的持续互动来打磨和完善最终的作品，也更贴近人类创作者的自然思维过程。

　　对话式体验的背后，建立在模型的四大核心技术之上，它们共同构成了“Nano Banana”颠覆性的能力矩阵。

　　首先是角色与风格一致性，之前的模型很难在多张图片中保持同一个角色的面部特征、服装或特定风格。“Nano Banana”在这一点上取得了突破，能够确保一个人物、宠物甚至是一个品牌产品，在不同的场景、姿态和服装下，依然保持其核心外观的连贯性。

　　其次是多图像融合，该功能允许用户上传多张不同的图片，让模型理解并将其中的元素、主体或风格无缝地融合到一个全新的、逻辑自洽的场景中。

　　第三是精准的局部编辑，用户无需使用复杂的选区或蒙版工具，只需通过简单的文字描述，就能对图像的特定区域进行修改。无论是“移除T恤上的污渍”、“模糊照片的背景”，还是“改变人物的姿势”，模型都能精准定位并执行操作，同时保持图像其他部分的完整性和协调性。

　　最后是设计与风格迁移，模型能够从一张图片中提取颜色、纹理或图案等设计元素，并将其应用到另一张图片中的对象上。谷歌官方演示的例子包括“用花瓣的颜色和纹理设计一双雨靴”，或是“用蝴蝶翅膀的图案设计一条连衣裙”，展现了其在跨概念创意组合方面的潜力。

　　正如一些科技媒体所评论的，“Nano Banana”正在成为“每个人的Photoshop”。它将过去需要数年学习才能掌握的专业图像处理技术，转化为普通人通过日常语言就能使用的工具。对于广大普通用户而言，这意味着他们可以轻松地为社交媒体创作更具个性化的内容，为个人项目制作独特的视觉材料，或者仅仅是为了娱乐而实现各种天马行空的想象。

　　对于平面设计师、插画师和视觉艺术家等专业创作者而言，“Nano Banana”可以把他们从大量重复、繁琐的执行性任务中解放出来。比如，为一个广告活动制作15个尺寸略有不同的版本，或者为一系列产品图更换不同的背景，这些过去耗时耗力的工作现在可以交由AI自动完成。这使得专业人士能将更多精力投入到更高层次的品牌战略、复杂的版式设计以及决定作品优劣的最终细节打磨上。

　　该模型也很快被专业人士买单，全球最大的广告传播集团WPP的全球创意与创新主管Daniel Barak指出，该模型在零售业和消费品行业中展现了强大的应用范例，并计划将其整合到WPP的AI营销服务平台WPP Open中。

　　02 谷歌做对了什么?

　　在正式揭晓身份之前，“Nano Banana”已经在匿名的LMArena对战平台上证明了自己。它在人类偏好测试中，尤其是在图像编辑任务上，以高达1362的Elo分数高居榜首，显著领先于竞争对手。

　　除了模型本身的技术创新，谷歌还巧妙地利用了其庞大的生态系统优势。“Nano Banana”继承了Gemini大模型的“原生世界知识”，这意味着它不仅仅是一个图像生成器，更是一个具备常识和推理能力的系统。它能够理解和生成具有深层语义准确性的图像，例如，它可以读懂手绘的图表并回答相关问题，或者根据用户所在的地理位置，生成符合当地文化习惯的图片。

　　在商业策略上，谷歌采取了极具竞争力的定价，通过API调用，每生成一张图片的成本约为0.039美元，低价策略极大地降低了开发者和企业进行大规模、高频次图像生成的门槛。《智百道》认为，这是一种典型的平台战略，旨在通过价格优势快速抢占市场份额，鼓励开发者围绕其API构建应用生态。

　　谷歌的战略也清晰可见，它并非要在所有维度上都做到极致。Midjourney在艺术美学上依然是王者，而OpenAI则凭借其庞大的ChatGPT用户基础在通用性上占优。谷歌选择的突破口是工作流，通过打造一款在专业人士最常遇到的80%任务(如保持一致性、反复修改、快速出图)上表现卓越、且成本低廉的工具，它精准地切入了对实用性和集成度要求极高的企业级市场。

　　这是一种典型的用“更好用、更便宜”的产品来满足主流市场需求的策略，即便它在某些顶尖的艺术性指标上并非最佳，但其在商业应用上的综合价值却可能更高。

　　03 香蕉的“另一面”，不完美现实与未解的伦理题

　　尽管“Nano Banana”在功能和理念上带来了诸多突破，但它远非完美，用户的实际体验和深入的审视揭示了其在技术层面的一系列短板。

　　首先是分辨率和细节的损失。科技媒体CNET的评测指出，该模型在处理用户上传的高质量照片后，输出的图像分辨率常常会降低，导致原始照片中的精细细节变得模糊。这对于追求画质的摄影师和专业设计师来说，是一个难以接受的硬伤。

　　其次是僵化的格式限制，目前，该模型强制输出正方形(1:1)的图像，并且会忽略用户提出的更改宽高比的指令。这一限制极大地束缚了其在不同媒介上的应用。尽管一些高级用户已经找到了通过特定指令“欺骗”模型输出不同比例图像的“黑客”方法，但这无疑增加了使用成本和不确定性。

　　此外，其性能并不稳定，在某些看似简单的任务上，如移除玻璃上的反光，模型可能会反复失败，并且每一次尝试都可能进一步降低图像质量，甚至扭曲画面中的人脸。一些Reddit用户甚至抱怨，公开发布的版本感觉比之前在LMArena上测试的匿名版本性能有所下降，在一致性和指令遵循方面打了折扣。

　　值得注意的是，为了避免陷入安全与伦理性争议，新版的“Nano Banana”似乎走向了另一个极端：过度审查。大量用户反映，模型内置了极其严格的安全过滤器，常常会拒绝执行完全无害、符合社区规范的指令。这种“宁可错杀一千，不可放过一个”的策略，虽然在一定程度上避免了政治不正确的风险，

　　此外，所有由“Nano Banana”生成或编辑的图像，都会被打上可见的水印和一种名为SynthID的不可见数字水印。这项由Google DeepMind开发的技术，旨在从源头上明确内容的AI生成属性，以帮助对抗虚假信息和恶意滥用。

　　近期，谷歌也公布了Gemini各层级服务的具体使用限制，免费用户每天可生成100张图片，Google AI Pro订阅用户每天可生成1000张图片，Google AI Ultra订阅用户每天同样可生成1000张图片，但享有其他Gemini功能的更高配额。

　　“Nano Banana”的发布，也带来了一个关于未来的深刻问题：这究竟是标志着人机交互进入新纪元的“iPhone时刻”，还是科技巨头之间又一轮愈演愈烈的军备竞赛?

　　《智百道》认为，从核心贡献来看，它的真正突破在于将视觉创作的交互范式从“编写指令”转向了“进行对话”。这种以工作流为中心、强调迭代和精炼的模式，无疑比以往任何工具都更贴近人类的自然创作思维。就像iPhone的多点触控技术让复杂的计算变得直观易用一样，“Nano Banana”的对话式编辑也极大地降低了高级视觉创作的门槛，改变了人与AI之间的协作关系。

　　然而，也必须把这一创新置于生成式AI领域白热化的竞争格局中。谷歌凭借“Nano Banana”在图像编辑和工作流整合上扳回一城，但其竞争对手并未停歇，OpenAI正继续将其图像能力深度整合进ChatGPT庞大的生态系统，而Midjourney在艺术风格化的赛道上依旧一骑绝尘。

　　“Nano Banana”的长期意义或许并不在于它是否是当前“最好”的模型，而在于它所代表的战略方向——将AI作为一种无缝、直观、深度嵌入日常工作流程的协作工具。这场风暴过后，创意产业的图景已然改变。它加速了创意的民主化进程，重塑了专业人士的角色定位。

　　谷歌的“香蕉”可能不是战争的终点，但它无疑是改变了战场规则的那颗信号弹，创意工作者与AI“副驾驶”共生的时代，已经到来。

中文科技资讯微信二维码logo