人机共生 · 智启未来——2025高交会亚洲人工智能与机器人产业链展主题发布2025年国产主流分布式数据库产品换季空气差?TCL小蓝翼P7新风空调以科技守护呼吸健康响应工信部门试点,元萝卜“做家电价格的机器人”锚定养老场景宝骏公布OTA升级计划,将于年底行业首发10万级城市领航辅助AMD携手武汉纺织大学计算机与人工智能学院,共启AI+纺织创新篇章小鹏汽车加速欧洲市场布局,开启海外本地化生产新篇章国产智驾Momenta冒头,会是下一个华为吗?小米 17 / Pro / Pro Max 旗舰手机官宣本月发布:全球首发第五代骁龙 8 至尊版“卷”无可卷!洗地机巨头为何集体跨界“出走”?王兴兴:机器人最大的问题还是AI模型?大模型怎么不够用了?消息称小牛电动创始人李一男再创业,入局新能源特种车赛道深度体验谷歌Nano Banana后,我们发现了它的AB面罗永浩:华与华老板已跟我道歉,这件事可以过去了西贝合伙人回应预制菜争议,称罗永浩跟海底捞撒尿男孩没有太大区别6G是面向AI时代的通信变革,高通钱堃称6G非5G的简单升级赛力斯周林:融合向新 助力汽车产业系统性突破为现代开放式厨房量身打造!老板高端油烟机风神E1P京东首发开售AI对话“动口不动手”,鸿蒙版豆包全面升级语音交互能力去哪儿机票AI客服导购助手入选“数智影响力”先锋案例
  • 首页 > 产经新闻频道 > 媒体快读

    深度体验谷歌Nano Banana后,我们发现了它的AB面

    2025-09-15 13:24:09 来源:智百道

      文 / 道哥

      上线不到两周,谷歌旗下的Nano Banana已在全球生产超2亿张图片,亚太地区用户热情度居首。

      这个图片编辑模型界的“新星”,上个月在全球人工智能社区里还是一个不知出处的神秘代号。在AI模型匿名对战平台LMArena上,它以惊人的表现迅速登顶排行榜,在处理复杂指令、保持角色连贯性和理解上下文细节方面的能力,轻松击败了包括OpenAI和Midjourney在内的所有知名对手。一时间,关于“Nano Banana”究竟是何方神圣的猜测甚嚣尘上。

      谜底很快揭晓,谷歌正式宣布这匹黑马正是其最新升级的图像生成与编辑模型——Gemini 2.5 Flash Image,它作为一项重大更新被集成到了谷歌的AI应用Gemini之中,由Google DeepMind提供技术支持。

      《智百道》认为,“Nano Banana”的问世,并非仅仅是图像模型的又一次迭代,它预示着谷歌正试图将AI转变为一个深度嵌入工作流程的“创意协作者”,意在打破当前市场上由Midjourney主导的艺术美学和由OpenAI主导的文本生产力工具之间的二元格局,开辟一条以“工作流”为核心的全新赛道。

      01 重新定义“P图”,像对话一样编辑现实

      传统AI图像工具的交互模式,往往是“一问一答”式的,用户需要绞尽脑汁设计出完美的提示词(prompt),模型则一次性生成结果。后续的修改,无论是通过Midjourney的“Vary”功能还是DALL-E的局部重绘,都感觉像是独立的、离散的操作。

      “Nano Banana”则引入了一种“创意伙伴”(creative partner)的新模式,用户可以发起一个初始指令,然后通过连续的自然语言对话,对生成的图像进行迭代式优化。这种多轮编辑能力,使得AI能够记忆上下文,理解用户的连续意图,从而实现渐进式的、精细化调整。

      《智百道》尝试让模型生成一个“空荡荡的房间”,接着说“把墙壁刷成鹅黄色”,然后是“在墙边加一个书架”,最后“放置吊灯、沙发和地毯”。在整个过程中,“Nano Banana”始终保持着对场景的整体认知,每一次修改都在前一次的基础上进行,而不是推倒重来。

      《智百道》认为,这种交互方式极大地降低了使用门槛,让复杂的视觉构想得以通过最自然的对话形式逐步实现。让用户的角色从一个“提示词工程师”转变为一个真正的“创意总监”,其价值不再仅仅是提出最初的构想,更在于通过与AI的持续互动来打磨和完善最终的作品,也更贴近人类创作者的自然思维过程。

      对话式体验的背后,建立在模型的四大核心技术之上,它们共同构成了“Nano Banana”颠覆性的能力矩阵。

      首先是角色与风格一致性,之前的模型很难在多张图片中保持同一个角色的面部特征、服装或特定风格。“Nano Banana”在这一点上取得了突破,能够确保一个人物、宠物甚至是一个品牌产品,在不同的场景、姿态和服装下,依然保持其核心外观的连贯性。

      其次是多图像融合,该功能允许用户上传多张不同的图片,让模型理解并将其中的元素、主体或风格无缝地融合到一个全新的、逻辑自洽的场景中。

      第三是精准的局部编辑,用户无需使用复杂的选区或蒙版工具,只需通过简单的文字描述,就能对图像的特定区域进行修改。无论是“移除T恤上的污渍”、“模糊照片的背景”,还是“改变人物的姿势”,模型都能精准定位并执行操作,同时保持图像其他部分的完整性和协调性。

      最后是设计与风格迁移,模型能够从一张图片中提取颜色、纹理或图案等设计元素,并将其应用到另一张图片中的对象上。谷歌官方演示的例子包括“用花瓣的颜色和纹理设计一双雨靴”,或是“用蝴蝶翅膀的图案设计一条连衣裙”,展现了其在跨概念创意组合方面的潜力。

      正如一些科技媒体所评论的,“Nano Banana”正在成为“每个人的Photoshop”。它将过去需要数年学习才能掌握的专业图像处理技术,转化为普通人通过日常语言就能使用的工具。对于广大普通用户而言,这意味着他们可以轻松地为社交媒体创作更具个性化的内容,为个人项目制作独特的视觉材料,或者仅仅是为了娱乐而实现各种天马行空的想象。

      对于平面设计师、插画师和视觉艺术家等专业创作者而言,“Nano Banana”可以把他们从大量重复、繁琐的执行性任务中解放出来。比如,为一个广告活动制作15个尺寸略有不同的版本,或者为一系列产品图更换不同的背景,这些过去耗时耗力的工作现在可以交由AI自动完成。这使得专业人士能将更多精力投入到更高层次的品牌战略、复杂的版式设计以及决定作品优劣的最终细节打磨上。

      该模型也很快被专业人士买单,全球最大的广告传播集团WPP的全球创意与创新主管Daniel Barak指出,该模型在零售业和消费品行业中展现了强大的应用范例,并计划将其整合到WPP的AI营销服务平台WPP Open中。

      02 谷歌做对了什么?

      在正式揭晓身份之前,“Nano Banana”已经在匿名的LMArena对战平台上证明了自己。它在人类偏好测试中,尤其是在图像编辑任务上,以高达1362的Elo分数高居榜首,显著领先于竞争对手。

      除了模型本身的技术创新,谷歌还巧妙地利用了其庞大的生态系统优势。“Nano Banana”继承了Gemini大模型的“原生世界知识”,这意味着它不仅仅是一个图像生成器,更是一个具备常识和推理能力的系统。它能够理解和生成具有深层语义准确性的图像,例如,它可以读懂手绘的图表并回答相关问题,或者根据用户所在的地理位置,生成符合当地文化习惯的图片。

      在商业策略上,谷歌采取了极具竞争力的定价,通过API调用,每生成一张图片的成本约为0.039美元,低价策略极大地降低了开发者和企业进行大规模、高频次图像生成的门槛。《智百道》认为,这是一种典型的平台战略,旨在通过价格优势快速抢占市场份额,鼓励开发者围绕其API构建应用生态。

      谷歌的战略也清晰可见,它并非要在所有维度上都做到极致。Midjourney在艺术美学上依然是王者,而OpenAI则凭借其庞大的ChatGPT用户基础在通用性上占优。谷歌选择的突破口是工作流,通过打造一款在专业人士最常遇到的80%任务(如保持一致性、反复修改、快速出图)上表现卓越、且成本低廉的工具,它精准地切入了对实用性和集成度要求极高的企业级市场。

      这是一种典型的用“更好用、更便宜”的产品来满足主流市场需求的策略,即便它在某些顶尖的艺术性指标上并非最佳,但其在商业应用上的综合价值却可能更高。

      03 香蕉的“另一面”,不完美现实与未解的伦理题

      尽管“Nano Banana”在功能和理念上带来了诸多突破,但它远非完美,用户的实际体验和深入的审视揭示了其在技术层面的一系列短板。

      首先是分辨率和细节的损失。科技媒体CNET的评测指出,该模型在处理用户上传的高质量照片后,输出的图像分辨率常常会降低,导致原始照片中的精细细节变得模糊。这对于追求画质的摄影师和专业设计师来说,是一个难以接受的硬伤。

      其次是僵化的格式限制,目前,该模型强制输出正方形(1:1)的图像,并且会忽略用户提出的更改宽高比的指令。这一限制极大地束缚了其在不同媒介上的应用。尽管一些高级用户已经找到了通过特定指令“欺骗”模型输出不同比例图像的“黑客”方法,但这无疑增加了使用成本和不确定性。

      此外,其性能并不稳定,在某些看似简单的任务上,如移除玻璃上的反光,模型可能会反复失败,并且每一次尝试都可能进一步降低图像质量,甚至扭曲画面中的人脸。一些Reddit用户甚至抱怨,公开发布的版本感觉比之前在LMArena上测试的匿名版本性能有所下降,在一致性和指令遵循方面打了折扣。

      值得注意的是,为了避免陷入安全与伦理性争议,新版的“Nano Banana”似乎走向了另一个极端:过度审查。大量用户反映,模型内置了极其严格的安全过滤器,常常会拒绝执行完全无害、符合社区规范的指令。这种“宁可错杀一千,不可放过一个”的策略,虽然在一定程度上避免了政治不正确的风险,

      此外,所有由“Nano Banana”生成或编辑的图像,都会被打上可见的水印和一种名为SynthID的不可见数字水印。这项由Google DeepMind开发的技术,旨在从源头上明确内容的AI生成属性,以帮助对抗虚假信息和恶意滥用。

      近期,谷歌也公布了Gemini各层级服务的具体使用限制,免费用户每天可生成100张图片,Google AI Pro订阅用户每天可生成1000张图片,Google AI Ultra订阅用户每天同样可生成1000张图片,但享有其他Gemini功能的更高配额。

      “Nano Banana”的发布,也带来了一个关于未来的深刻问题:这究竟是标志着人机交互进入新纪元的“iPhone时刻”,还是科技巨头之间又一轮愈演愈烈的军备竞赛?

      《智百道》认为,从核心贡献来看,它的真正突破在于将视觉创作的交互范式从“编写指令”转向了“进行对话”。这种以工作流为中心、强调迭代和精炼的模式,无疑比以往任何工具都更贴近人类的自然创作思维。就像iPhone的多点触控技术让复杂的计算变得直观易用一样,“Nano Banana”的对话式编辑也极大地降低了高级视觉创作的门槛,改变了人与AI之间的协作关系。

      然而,也必须把这一创新置于生成式AI领域白热化的竞争格局中。谷歌凭借“Nano Banana”在图像编辑和工作流整合上扳回一城,但其竞争对手并未停歇,OpenAI正继续将其图像能力深度整合进ChatGPT庞大的生态系统,而Midjourney在艺术风格化的赛道上依旧一骑绝尘。

      “Nano Banana”的长期意义或许并不在于它是否是当前“最好”的模型,而在于它所代表的战略方向——将AI作为一种无缝、直观、深度嵌入日常工作流程的协作工具。这场风暴过后,创意产业的图景已然改变。它加速了创意的民主化进程,重塑了专业人士的角色定位。

      谷歌的“香蕉”可能不是战争的终点,但它无疑是改变了战场规则的那颗信号弹,创意工作者与AI“副驾驶”共生的时代,已经到来。

    中文科技资讯微信二维码logo

      文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。

    海报生成中...

    最新新闻

    热门新闻

    即时

    全球顶级AI创作社区回归!海艺AI国内首发“全民娱乐化创作

    海艺AI的模型系统在国际市场上广受好评,目前站内累计模型数超过80万个,涵盖写实、二次元、插画、设计、摄影、风格化图像等多类型应用场景,基本覆盖所有主流创作风格。

    新闻

    市场占比高达35.8%,阿里云引领中国AI云增长

    9月9日,国际权威市场调研机构英富曼(Omdia)发布了《中国AI云市场,1H25》报告。中国AI云市场阿里云占比8%位列第一。

    企业IT

    “三位一体”数据保护体系,筑牢企业出海安全“生命

    戴尔科技一直致力于通过“三位一体”数据保护体系,为中国企业的数据安全“保驾护航”。

    3C消费

    雅马哈推出两款高端头戴耳机YH-4000与YH-C3000

    雅马哈昨日宣布推出两款头戴式耳机,分别是平板振膜的YH-4000和动圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清洁机器人出货量同比暴

    IDC今日发布的《全球智能家居清洁机器人设备市场季度跟踪报告,2025年第二季度》显示,上半年全球智能家居清洁机器人市场出货1,2万台,同比增长33%,显示出品类强劲的市场需求。