type
status
date
slug
summary
tags
category
icon
password
Nano Banana是谷歌AI Studio新出的生图系统。前几天正式开放,效果惊人。我通过多轮测试,了解了其在垫图生图、多图融合、手绘理解、环境重构等多个维度的能力,同时还参考了即刻平台上归藏、Zhao等创作者生成的惊艳效果。
可以说,Nano Banana不仅在技术层面表现突出,更在“视觉智能”的理解层面展现出前所未有的成熟度。
1 Nano Banana的垫图生图能力
我用我女儿的两张照片作为素材,生成了一个数字模特试试:
目前多数AI系统已支持垫图(image prompting),但精准保留面部特征始终有挑战。Nano Banana在这方面表现非常出色,不仅五官、发型高度还原,神态也捕捉得极为自然。

垫图现在都能做的不错,但人物面容特征要保留并不是每家AI都能做的好。Banana的呈现很不错,我使用了如下描述(中文也可,但容易中断——目前来看似乎英文接受度更好)
Based on the two facial images I provided, generate a basic three-view model that fAIthfully reflects the facial features from the reference images. The full-body views should include front, side, and back angles. The character must wear only a white tank top and shorts, agAInst a pure white or transparent background. Use a studio-realistic photography style.
2 Nano Banana的组图能力


不得不说,这个融图能力太强了!
指令很简单:
The character in Figure 2 is wearing the clothing and accessories from Figure 1.
看看细节:

3 理解手绘能力
这次,我按 归藏 的教程,手画了一个姿势给banana参考,让它将女儿的姿势调整一下。

描述语是:Have the little girl from the previous image pose in this position, mAIntAIning her original hAIrstyle and clothing.

4 环境变化与人物角度调整
我找到一张照片,是我在教室上课学生汇报时的照片。由于光线较弱,加上投影仪的光线影响,这个照片质量不算太好。

我希望将女孩和她的沙发放入教室,且让她“一起听课”。
Have the little girl sit on her sofa(pic1) in this classroom(pic2), listening to someone giving a speech. She and the sofa should be facing to the left instead of facing the camera

可惜位置不是很好,她大模大样地坐在教室中间,这可不太好。

通过移动沙发,让她坐在了合适的角落。
接下来,我尝试了一个更复杂的表述——不是通过我的描述词/提示词来表达,而是通过“想象力”来实现生图
5 理解与想象
这次,最后一项测试不再依赖具体指令,而是交由系统“想象”出一个合理画面:我告诉它想象有一个摄影师在教室里,使用55mm镜头为这个小女孩拍摄特写照片。女孩的容貌保持不变,背景需与现有环境保持一致。请生成一张看起来像是摄影师为她拍摄的真实照片。
Imagine a photographer in a classroom using a 55mm lens to take a close-up photo of this little girl. The girl's appearance remAIns unchanged, and the background should match the existing environment. Please generate an image that looks like it was taken by the photographer for her.

我觉得这个效果还是很赞的!
因为它理解了环境——周围的投影,电视,以及电视上的人物都还在。
我又生成了另一个更大的特写
Great, also need another close-ups from different angle, paying attention to how the ambient light affects its colors.
角度虽然变了,远处的人物其实已经有变化了,讲桌处原来是女生,现在已经变成似乎是男生了,角落里的空调也变成了柜子了,但是很有意思的是,那双骚绿的鞋子它始终没忘记,说明它还是很会抓主要特征的

一点感受:创作者的想象力
工具在进化,但人的主体性反而因此更加凸显。
Nano Banana 这样的工具,其伟大之处不在于它替代了谁,而在于它极大地拓展了创作者的想象力和执行力的边界。它将技术实现的门槛几乎降为零,使得创作者可以不再受困于“我不会画光影”、“我建不了模”、“我找不到那个角度”等执行层面的桎梏。
于是,竞争的核心从 “能否实现” 迅速转向 “能否想到”。
这正将人们区别开的能力,变得前所未有的清晰:
想象力: 技术能帮你画,但无法替你想。当每个人都能通过提示词生成图像时,那个最独特、最动人、最出乎意料的核心创意概念就变得价值连城。你能想到“让我的女儿坐在教室的沙发上听课”,这就是想象力的胜利。
综合组织与叙事能力: 单一的图像不再稀缺,稀缺的是组织多模态信息、构建连贯叙事的能力。你能将两张毫不相干的图片(女儿的沙发照和教室照片)在脑中关联,并构思出一个合理的场景,这就是一种关键的综合能力。未来的创作者,更像是导演或策展人,而非仅仅是画师。
学习与迭代能力: 看到第一次生成结果中“女孩坐在教室中间”不合理,能立刻分析原因,并通过调整提示词(“移动沙发到角落”)进行精准迭代。这种与AI协同工作、快速试错、持续优化的能力,是高效创作的新范式。
审美与判断力:AI可以生成一百个选项,但选择哪一个最好、最符合需求、最有美感,这个决定权牢牢握在人的手中。你的审美高度,直接决定了最终作品的高度。
能动性:最重要的是那股“我想做一个东西” 的原始冲动。技术在这里,文档在这里,但最终是谁主动地去测试、去探索、去组合、去发表?是创作者的内在驱动力在推动一切发生。
技术民主化释放的不是均匀的才华,而是差异化的想象力。
————————
ps1 目前AI Studio只对特定账号开放(我发现我的老帐号都用不了),有一个免费可用的网站,后台回复 “NANO”,我推给你
ps2 标题党——任何人的三岁女儿,或者Ta自己都可以成为数字模特😁
————end————