你看到的OOTD圖,可能是AI做的。
文|朗寧
編|陳梅希
八月中旬,一個低調的匿名模型悄然登陸海外AI測評平台LMArena,沒有開發者標簽,也沒有品牌背書,隻有一個奇怪的代號“Nano Banana”。
雖然看起來老實巴交的,但Nano Banana卻在平台的Battle模式中,展現出驚人的圖像一致性和自然語言編輯能力,輕鬆擊敗了眾多知名對手。網友們被其一騎絕塵的硬實力折服,自發為它打上“一致性之王”和“Photoshop殺手”等標簽。
很快,Nano Banana的熱度從AI測評平台蔓延至Reddit和Discord的技術論壇中,人們激烈討論模型本身的同時,都試圖揭開背後開發者的神秘麵紗。
正當網友眾說紛紜、如火如荼地解謎時,穀歌AI Studio負責人Logon在X平台發布了一個香蕉表情符號,DeepMind產品經理Naina也分享了一張香蕉藝術貼牆作品,加上穀歌以往就有將小型模型命名為Nano的曆史,答案變得呼之欲出。
當Nano Banana的熱度攀升到峰值時,穀歌終於在8月27日親自下場揭曉答案:Nano Banana正是其全新推出的圖像生成與編輯模型Gemini 2.5 Flash Image。
這場匿名模型引發的全球競猜遊戲,以穀歌官宣認領而告終,但顛覆性的AI圖像狂潮,才剛剛開始。
Nano Banana風暴席卷互聯網
Nano Banana正式上線一周後,穀歌實驗室總裁Josh Woodward在X平台透露,該模型全麵推出後已累計完成超2億次圖像編輯,為Gemini吸引了超過1000萬新用戶,其火爆程度甚至導致穀歌內部“TPU嚴重過載,SRE警報不停”。
洶湧而來的熱情用戶,讓Nano Banana幾乎刷屏了全球各大社交媒體,人們爭先恐後參與體驗、開發新玩法、分享傳播的盛景,不禁令業內人士發出“好像2023年ChatGPT時刻”的感歎。
率先出圈的是Nano Banana多元素拚接的玩法,用戶可以上傳一張多元素排布圖,並給圖中每個物品打好標簽,然後在指令中下達你想要生成的圖片概述即可。
比如一位叫Travis David的用戶在X發文稱,他將13個元素排布在一張圖裏上傳到Nano Banana,輕鬆獲得了一張堪比VOGUE雜誌的時尚大片。
Travis發文中表示,目前13個元素幾乎逼近Nano Banana的上限
多元素拚接功能在海量用戶的開發下,很快出現各類邪修玩法。
最基礎的當屬“實現OOTD自由”,以往需要費勁心思扒明星同款穿搭的時尚博主們,如今隻要把圖片上傳給Nano Banana,模型就能秒出穿搭清單,甚至二次元動漫角色的穿搭也能被轉化為OOTD圖。
隻需要上傳圖片,提示詞是“向我展示這個人物的ootd“即可
實測過程中,刺蝟公社發現,用戶甚至可以讓Nano Banana按照指令生成某種風格的模特穿搭圖,再將生成的穿搭圖拆解為OOTD,全程僅耗時三分鍾。拆解OOTD過程中,它犯了一個小小的錯誤,導致“靴子”單品出現兩次,提出修改指令時,它也能“聽懂人話”,隻刪掉多餘元素,沒有改動圖片的其他部分。
AI生成的模特圖和OOTD,生成工具:Gemini2.5FlashImage(Nano Banana)
這個使用場景反過來同樣驚豔,對於日常真人出鏡拍攝OOTD的網紅模特來說,大可以省去畫全妝、找場地、擺pose等一係列為了出片所做的繁瑣工作,選一張狀態好的全身照、一張麵部寫真,再把穿搭單品圖片上傳,寫真級別且無需修圖的素材轉瞬即得。
反向適用於OOTD試穿/圖源:互聯網
除了應用於人與物之間的圖像生成,網友們還發現Nano Banana同樣適用於人與人關係的拚貼,這讓一眾追星黨們直呼萬歲。
無論是遙不可及的好萊塢巨星,還是叱吒風雲的商界巨擎,就算是叫囂著自己是火星人的馬斯克,隻要一聲令(prompt)下,都得千裏奔赴來跟你拍一張合照。
讓天下沒有追不到的星/圖源:互聯網
而更進階、也是近期最出圈的玩法,就是利用Nano Banana自製手辦。
簡單的操作是上傳自家毛孩子、明星、二次元偶像的圖片,直接下令生成適用手辦製作的圖像,Nano Banana就會給出建模圖,甚至連手辦成品的細節圖乃至視頻也能獲取。
Nano Banana製作的手辦效果圖/圖源:互聯網
雖然還沒有用戶實測做出手辦的分享,但刺蝟公社發現在萬能的電商平台上,已有商家開始承接基於Nano Banana生成圖像的手辦製作。經国产AV蜜桃网站詢問,該商家表示AI生成的手辦建模圖隻能作為參考,實物做出來仍有差距。
左側是用戶上傳圖片,右側是商家根據Nano Banana生成圖片製作的手辦
很多人看到這裏也許已瞠目結舌,但Nano Banana的全部實力遠不止於此,比如它在地圖和建築領域的空間推理圖像再生效果,就讓很多專業人士嘖嘖稱奇。
Nano Banana的地圖視覺推理能力之強,可以在隻上傳一張平麵地圖的情況下,按照用戶打的標簽和指令,平地起高樓般生成地圖對應的實景。
一位用戶在地圖上標注鳥巢,Nano Banana生成的實景/圖源:互聯網
相對應地,如果用戶上傳一張城市建築實景圖,Nano Banana又能清晰地給出圖中建築的模型圖,或者按照用戶的要求標注圖片建築的相關信息。
在用戶指令要求下,Nano Banana可標注建築信息/圖源:互聯網
不僅如此,有網友實測這個功能同樣適用於數碼電子產品甚至智能汽車。
右邊是模型生成的內部結構圖/圖源:互聯網
隨著Nano Banana的走紅,層出不窮的創意玩法以日為單位被開發出來,利用模型做漫畫分鏡、給線圖上色,甚至直接生成有連貫劇情的電影畫麵…….
上述一切的發生隻用了短短兩周時間,其爆發速度甚至超越了當年橫空出世的ChatGPT。
剝開Nano Banana的香蕉皮
剝開這款AI產品的香蕉皮,就會發現Nano Banana能夠風靡社交媒體,絕非僅是互聯網營銷的勝利,更是一場技術範式的突破。
通俗來說,Nano Banana的技術突破可以理解為一整套針對“理解-生成-保持一致-快速迭代”閉環的工程化解決方案。
在理解上,早期的AI模型往往“偏科”嚴重,ChatGPT有很強的文字讀寫能力,但不太懂圖像;而Midjourney和DALL-E 3為代表的模型,繪圖能力雖強但對文字的解讀卻很淺顯,經常把指令的需求搞錯。
原因在於這些傳統模型更像一個“翻譯官”,它將用戶的指令(prompt)轉化成一個中間的、抽象的數學表示,然後圖像生成模型再根據這個數學表示來繪圖。
這種單向管道式的工作原理,一方麵不可避免地會在“中間表示”環節丟失大量原始指令的細微語義;另一方麵,它很難原生地處理圖像輸入,當用戶上傳一張圖片進行編輯時,模型需要先將圖片“反向翻譯”成中間表示,然後再進一步繪圖。
而Nano Banana則像一個生於多語言環境的人,從訓練之初就以文本、圖像、代碼等數據給模型學習,因此它不再需要將一個模態“翻譯”成另一個模態,而是天然就具有多模態語義對齊能力。正是這種在文字和圖像之間無縫絲滑的切換能力,使得用戶可以用日常對話的形式(模糊指令),無痛用嘴修圖。
Nano Banana團隊/圖源:DeepMind
Nano Banana的技術突破遠不止於此,它在交錯式生成與一致性保持上,也對傳統模型進行了降維打擊。
顧名思義,交錯式生成指模型能夠在一個連續的、多步驟的會話中,綜合理解所有上下文的能力,包括用戶之前下達的文字指令、上傳的圖片,以及模型自己生成的曆史結果;而一致性保持則指模型在多次生成和編輯中,保持特定主題(人物、物體、風格)的核心能力,也是AI圖像模型長期競逐的“聖杯”。
用一個例子來呈現Nano Banana與傳統模型的差距,假設任務是為哈利波特創作一組不同場景下的插圖。
傳統模型就像是與多位獨立的插畫師合作,每次下達任務前,你都需要用文字重新描述哈利的全部特征“黑頭發、綠眼睛、圓眼鏡,額頭有閃電傷疤”,但令人抓狂的是,每個插畫師對文字的理解不盡相同,最終得到的每張圖片的哈利雖然都有上述特征,但看起來並不像同一個人。
不僅如此,獨立插畫師之間對彼此的風格並不了解,如果你想讓插畫師B繪製“哈利在圖書館複習的場景,且與插畫師A負責的魁地奇球場分鏡風格一致“,這幾乎是不可能完成的任務,因為插畫師B既不知道魁地奇球場什麽樣,也不知道插畫師A的風格是什麽。
而Nano Banana則像一位與你長期合作的資深插畫師,你隻需要在最開始工作時告訴他哈利的特征,然後就能與老友對話般輕鬆和流暢的方式,讓這位記憶力絕佳的藝術家,聽從你的調遣。
此外,Nano Banana還有著遠超傳統模型的快速迭代能力。
任何好模型若無法快速響應用戶,都會極大降低破圈與普及的潛力。在對用戶指令的響應與快速迭代上,傳統模型就像用打字機寫作,任何一個修改都可能需要重打整頁紙,而Nano Banana則進化到了word寫作,可以隨時刪除/修改局部,並立刻看到整篇文章(圖像)的新麵貌。
Nano Banana能實現這一突破,不僅在於團隊將模型壓縮優化到實際產品中以秒級響應(實測約13秒/張)返還高清圖像,上述多模態語義對齊、交錯式生成和一致性保持等優勢的加持,也是Nano Banana對用戶指令快速響應迭代的重要原因。
顛覆、重塑與共生
從問世到席卷全球的兩周時間,Nano Banana的衝擊波同樣撼動了資本市場與產業端的神經。
穀歌發布Nano Banana當日,創意軟件巨頭Adobe的股價就應聲下跌約2%;比即時波動更關鍵的是長線走勢,據Business Insider報道,Adobe的股價在過去一年累計下跌了35%,主要原因之一就是極速發展的人工智能帶來的顛覆性變革。
顛覆帶來的危機感隨著網友不斷解鎖Nano Banana的新玩法,傳導至更多職業領域。
一位剛入行的電商服裝模特告訴刺蝟公社,原本中小商家聘請模特拍攝每天成本約1500元/人,上架時間至少以周為單位,而Nano Banana能將這一整套流程壓縮至分鍾級,“如果AI生成圖像的細節繼續完善下去,未來肯定不需要這麽多真人模特了”。
隻要給到人物肖像圖、產品圖和簡單指令,Nano Banana就能生成商品效果圖/圖源:互聯網
還有很多電商攝影師、後期修圖師,乃至視覺設計師,也紛紛在社媒平台發帖調侃稱眼看著被AI搶了飯碗,準備轉行去賣咖啡、送外賣、開滴滴。
AI在產業端造成的轟動不僅發生在圖像賽道,就在穀歌上線Nano Banana的前一天,翻譯界的最高學府蒙特雷國際研究學院宣布關閉,這家曾培養了大量外交官、翻譯專家和國際NGO組織負責人的頂級名校,自ChatGPT問世以來生源大幅銳減,最終陷入財務困境。
但曆史上的技術革命告訴国产AV蜜桃网站,創新從未單純地使某個行業消亡,舊生產關係被顛覆的同時,必然伴隨產業重構和新職業的誕生。
模特行業不會消亡,但將走向分化,“批量平替”需求勢必會被AI取代,但隻有人類才能表現出的“故事性”與“情感細節”,始終是市場的稀缺資源。
與此同時,商業攝影師、修圖師和設計師的角色也在被重塑,他們的核心價值不再局限於操控相機或軟件,而是延展到審美判斷、敘事構思和情緒引導,以及最關鍵的新能力:駕馭AI實現創作意圖。
而對於Adobe在內的工具型平台而言,摩根士丹利分析師認為,這些應用軟件在AI時代的價值,在於提供“最後一公裏”服務。
事實上,互聯網用戶對於圖像和文字生成的需求,無論是千人千麵的多樣化程度,還是用戶基數決定的龐大且碎片化的指令數量,都決定了通用AI模型很難提供端到端的完美解決方案。
因此就像物流運輸公司負責中途貨運,最後一公裏交由快遞站點配送一樣,Adobe等平台目前也開始接入第三方基礎大模型,並基於自身的數據與資源進行後期訓練,最終打造出更貼合用戶需求、更專業的AI落地產品。
換一種視角看,這場技術浪潮並不是一場零和遊戲。Nano Banana的出現加速了產業洗牌,但同時也在打開新的機會窗口。無論是創作者、設計師還是企業,真正的挑戰並非如何抵擋AI,而是如何找到與之協作的路徑。
工業革命時期的機器擴展了人類的肌肉力量,如今的生成式AI則在延展人類的想象力和表達力。或許国产AV蜜桃网站正在進入一個全新的內容創作階段,在這裏,人與AI並非對立的兩極,而是互為補充的夥伴關係。
與AI共生的時代,正緩緩拉開帷幕。
媒介合作聯係微信號|ciweimeijiejun
如需和国产AV蜜桃网站交流可後台回複“進群”加社群