①在最新AI排行榜單中,Nano-banana以1362的分?jǐn)?shù)位列第一,大幅領(lǐng)先于flux和GPT。 ②據(jù)測試,Nano-banana能夠同時駕馭多達(dá)13個圖片素材,并將其全部融為一張圖。 ③華泰證券認(rèn)為,從大模型到多模態(tài)已是商業(yè)化的必由之路,多模態(tài)大模型和應(yīng)用發(fā)展的奇點將至。
《科創(chuàng)板日報》9月1日訊 一張三維建模圖、一個手辦模型、一個印有“Nano-banana”字樣的包裝盒……在剛剛過去的周末,朋友圈突然涌現(xiàn)出大量雷同的“3D打印手辦”圖片。這些手辦或是明星角色,或是家中寵物,種類繁多令人眼花繚亂。此時此刻,在某社交平臺上以“手辦”為關(guān)鍵詞進(jìn)行搜索,同樣會看到許多相似的內(nèi)容。
與此形成呼應(yīng)的是,今日早盤,3D打印概念震蕩拉升。截至發(fā)稿,海正生材、長江材料等多股漲停,金橙子、思看科技等紛紛上漲。
然而,這場3D打印熱潮背后的真正主角,卻是谷歌推出的一款代號“納米香蕉”(Nano-banana)的圖像生成與編輯模型。前文提到的“3D打印手辦”圖片,便是Nano-banana的“杰作”。簡單來說,通過上傳人物或動物圖片素材,再輸入特定提示詞和指令,該模型便能夠?qū)⑷讼褶D(zhuǎn)化為同款“手辦”。不過與真正手辦不同的是,Nano-banana生成的“手辦”僅存在于圖片之中。
據(jù)悉,這款模型正式名稱為Gemini 2.5 Flash Image,自8月26日正式上線后,其憑借圖像編輯實測中的驚艷效果迅速出圈。在海外知名AI排行平臺LMArena的最新榜單中,Nano-banana以1362的分?jǐn)?shù)位列第一,大幅領(lǐng)先于第二名flux(1191)和GPT(1170)。
除了“做手辦”外,Nano-banana還有許多使用場景,比如能夠?qū)⒂脩籼峁┑亩鄠€素材圖,按照要求進(jìn)行融合。據(jù)3D數(shù)字藝術(shù)家特拉維斯·戴維斯測試,該模型能夠同時駕馭多達(dá)13個圖片素材,并將他們?nèi)咳跒橐粡垐D。
在谷歌Gemini官方轉(zhuǎn)發(fā)的使用案例中,用戶只需在地圖上畫出“箭頭”,Nano-banana便會利用其世界知識推理具體位置與畫面,從而將衛(wèi)星圖轉(zhuǎn)換為風(fēng)景圖。此外,按照官方說法,該模型同時具備圖片生成與修改、局部重繪、風(fēng)格遷移等圖片編輯能力。
實現(xiàn)上述效果的關(guān)鍵在于Nano-banana以下核心能力:跨圖一致性、多圖融合、對話式/指令式精細(xì)編輯、以及“借助Gemini世界知識”帶來的更強常識/語義理解。目前,用戶可通過Gemini App、API等方式訪問Nano-banana,其API定價為每百萬輸出token30美元。具體而言,生成單張圖片約消耗1290個輸出token,折算成本約0.039美元。
值得一提的是,截至目前諸多海外平臺如Adobe、WPP、Figma等已在真實平臺迅速集成Nano-banana并驗證生產(chǎn)力提升,同時給出了高度評價。華福證券表示,谷歌Nano-banana出圈意味著多模態(tài)模型向更高能力突破,同時看好多模態(tài)領(lǐng)域的爆發(fā)。
現(xiàn)如今,AI圖像模型已成為科技巨頭的核心競爭領(lǐng)域。3月26日,OpenAI推出基于GPT-4o模型的圖像生成功能——Images in ChatGPT,標(biāo)志著ChatGPT正式實現(xiàn)從單一語言模型向全模態(tài)智能體的跨越。8月23日,Meta宣布將與Midjourney合作開發(fā)圖像和視頻生成技術(shù)。
華泰證券認(rèn)為,原生多模態(tài)模型架構(gòu)得到業(yè)界認(rèn)可,OpenAI和Google的原生多模態(tài)模型已經(jīng)在性能、延時、部署上展現(xiàn)出了優(yōu)勢。整體而言,多模態(tài)為主的產(chǎn)品商業(yè)化快于文本產(chǎn)品,從大模型到多模態(tài)已是商業(yè)化的必由之路,多模態(tài)大模型和應(yīng)用發(fā)展的奇點將至。
就投資層面來看,該機(jī)構(gòu)指出,多模態(tài)有望在算力和應(yīng)用兩方面帶來相關(guān)投資機(jī)會。算力側(cè),供給端原生多模態(tài)模型需要比非原生模型更多的算力,需求端視頻的推理算力需求遠(yuǎn)大于文字,視頻Agent的落地進(jìn)一步催生推理算力需求。應(yīng)用側(cè),供給端國內(nèi)的視頻生成模型領(lǐng)先,需求端廣告、零售、創(chuàng)作、教育等領(lǐng)域均有AI化需求。