①近日,“陸家嘴金融沙龍”第二期在上海浦東陸家嘴圓滿舉行。本期沙龍圍繞“資本市場大時代:AI+千行百業(yè)”這一主題,展開深度研討與交流。 ②上海階躍星辰副總裁李璟發(fā)表了關(guān)于AI大模型發(fā)展的演講,探討了Agent在當(dāng)前科技趨勢下的重要性與應(yīng)用前景。
《科創(chuàng)板日報》3月12日訊(記者 陳美)近日,“陸家嘴金融沙龍”第二期在上海浦東陸家嘴圓滿舉行。本期沙龍圍繞“資本市場大時代:AI+千行百業(yè)”這一主題,展開深度研討與交流。參會嘉賓、國內(nèi)知名AI大模型公司上海階躍星辰副總裁李璟發(fā)表了關(guān)于AI大模型發(fā)展的演講,探討了Agent在當(dāng)前科技趨勢下的重要性與應(yīng)用前景。
“從今年1月份已經(jīng)感受到大模型行業(yè)的熱潮。”李璟談到,對于AGI的發(fā)展過程,有三個階段的理解。一是模擬設(shè)計階段,這一階段模型主要對語料進行表征模仿訓(xùn)練,包括視頻、聲音、語言、圖像、4D時空等。
二是模型解決問題階段,在這一階段中,目前以強化學(xué)習(xí)范式為核心的模型登上舞臺,最近大火的DeepSeek-R1,更早時間的AlphaGo系列學(xué)術(shù)成果,背后都是強化學(xué)習(xí)?!霸谶@一階段中,強邏輯推理時代將帶來很多Agent的誕生。”
三是歸納階段,模型可以達到人一樣的智能。蘋果砸到牛頓頭上砸出萬有引力定律,模型也應(yīng)該能自主探索科學(xué)規(guī)律;在歸納階段,AI可以主導(dǎo)一系列模型創(chuàng)新。
“就發(fā)展方向來看,近期強化學(xué)習(xí)以及新的RAG范式模型成為熱議焦點?!崩瞽Z表示,作為科技從業(yè)者,更關(guān)注深度求索背后的DeepSeek-R1 Zero,這是一種純強化確定框架模型范式。
在視覺推理能力的前沿探索方面,人形機器人對視覺推理能力有極高需求。但當(dāng)前視覺模型仍處于類似強化學(xué)習(xí)之前的GPT范式中,未能很好地解決“理解與生成統(tǒng)一”的問題?!皩τ谌祟惗阅茌p易完成的任務(wù),如統(tǒng)計照片中的人數(shù)、描述特定位置人員穿著等,現(xiàn)有模型存在一定難度。一旦模型探索出視覺推理能力,這將極大推動人形機器人等產(chǎn)業(yè)的應(yīng)用?!?/p>
除了偏推理范式的模型,多模態(tài)感知也十分關(guān)鍵。李璟認為,人類是多模態(tài)動物,具備語言、視覺、聽覺、嗅覺等多種感知方式,能天然進行多模輸入交互?!耙援?dāng)前最強的圖片理解模型為例,在模擬人形機器人場景中,要求機械手在維持桌面整潔的同時取出書籍。多模態(tài)模型能夠給出良好反饋,展現(xiàn)出一定的推理能力,盡管多模態(tài)模型仍處于早期階段,但已彰顯多模交互在理解上的強大感知能力?!?/p>
在視頻理解方面,這是一項頗具挑戰(zhàn)的任務(wù)。對于無字幕和配音的視頻,多模態(tài)理解模型能夠發(fā)揮作用。在終端場景中,語音交互也是重要的交互入口。
“過去的三段式語音模型,即先語音轉(zhuǎn)文字,再經(jīng)大模型處理得到文字回復(fù),最后轉(zhuǎn)換成語音,存在諸多弊端”,李璟解釋稱,為解決這些問題,業(yè)界推出了生成、理解一體化方案,輸入輸出均為語音。
基于行業(yè)的變化,2025年將是令人興奮的Agent落地元年。在李璟看來,Agent的實現(xiàn)主要依賴兩大能力:一是多模態(tài)交互能力。過去一年,聲音和視覺等多模態(tài)交互取得了顯著進展。二是慢思考的推理能力。以強化學(xué)習(xí)為代表的強推理模型的出現(xiàn),推動了這一技術(shù)的良好發(fā)展。“基于這兩種能力,我們堅信今年將是Agent落地的關(guān)鍵一年?!?/p>
在Agent的實際應(yīng)用方面,李璟表示,看好兩個領(lǐng)域:一是終端領(lǐng)域,在與一些手機廠商的合作中,看到了下一代終端的潛力。二是金融行業(yè)。除手機終端外,金融業(yè)也是Agent的天然落地場所。金融行業(yè)需要深度思考和準(zhǔn)確信息,這是單一大模型范式難以解決的。