一个人免费完整在线观看视频,97久久精品无码一区二区天美,一个人看的视频www动漫

階躍星辰李璟：2025年將是Agent落地元年推理能力和多模態(tài)是研究重點(diǎn)

原創(chuàng)

2025-03-12 13:17 星期三

科創(chuàng)板日?qǐng)?bào)記者陳美

①近日，“陸家嘴金融沙龍”第二期在上海浦東陸家嘴圓滿舉行。本期沙龍圍繞“資本市場(chǎng)大時(shí)代：AI+千行百業(yè)”這一主題，展開深度研討與交流。
②上海階躍星辰副總裁李璟發(fā)表了關(guān)于AI大模型發(fā)展的演講，探討了Agent在當(dāng)前科技趨勢(shì)下的重要性與應(yīng)用前景。

《科創(chuàng)板日?qǐng)?bào)》3月12日訊（記者陳美）近日，“陸家嘴金融沙龍”第二期在上海浦東陸家嘴圓滿舉行。本期沙龍圍繞“資本市場(chǎng)大時(shí)代：AI+千行百業(yè)”這一主題，展開深度研討與交流。參會(huì)嘉賓、國內(nèi)知名AI大模型公司上海階躍星辰副總裁李璟發(fā)表了關(guān)于AI大模型發(fā)展的演講，探討了Agent在當(dāng)前科技趨勢(shì)下的重要性與應(yīng)用前景。

“從今年1月份已經(jīng)感受到大模型行業(yè)的熱潮。”李璟談到，對(duì)于AGI的發(fā)展過程，有三個(gè)階段的理解。一是模擬設(shè)計(jì)階段，這一階段模型主要對(duì)語料進(jìn)行表征模仿訓(xùn)練，包括視頻、聲音、語言、圖像、4D時(shí)空等。

二是模型解決問題階段，在這一階段中，目前以強(qiáng)化學(xué)習(xí)范式為核心的模型登上舞臺(tái)，最近大火的DeepSeek-R1，更早時(shí)間的AlphaGo系列學(xué)術(shù)成果，背后都是強(qiáng)化學(xué)習(xí)?！霸谶@一階段中，強(qiáng)邏輯推理時(shí)代將帶來很多Agent的誕生。”

三是歸納階段，模型可以達(dá)到人一樣的智能。蘋果砸到牛頓頭上砸出萬有引力定律，模型也應(yīng)該能自主探索科學(xué)規(guī)律；在歸納階段，AI可以主導(dǎo)一系列模型創(chuàng)新。

“就發(fā)展方向來看，近期強(qiáng)化學(xué)習(xí)以及新的RAG范式模型成為熱議焦點(diǎn)?！崩瞽Z表示，作為科技從業(yè)者，更關(guān)注深度求索背后的DeepSeek-R1 Zero，這是一種純強(qiáng)化確定框架模型范式。

在視覺推理能力的前沿探索方面，人形機(jī)器人對(duì)視覺推理能力有極高需求。但當(dāng)前視覺模型仍處于類似強(qiáng)化學(xué)習(xí)之前的GPT范式中，未能很好地解決“理解與生成統(tǒng)一”的問題?！皩?duì)于人類而言能輕易完成的任務(wù)，如統(tǒng)計(jì)照片中的人數(shù)、描述特定位置人員穿著等，現(xiàn)有模型存在一定難度。一旦模型探索出視覺推理能力，這將極大推動(dòng)人形機(jī)器人等產(chǎn)業(yè)的應(yīng)用?！?/p>

除了偏推理范式的模型，多模態(tài)感知也十分關(guān)鍵。李璟認(rèn)為，人類是多模態(tài)動(dòng)物，具備語言、視覺、聽覺、嗅覺等多種感知方式，能天然進(jìn)行多模輸入交互。“以當(dāng)前最強(qiáng)的圖片理解模型為例，在模擬人形機(jī)器人場(chǎng)景中，要求機(jī)械手在維持桌面整潔的同時(shí)取出書籍。多模態(tài)模型能夠給出良好反饋，展現(xiàn)出一定的推理能力，盡管多模態(tài)模型仍處于早期階段，但已彰顯多模交互在理解上的強(qiáng)大感知能力?！?/p>

在視頻理解方面，這是一項(xiàng)頗具挑戰(zhàn)的任務(wù)。對(duì)于無字幕和配音的視頻，多模態(tài)理解模型能夠發(fā)揮作用。在終端場(chǎng)景中，語音交互也是重要的交互入口。

“過去的三段式語音模型，即先語音轉(zhuǎn)文字，再經(jīng)大模型處理得到文字回復(fù)，最后轉(zhuǎn)換成語音，存在諸多弊端”，李璟解釋稱，為解決這些問題，業(yè)界推出了生成、理解一體化方案，輸入輸出均為語音。

基于行業(yè)的變化，2025年將是令人興奮的Agent落地元年。在李璟看來，Agent的實(shí)現(xiàn)主要依賴兩大能力：一是多模態(tài)交互能力。過去一年，聲音和視覺等多模態(tài)交互取得了顯著進(jìn)展。二是慢思考的推理能力。以強(qiáng)化學(xué)習(xí)為代表的強(qiáng)推理模型的出現(xiàn)，推動(dòng)了這一技術(shù)的良好發(fā)展?！盎谶@兩種能力，我們堅(jiān)信今年將是Agent落地的關(guān)鍵一年。”

在Agent的實(shí)際應(yīng)用方面，李璟表示，看好兩個(gè)領(lǐng)域：一是終端領(lǐng)域，在與一些手機(jī)廠商的合作中，看到了下一代終端的潛力。二是金融行業(yè)。除手機(jī)終端外，金融業(yè)也是Agent的天然落地場(chǎng)所。金融行業(yè)需要深度思考和準(zhǔn)確信息，這是單一大模型范式難以解決的。

閱43.4W

我要評(píng)論

反饋意見