①谷歌、OpenAI、Anthropic三家公司在AI大模型上都有了新動作。 ②OpenAI前不久剛剛宣布即將發(fā)布GPT-5,;而Anthropic也在今日宣布,計劃在未來幾周內(nèi)發(fā)布“對模型的重大改進”——可以想見,屆時AI大模型又將掀起一波迭代更新潮。
《科創(chuàng)板日報》8月6日訊 一天不到的時間內(nèi),谷歌、OpenAI、Anthropic三家公司在AI大模型上都有了新動作。
先是谷歌正式發(fā)布了Genie 3,這款通用世界模型能生成“前所未有的豐富交互環(huán)境”。
有多“前所未有”?Genie 3是首個支持實時交互的世界模型,單次交互時長從幾十秒延長到數(shù)分鐘,并首次加入“可提示的世界事件”和“視覺記憶”等關(guān)鍵特性,能以每秒20-24幀速度,實時生成720p畫面,并能保持數(shù)分鐘的畫面一致性。
通俗點來說,用戶可以在生成的動態(tài)世界中多視角自由探索,且即使用戶多次往返之后,同一地點的同一物品細節(jié)仍能保持一致——這種“記憶力”對于模型來說可以說是一項重大技術(shù)突破。
“這就是游戲引擎2.0?!庇ミ_高級科學(xué)家Jim Fan如此斷言,“未來某一天,UE5 那樣復(fù)雜的系統(tǒng),將被一個由數(shù)據(jù)驅(qū)動的注意力權(quán)重塊取代。這個系統(tǒng)只需要接收來自手柄的操作指令,就能直接渲染一段動態(tài)的時空畫面?!?/p>
當(dāng)然,作為一個通用模型來說,游戲并非Genie 3的唯一應(yīng)用場景。除了游戲外,Genie 3還能為機器人或自動駕駛系統(tǒng)提供多元化訓(xùn)練場景,可以為AI智能體研究提供更長、更穩(wěn)定的交互回合。
Anthropic則在發(fā)布Claude Opus 4不到3個月之后,推出Claude Opus 4.1。公司表示,新版本是Claude Opus 4在“Agent任務(wù)、真實世界編碼和推理能力上的全面提升”。
在SWE-bench Verified基準測試中,Opus 4.1較Opus 4提升了2個百分點,達到74.5%,而相比Sonnet 3.7則提升幅度更大,后者僅為62.3%。另外,Opus 4.1在智能體工具調(diào)用、多語言問答能力和智能體編程上超越OpenAI o3,但在視覺推理和數(shù)學(xué)能力上與OpenAI o3和Gemini 2.5 Pro還有一定差距。
OpenAI則發(fā)布了兩款“開放權(quán)重”大模型,GPT-oss-120b和GPT-oss-20b。公司CEO Sam Altman表示,“GPT-oss是一個重大突破,這是最先進的開放權(quán)重推理模型,具備與o4-mini相當(dāng)?shù)膹姶蟋F(xiàn)實世界性能,可在電腦上本地運行?!?/p>
值得注意的是,OpenAI前不久剛剛宣布,即將發(fā)布GPT-5,;而Anthropic也在今日宣布,計劃在未來幾周內(nèi)發(fā)布“對模型的重大改進”——可以想見,屆時AI大模型又將掀起一波迭代更新潮。
國內(nèi)方面,多家公司也在近日發(fā)布大模型迭代。例如Kimi發(fā)布Kimi K2,具備更強代碼能力、更擅長通用Agent任務(wù);智譜發(fā)布GLM-4.5,專為Agent應(yīng)用打造,增強推理、Agent能力,在工具調(diào)用可靠性和任務(wù)完成度上表現(xiàn)突出;Qwen3發(fā)布升級版235B和30B模型、以及30B推理模型,顯著提升推理、Agent能力等。
太平洋證券指出,目前模型后訓(xùn)練階段仍具備工程紅利,基于此國內(nèi)外大模型持續(xù)拓展智能邊界,且國內(nèi)模型在開源領(lǐng)域表現(xiàn)突出,在Hugging Face開源前10榜單中占據(jù)8位,而海外OpenAI、xAI等仍在閉源發(fā)力。同時,各基礎(chǔ)大模型均實現(xiàn)通用Agent能力提升,模型即Agent的范式或正在形成。