99精品国产成人一区二区,少妇做爰xxxⅹ高潮喷水,女性裸体啪啪喷水无遮挡,国产精品综合色区小说,天天躁日日躁狠狠躁婷婷

智元機器人:機器人學(xué)習(xí)數(shù)據(jù)多樣性研究取得新突破
2025-08-06 12:55 星期三
財聯(lián)社
①智元機器人和創(chuàng)智學(xué)院、香港大學(xué)等聯(lián)合研究團隊發(fā)布了一項突破性研究成果,系統(tǒng)性地探索了機器人操作學(xué)習(xí)中數(shù)據(jù)多樣性的三個關(guān)鍵維度;
②研究顛覆了機器人學(xué)習(xí)領(lǐng)域"數(shù)據(jù)越多樣越好"的傳統(tǒng)認知,為構(gòu)建可擴展的機器人操作系統(tǒng)提供了全新的理論指導(dǎo)和實踐路徑。

財聯(lián)社8月6日訊,據(jù)“智元機器人”公眾號消息,近日,由智元機器人和創(chuàng)智學(xué)院、香港大學(xué)等聯(lián)合組成的研究團隊發(fā)布了一項突破性研究成果,系統(tǒng)性地探索了機器人操作學(xué)習(xí)中數(shù)據(jù)多樣性的三個關(guān)鍵維度:任務(wù)多樣性、機器人本體多樣性和專家多樣性。這項研究顛覆了機器人學(xué)習(xí)領(lǐng)域"數(shù)據(jù)越多樣越好"的傳統(tǒng)認知,為構(gòu)建可擴展的機器人操作系統(tǒng)提供了全新的理論指導(dǎo)和實踐路徑。

以下為原文:

智元重磅發(fā)布:任務(wù)、本體、專家數(shù)據(jù)多樣性的全新認知

image

近日,由智元機器人和創(chuàng)智學(xué)院、香港大學(xué)等聯(lián)合組成的研究團隊發(fā)布了一項突破性研究成果,系統(tǒng)性地探索了機器人操作學(xué)習(xí)中數(shù)據(jù)多樣性的三個關(guān)鍵維度:任務(wù)多樣性、機器人本體多樣性和專家多樣性。這項研究顛覆了機器人學(xué)習(xí)領(lǐng)域"數(shù)據(jù)越多樣越好"的傳統(tǒng)認知,為構(gòu)建可擴展的機器人操作系統(tǒng)提供了全新的理論指導(dǎo)和實踐路徑。

01

任務(wù)多樣性:

專精 or 博學(xué)?數(shù)據(jù)告訴你答案

在機器人學(xué)習(xí)領(lǐng)域,一個核心問題一直困擾著研究者:當(dāng)我們要訓(xùn)練一個機器人模型時,是應(yīng)該專注于與目標任務(wù)高度相關(guān)的數(shù)據(jù)進行"專精"訓(xùn)練,還是應(yīng)該廣泛收集各種任務(wù)數(shù)據(jù)進行"博學(xué)"式學(xué)習(xí)?

為了回答這個問題,我們設(shè)計了一個巧妙的對比實驗,基于AgiBot World數(shù)據(jù)集構(gòu)造了兩個規(guī)模完全相同但任務(wù)分布截然不同的預(yù)訓(xùn)練數(shù)據(jù)集:

▍"專精派"數(shù)據(jù)集(任務(wù)采樣)——我們精心挑選了10%與目標任務(wù)最相關(guān)的任務(wù),這些任務(wù)都包含評估所需的五個核心原子技能——抓取(pick)、放置(place)、握持(grasp)、傾倒(pour)和折疊(fold)。如圖所示,這種策略雖然技能多樣性較低,但高度集中于下游任務(wù)所需的技能上。

▍"博學(xué)派"數(shù)據(jù)集(軌跡采樣)——從每個任務(wù)中隨機采樣10%的軌跡,完整保留了原始數(shù)據(jù)集的任務(wù)多樣性譜。雖然這種方法導(dǎo)致與目標技能直接相關(guān)的軌跡更少(59.2% vs 71.1%),但獲得了更加均衡的技能分布。

image

實驗結(jié)果令人意外!如圖所示,"博學(xué)派"的分集采樣策略在四個挑戰(zhàn)性任務(wù)上大幅超越"專精派",平均性能提升27%。更值得關(guān)注的是,在需要更高語義和空間理解能力的復(fù)雜任務(wù)上,多樣性的優(yōu)勢更加明顯——如制作三明治任務(wù)提升0.26分(相對提升39%),倒水任務(wù)則提升0.14分(相對提升70%)。

為什么多樣性會勝出? 我們分析發(fā)現(xiàn),軌跡采樣策略不僅帶來了技能多樣性,而且隱含地包含了更豐富的場景配置、物體變化和環(huán)境條件。這種"無心插柳"的多樣性也大大增強了模型的泛化能力,讓機器人能夠更好地適應(yīng)不同的物體、光照條件和空間布局。

image

基于"多樣性更重要"的發(fā)現(xiàn),我們進一步探索了一個更深層的問題:在保持充分任務(wù)多樣性的前提下,增加數(shù)據(jù)量是否還能持續(xù)提升性能?實驗結(jié)果可以發(fā)現(xiàn)GO-1模型的平均得分隨著預(yù)訓(xùn)練數(shù)據(jù)量的增加呈現(xiàn)出穩(wěn)定的提升軌跡,更重要的是,這種提升遵循嚴格的Scaling Law! 通過擬合冪律曲線得到Y(jié) = 1.24X^(-0.08),我們發(fā)現(xiàn)模型性能與預(yù)訓(xùn)練數(shù)據(jù)量之間存在高度可預(yù)測的冪律關(guān)系,相關(guān)系數(shù)達到驚人的-0.99。

image

這一發(fā)現(xiàn)的重要性不僅在于數(shù)值本身,更在于研究范式的重大突破。過去,具身智能領(lǐng)域scaling law研究主要集中在單任務(wù)場景、小型模型和無預(yù)訓(xùn)練階段。單任務(wù)場景只關(guān)注特定任務(wù)內(nèi)的數(shù)據(jù)擴展,小型模型使用diffusion policy等相對簡單的策略網(wǎng)絡(luò),無預(yù)訓(xùn)練階段直接在目標任務(wù)上訓(xùn)練。本研究將scaling law的探索首次擴展到多任務(wù)預(yù)訓(xùn)練的foundation model階段,證明了在保持任務(wù)多樣性的前提下,大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)能夠為機器人基礎(chǔ)模型提供持續(xù)的性能提升,且這種提升是可預(yù)測和可量化的。

02

本體多樣性:

單一平臺數(shù)據(jù),實現(xiàn)跨機器人遷移

長期以來,機器人研究社區(qū)普遍認為,要讓模型具備跨機器人平臺的泛化能力,就必須在預(yù)訓(xùn)練數(shù)據(jù)中囊括盡可能多樣的機器人本體數(shù)據(jù)。這一觀念催生了像Open X-Embodiment (OXE)這樣包含22種不同機器人大規(guī)模多本體數(shù)據(jù)集。

然而,跨本體訓(xùn)練為模型學(xué)習(xí)帶來了諸多困難,不同機器人的物理結(jié)構(gòu)差異巨大,各平臺的動作空間和觀測空間存在本質(zhì)差異進一步增加了模型訓(xùn)練的復(fù)雜性,面對這些挑戰(zhàn),我們進一步深入思考思考:盡管不同機器人的形態(tài)配置千差萬別,但它們的末端執(zhí)行器動作空間在本質(zhì)上是相似的。當(dāng)不同形態(tài)的機器人讓其末端執(zhí)行器在世界坐標系中遵循相同軌跡時,它們能夠產(chǎn)生相當(dāng)?shù)男袨楸憩F(xiàn)。這一觀察引出了一個關(guān)鍵假設(shè):在單一機器人本體上預(yù)訓(xùn)練的模型,可能能夠輕松地將學(xué)到的知識遷移到新的機器人配置上,從而規(guī)避跨本體訓(xùn)練的復(fù)雜性。為了驗證這一大膽假設(shè),研究團隊設(shè)計了一場"以一敵多"的實驗對決:

RDT-AWB,基于AgiBot World數(shù)據(jù)集預(yù)訓(xùn)練(100萬條軌跡,單一智元精靈G1機器人),完全沒有見過目標測試機器人的數(shù)據(jù)

RDT-OXE,基于OXE數(shù)據(jù)集預(yù)訓(xùn)練(240萬條軌跡,22種機器人),包含目標測試機器人的數(shù)據(jù),理論上具有"主場優(yōu)勢"

測試環(huán)境選擇了三個機器人平臺:ManiSkill仿真環(huán)境的Franka機械臂、RoboTwin仿真環(huán)境的Arx機械臂,以及真實世界Agilex環(huán)境的Piper機械臂。在ManiSkill環(huán)境的跨本體適應(yīng)實驗中,初期階段RDT-OXE確實表現(xiàn)出"主場優(yōu)勢",在125個樣本每任務(wù)時略勝一籌。然而轉(zhuǎn)折點出現(xiàn)在250個樣本時,RDT-AWB迅速追平RDT-OXE的性能,當(dāng)數(shù)據(jù)量繼續(xù)增加后,RDT-AWB開始反超并持續(xù)拉大差距,這種差距增長呈現(xiàn)冪律關(guān)系。這一結(jié)果表明,單本體預(yù)訓(xùn)練模型不僅能夠?qū)崿F(xiàn)有效的跨本體遷移,而且在數(shù)據(jù)擴展方面表現(xiàn)出更優(yōu)的scaling特性。

image

為了確保結(jié)論的普適性,在真實世界Agilex環(huán)境中,4個任務(wù)中的3個任務(wù)上RDT-AWB都超越了RDT-OXE,實現(xiàn)了從仿真到現(xiàn)實的全面勝利。

同時我們也在松靈、Franka兩個本體上采用疊衣服任務(wù)測試了僅在AgiBot World預(yù)訓(xùn)練的GO-1模型的跨本體能力,即使預(yù)訓(xùn)練數(shù)據(jù)中沒有見過該任務(wù),新本體上也僅需200條數(shù)據(jù)即可實現(xiàn)模型能力的遷移泛化,GO-1 + AWB相比GO-1 From scratch平均得分提高30%。

image

這些實驗結(jié)果具有顛覆性的理論和實踐意義。在理論層面,研究證明了跨本體學(xué)習(xí)的復(fù)雜性可能被高估,單本體高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練提供了更簡潔的技術(shù)路徑,挑戰(zhàn)了"必須多本體訓(xùn)練才能跨本體部署"的傳統(tǒng)觀念。在實踐層面,這一發(fā)現(xiàn)能夠大幅降低數(shù)據(jù)收集成本,只需專注于單一機器人平臺的高質(zhì)量數(shù)據(jù),同時簡化訓(xùn)練流程,為機器人模型的跨平臺應(yīng)用提供了新路徑。

03

專家多樣性:

識別有害噪聲,提升學(xué)習(xí)效率

在機器人學(xué)習(xí)中,有一個經(jīng)常被忽視但至關(guān)重要的因素——專家多樣性(Expert Diversity)。專家多樣性指的是由于不同操作員的習(xí)慣、技能水平和固有隨機性而產(chǎn)生的演示數(shù)據(jù)分布變化。與從互聯(lián)網(wǎng)收集的標準化NLP和CV數(shù)據(jù)集不同,機器人數(shù)據(jù)集由連續(xù)的機器人運動組成,這些運動對操作員的行為高度敏感。

image

圖中通過經(jīng)典的PushT任務(wù)詮釋了這一現(xiàn)象。在這個任務(wù)中,機器人(藍色圓圈)需要將灰色的T形物體推動到綠色目標區(qū)域。盡管任務(wù)目標相同,但采集到的專家演示卻表現(xiàn)出明顯的多模態(tài)特征??臻g多模態(tài)性體現(xiàn)在不同的軌跡選擇上:機器人可以從T形物體的左側(cè)或右側(cè)接近,形成截然不同的空間路徑,這反映了操作員對任務(wù)策略的不同理解。速度多模態(tài)性則發(fā)生在機器人以不同速度執(zhí)行相似軌跡時:即使空間路徑相近,不同的執(zhí)行速度也會在時間維度上產(chǎn)生完全不同的演示輪廓,有些操作員動作迅速果斷,有些則相對緩慢謹慎。

這兩種多模態(tài)性對學(xué)習(xí)具有完全不同的影響??臻g變化代表了有意義的任務(wù)策略,這些多樣化的解決方案應(yīng)該被保留,因為它們豐富了模型對任務(wù)的理解,囊括更豐富的空間軌跡也可以防止模型推理時超出訓(xùn)練數(shù)據(jù)分布(OOD, out of distribution)。然而,速度變化往往引入了不必要的噪聲,使當(dāng)前基于動作塊的模仿學(xué)習(xí)變得復(fù)雜化,因為模型需要同時學(xué)習(xí)這些分布特性,增加了學(xué)習(xí)難度而沒有帶來實質(zhì)性的策略價值。

image

為了解決這一挑戰(zhàn),我們提出了一個巧妙的兩階段分布去偏框架,核心是引入速度模型(Velocity Model, VM)。第一階段中,VM被訓(xùn)練用于從動作塊預(yù)測速度,使用MSE損失函數(shù),從帶有速度偏差的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)每個輸入的期望速度。這一階段讓VM掌握了不同動作模式對應(yīng)的合理速度分布。第二階段在策略訓(xùn)練過程中,VM首先為每個訓(xùn)練樣本預(yù)測無偏速度,然后使用這個預(yù)測速度將原始動作轉(zhuǎn)換為無偏動作。策略隨后使用這些無偏動作作為監(jiān)督目標進行訓(xùn)練,有效地簡化了分布復(fù)雜性,讓模型能夠?qū)W⒂趯W(xué)習(xí)核心的任務(wù)策略而不被速度變化所干擾。

image

我們在擦桌子(Wipe Table)和制作三明治(Make Sandwich)兩個代表性任務(wù)對分布去偏進行了驗證,我們將經(jīng)過分布去偏數(shù)據(jù)訓(xùn)練的模型命名為GO-1-Pro,實驗結(jié)果發(fā)現(xiàn)GO-1-Pro在兩個任務(wù)和所有數(shù)據(jù)規(guī)模上都穩(wěn)定超越GO-1。值得注意的是,GO-1-Pro展現(xiàn)出卓越的數(shù)據(jù)效率——僅使用GO-1一半的訓(xùn)練數(shù)據(jù)就能達到相當(dāng)或更優(yōu)的性能,有效地將數(shù)據(jù)利用效率提升了一倍。

image

分布去偏方法的優(yōu)勢在低數(shù)據(jù)場景中尤為突出。在僅有15個演示的數(shù)據(jù)稀缺條件下,GO-1-Pro將制作三明治任務(wù)的性能提升48%,擦桌子任務(wù)提升39%。在數(shù)據(jù)稀缺的情況下,速度和空間維度的多模態(tài)分布會在模型學(xué)習(xí)過程中產(chǎn)生嚴重干擾,阻礙模型有效捕獲核心的空間分布模式。通過解耦這些混淆因素,分布去偏方法使模型能夠?qū)W⒂趯W(xué)習(xí)核心空間關(guān)系,即使在數(shù)據(jù)有限的情況下也能實現(xiàn)更高效、更魯棒的策略學(xué)習(xí),為提升模型性能和數(shù)據(jù)效率提供了一條切實可行的技術(shù)路徑。

此項研究系統(tǒng)性地探索了機器人操作的數(shù)據(jù)擴展,揭示了三個顛覆傳統(tǒng)認知的關(guān)鍵洞察:任務(wù)多樣性比單任務(wù)演示數(shù)量更關(guān)鍵,本地多樣性對跨實體遷移并非必需,而專家多樣性因速度多模態(tài)性可能帶來負面影響。這些發(fā)現(xiàn)顛覆了"越多樣越好"的傳統(tǒng)范式,證明了質(zhì)量勝過數(shù)量,精心洞察勝過盲目堆砌——真正的突破不在于收集更多數(shù)據(jù),而在于理解數(shù)據(jù)本質(zhì),識別有價值的多樣性,消除有害噪聲,為機器人學(xué)習(xí)指明了一條更加高效精準的發(fā)展道路。

收藏
90.34W
我要評論
圖片
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
3.82W 人關(guān)注
9834 人關(guān)注
5.55W 人關(guān)注