①這款模型具備通用靈巧操作能力和任務(wù)泛化能力,可以完全在機(jī)器人設(shè)備本地離線運(yùn)行。 ②這也是谷歌首個對外開放可供微調(diào)的VLA模型。
《科創(chuàng)板日報》6月26日訊 日前,谷歌宣布推出“自家最強(qiáng)大的視覺-語言-動作(VLA)模型”Gemini Robotics On-Device,作為一款面向雙臂機(jī)器人的通用基礎(chǔ)模型,Gemini Robotics On-Device專為減少計算資源消耗而設(shè)計。
其具備通用靈巧操作能力和任務(wù)泛化能力,即支持靈巧操作任務(wù)的快速實(shí)驗、可通過微調(diào)適應(yīng)新任務(wù),以提升性能。
更重要的是,這款模型可以完全在機(jī)器人設(shè)備本地離線運(yùn)行。谷歌表示,由于運(yùn)行時無需依賴數(shù)據(jù)網(wǎng)絡(luò),這一模型非常適用于對延遲敏感的應(yīng)用場景,并能在網(wǎng)絡(luò)連接不穩(wěn)定甚至完全中斷的環(huán)境中穩(wěn)定運(yùn)行——換言之,即使是在完全斷網(wǎng)的情況下,搭載這款模型的機(jī)器人設(shè)備也能做到“看得見、聽得懂、做得了”。
Gemini Robotics On-Device在多種測試場景中實(shí)現(xiàn)了強(qiáng)大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務(wù)。
除了離線運(yùn)行之外,Gemini Robotics On-Device的另一大亮點(diǎn)便是“能微調(diào)”。
十幾年前安卓系統(tǒng)正式面世,提供了高度開放的架構(gòu),讓開發(fā)者和廠商們定制系統(tǒng)。如果說安卓系統(tǒng)是“讓手機(jī)更懂用戶”,那么谷歌這次的Gemini Robotics On-Device就是“讓機(jī)器人更懂任務(wù)”。
Gemini Robotics On-Device模型是谷歌首個對外開放可供微調(diào)的VLA模型,開發(fā)者可以選擇對該模型進(jìn)行適配,以提升具體應(yīng)用場景中的性能。據(jù)谷歌介紹,Gemini Robotics On-Device可快速適應(yīng)新任務(wù),僅需50-100個示范樣本即可顯示出良好的泛化能力。
谷歌在七個不同難度級別的靈巧操作任務(wù)中測試了該模型,包括拉上便當(dāng)盒拉鏈、抽卡和倒沙拉醬等操作。
并且,谷歌還將Gemini Robotics On-Device模型適配到了Franka FR3雙臂機(jī)器人和Apollo人形機(jī)器人等不同的機(jī)器人實(shí)體上。
在雙臂 Franka 機(jī)器人上,該模型可以執(zhí)行通用指令,包括處理以前未見過的物體和場景、完成折疊衣服等靈巧任務(wù),或執(zhí)行需要高精確度和靈巧性的工業(yè)傳送帶組裝任務(wù)。
在Apollo人形機(jī)器人上,谷歌對該模型進(jìn)行了適應(yīng)性調(diào)整,以適配顯著不同的實(shí)體形態(tài)。