特斯拉機器人大轉(zhuǎn)向:訓(xùn)練需求至少是汽車的10倍
本文來自微信公眾號: 鳳凰網(wǎng)科技 (ID:ifeng_tech) ,綜合整理:簫雨,題圖來自:AI生成
北京時間8月26日,據(jù)《商業(yè)內(nèi)幕》報道,特斯拉在自動駕駛技術(shù)上堅持使用純視覺方案,現(xiàn)在它又把這一套成熟策略用在了人形機器人Optimus的訓(xùn)練上。
知情內(nèi)部人士告訴《商業(yè)內(nèi)幕》,特斯拉已在6月底告知員工, 公司未來將更加專注于通過純視覺方案來推進Optimus人形機器人的訓(xùn)練。
此前,特斯拉使用動作捕捉服和虛擬現(xiàn)實 (VR) 頭顯來記錄人類操作員的數(shù)據(jù),并遠程操控機器人。現(xiàn)在,特斯拉將主要通過錄制員工執(zhí)行任務(wù)的視頻來訓(xùn)練機器人,讓其學(xué)習如何完成例如拾取物體或折疊T恤等動作。
內(nèi)部人士稱,特斯拉表示,放棄動作捕捉服和遠程操作將使團隊能夠更快速地擴大數(shù)據(jù)收集規(guī)模。
這一調(diào)整標志著特斯拉機器人戰(zhàn)略的重大轉(zhuǎn)變,將讓Optimus的訓(xùn)練方式與埃隆·馬斯克 (Elon Musk) 長期堅持的理念保持一致: AI可以通過攝像頭掌握復(fù)雜任務(wù) 。 長期以來,特斯拉也采用類似的方法來訓(xùn)練其自動駕駛系統(tǒng)。
一、打破常規(guī)
遠程操作和動作捕捉是行業(yè)訓(xùn)練機器人時的標準做法。例如,知名機器人公司波士頓動力就曾使用遠程操作來訓(xùn)練其Atlas機器人。在訓(xùn)練過程中,員工會穿上動作捕捉服執(zhí)行各種任務(wù)。這些數(shù)據(jù)隨后會被傳輸給機器人。動作捕捉服也可用于遠程控制機器人。
目前尚不清楚特斯拉未來是否會再次優(yōu)先使用動作捕捉服和遠程操作,或者是否利用視頻數(shù)據(jù)在此前收集的信息基礎(chǔ)上進行進一步訓(xùn)練。
人類與機器認知研究所的高級研究科學(xué)家羅伯特·格里芬 (Robert Griffin) 對《商業(yè)內(nèi)幕》表示,大量遠程操作數(shù)據(jù)使機器人能夠通過與環(huán)境的實際互動來學(xué)習。他表示,要教會機器人將視頻數(shù)據(jù)轉(zhuǎn)化為現(xiàn)實世界的動作并非易事。
“如果你只是使用視頻數(shù)據(jù),就沒有這種直接交互體驗。”他說道。
今年5月,特斯拉發(fā)布了一段視頻,似乎顯示Optimus機器人正在根據(jù)視頻錄像完成各種任務(wù)。
特斯拉負責Optimus硬件研發(fā)的總監(jiān)康斯坦蒂諾斯·拉斯卡里斯 (Konstantinos Laskaris) 似乎已經(jīng)承認了這一新策略。今年5月,他在領(lǐng)英上發(fā)文稱:“這聽起來令人難以置信,但我們的機器人正在通過人類視頻直接學(xué)習新任務(wù)!”
馬斯克也在5月表示, Optimus最終將能夠通過觀看YouTube視頻學(xué)習執(zhí)行任務(wù) 。
知情內(nèi)部人士稱,在技術(shù)轉(zhuǎn)型期間,特斯拉曾短暫停止Optimus團隊的招聘。截至8月底,特斯拉的招聘頁面仍列出了50多個與Optimus相關(guān)的職位。
二、技術(shù)轉(zhuǎn)型
知情人士表示,在6月底之前,特斯拉仍在遠程操作Optimus,并通過動作捕捉服訓(xùn)練機器人。員工們需要花時間排查動作捕捉服和Optimus的問題,這限制了團隊能夠收集的數(shù)據(jù)量。
自訓(xùn)練方式轉(zhuǎn)變以來,員工們開始專注于使用5個內(nèi)部自制攝像頭記錄自身動作。這些攝像頭安裝在員工佩戴的頭盔和沉重背包上。攝像頭向各個方向拍攝,為AI模型提供精確的環(huán)境定位數(shù)據(jù)。
佛羅里達州立大學(xué)FAMU-FSU工程學(xué)院機器人實驗室主任克里斯蒂安·胡比茨基 (Christian Hubicki) 表示,多角度拍攝可能幫助特斯拉采集更精細的細節(jié),“比如關(guān)節(jié)和手指的位置”,并實現(xiàn)機器人的空間精準定位。他指出這些視頻也可用于增強此前通過遠程操作收集的數(shù)據(jù)集。
執(zhí)行訓(xùn)練任務(wù)的工作人員會收到具體指令,特別是在手部動作方面需要確保動作盡可能接近人類形態(tài)。一名人士稱,有些員工可能需花費數(shù)月時間重復(fù)執(zhí)行同一個簡單動作。
謝菲爾德大學(xué)機器人專家喬納森·艾特肯 (Jonathan Aitken) 告訴《商業(yè)內(nèi)幕》, 特斯拉很可能需要想辦法教會Optimus使用可應(yīng)用于多種任務(wù)的動作。
“在這種規(guī)模的操作中,他們必須建立通用動作庫,否則逐個訓(xùn)練所有動作將耗費無窮的時間。”艾特肯表示。
他補充說,特斯拉可能會采用與Physical Intelligence公司類似的策略,后者向機器人輸入海量示范數(shù)據(jù),使其能夠?qū)W習可轉(zhuǎn)移技能并靈活應(yīng)用,而非僅僅機械記憶單項任務(wù)的執(zhí)行方式。
三、比自動駕駛更難
這一新策略與特斯拉訓(xùn)練其自動駕駛系統(tǒng)的方案一致。盡管其他自動駕駛公司使用激光雷達和雷達傳感器來訓(xùn)練軟件,特斯拉主要依賴多個攝像頭。
特斯拉使用從數(shù)百萬特斯拉車主收集的數(shù)據(jù),這些車輛配備了八到九個攝像頭。馬斯克表示, 特斯拉之所以能在中國發(fā)布其輔助駕駛系統(tǒng),得益于該公司利用公開亞洲街道視頻訓(xùn)練其AI系統(tǒng)。
不過,馬斯克在1月份的財報電話會議上承認, “Optimus人形機器人的訓(xùn)練需求,可能最終至少是汽車所需的10倍。”
艾特肯表示:“這是非常符合特斯拉風格的機器人開發(fā)方式。沒有其他公司在同等規(guī)模上嘗試這樣做。他們需要的數(shù)據(jù)量將與訓(xùn)練汽車所用的數(shù)據(jù)量相當。”
俄勒岡州立大學(xué)AI與機器人專家艾倫·費恩 (Alan Fern) 表示,對于特斯拉來說,訓(xùn)練Optimus將比開發(fā)自動駕駛汽車更加艱巨。
“駕駛只是單一任務(wù)。”費恩稱。他表示,主要靠視頻學(xué)習要求機器人理解視頻中發(fā)生的情況,然后具備完成任務(wù)的技能,“有些技能可以通過觀察學(xué)習,有些則需在模擬器或現(xiàn)實中進行物理實踐”。
截至發(fā)稿,特斯拉尚未就此置評。