阿德萊德大學吳琦：VLN 仍是 VLA 的未竟之戰丨具身先鋒十人談

雷鋒網 ? 10天前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

作者 | 賴文昕

編輯 | 陳彩嫻

2018 年 6 月，在澳大利亞機器人視覺研究中心（ACRV）做博士后研究員的吳琦和博士生 Peter Anderson 首次將 VL（視覺-語言）和彼時機器人領域主流的導航方向聯系起來，在 CVPR 2018 發表了第一篇 VLN（視覺-語言-導航）工作；緊接著，Abhishek Das 作為一作發表的“EmbodiedQA（具身問答）”又讓“Embodied”一詞走入科研視野。

一個月后，一年一度的 NLP 領域頂會 ACL 在冬季的墨爾本召開。在火熱的會場里，吳琦、Peter Anderson 和 Abhishek Das 舉辦了一場題為“將語言和視覺與動作聯系起來” 的 tutorial，真正地開啟了 VLA（視覺-語言-動作）這個全新領域。

阿德萊德大學吳琦：VLN 仍是 VLA 的未竟之戰丨具身先鋒十人談

會上一眾 NLP 學者都很好奇，紛紛向他們了解何為“VLA”，而三人除了談到 CNN、RNN 等基礎方法外，也分享了對機器人數據和環境仿真器的看法，包括強化學習在這些工作中的運用。

對 VLN 的探索也讓吳琦意識到，除了學習和理解多模態信息，機器還要能與真實環境進行一定程度的交互，才能解決實際問題，便在原有的 VL 基礎上加進“動作（Action）”，提出“V3A”的概念，即“Vision（視覺），Ask（提問），Answer（回答） and Act（行動）”。

阿德萊德大學吳琦：VLN 仍是 VLA 的未竟之戰丨具身先鋒十人談

吳琦本科畢業于中國計量大學信息與計算科學專業，在英國巴斯大學完成碩士和博士后，又到澳大利亞阿德萊德大學做了3年的博士后研究，并在2018年開始留校任教。此外，他還陸續獲得了澳大利亞科學院羅素獎與南澳大利亞杰出青年科學家稱號，目前谷歌學術的引用量已超1.4萬。

作為最早一批研究 VL 的學者，吳琦在 MS COCO 數據集發布提出了圖像描述方向后立即在2015年跟進，又立即在視覺問答（VQA）此新方向上發表工作“Ask Me Anything”，并于2018年開啟了 VLA 領域。

阿德萊德大學吳琦：VLN 仍是 VLA 的未竟之戰丨具身先鋒十人談

七年過去，VLA 已搖身一變成為當下具身智能領域內最火熱的話題，海內外誕生了英偉達的 GROOT N1、Figure AI 的 Helix、Physical Intelligence 的 π0、清華的 RDT 等機器人 VLA 模型。

而開啟了新領域的吳琦，則選擇在 VLN 方向上繼續扎根，并從去年開始著力于一系列真機研究。目前他正在澳大利亞阿德萊德大學任副教授，帶領自己的實驗室“V3A Lab”，還在澳大利亞機器學習研究中心（AIML）里擔任視覺與語言研究方向的實驗室主任。

聊到具身智能與 VLA，吳琦表示 VLA 不應局限于上半身的操作任務，“很多人認為導航問題已經被解決，manipulation 更好和產業結合并落地，但其實 VLN 仍有很多尚待突破的空間。”

以下是 AI 科技評論與吳琦的對話。

VLA 的“七年之癢”

AI科技評論：2018年您提出了“V3A”的概念，在原有的 VL 上加進 action，當時是受到什么啟發促使您開始了 VLA 的研究？

吳琦： 最早在 CVPR 2018 上我和 Peter、Abhishek （Embodied VQA作者）碰在一起，覺得大家的論文都很有意思，決定在馬上舉行的 ACL 上一起辦一個 tutorial。當時我認為 VL 已經被講過很多次，再辦 tutorial 的意義不大，應該加些新東西進來，而我們做的導航和 Abhishek 做的問答都屬于 action，那不如就做一個關于視覺（Vision），語言（Language）和動作（Action）結合的講座，算是非常早期的VLA的概念。

我們的首篇 VLN 工作打開了這個新領域，但主要是提出了 R2R 數據集和任務，不溫不火。到了下一年，CVPR 的最佳學生論文，即王鑫用模仿學習和強化學習一起去解決 VLN 的工作，徹底讓此領域火了起來。

因為很喜歡 VLA 的概念，我就提出了“V3A”，即“Vision（視覺），Ask（提問），Answer（回答） and Act（行動）”。先是希望機器人或虛擬的 agent 基于視覺輸入能回答，這說明它能聽懂；接著是當時 VQG（視覺問題生成）的研究認為提問比回答更難，這說明它有更強的推理能力；而在有自然語言對話能力后，我們希望模型能執行如導航等動作，也提出了“Remote Embodied Visual Referring Expression（遠程具身視覺指稱表達）”，就是讓機器人能完成“幫我找個勺子”這類導航任務。

AI科技評論：在您看來，2018 年前后的那波 VLA 與現在具身智能領域的 VLA，有什么不同之處？VLA 的發展經歷過哪幾個比較重要的階段呢？

吳琦： 我們剛提出 VLA 的概念時，manipulation 這一塊還不熱門，那時的 action 可能更 high level，離機器人還更遠一些，比如理解對應場景去回答問題或導航走到指定位置去找某一東西。而且數據量的差距也比較大，以前 VLA 的數據量相對于現在來說都是小量級的。

Embodied QA 出來后 VLA 有一段停滯期，因其所用的數據存在版權問題導致大家沒法繼續使用；而 VLN 在 VLA 里發揮了非常大的作用，我們的工作很早期地把 VL 和 action 結合起來，再加上王鑫在 CVPR 2019 的工作，VLN 和 VLA 受到了很大關注；時間再往后就是上交大盧策吾老師把 manipulation 和具身智能結合起來，提出了很多新的數據集和任務。

接著是非常關鍵的節點，GPT 系列的出現。此前盡管有 VL 大模型，但在解決很多 VQA 問題上的表現都一般，當時普遍認為在解決好 VL 問題前，還去結合 action 是不太可能實現的。而 GPT 的出現（特別是引入多模態后）解決了很多 VL 解決不了和解決不好的任務，甚至是其零樣本的表現都遠超當時最大的 VL 預訓練模型，因此大家就普遍認為 VL 的一些基礎任務已被解決，所以開始引入更高層次的維度，即利用將視覺語言結合起來去預測、輸出 action，而不是單純地做 VQA 這種難以落地的東西。

AI科技評論：具身智能熱潮之前爆火的是自動駕駛行業，在您看來，自駕與機器人分別對 VLA 提出了怎樣的獨特要求？如果單純從導航的角度來看，對人形機器人（雙足）的研究意義大嗎？

吳琦： 自駕某種意義是也是 VLA，V 是戶外場景，L 是用戶需求，A 就是汽車所執行的操作。當然這里 A 的操作可能會分為汽車本身的動作，比如轉彎，加速，減速等等，也可以車機系統的操作，比如執行播放音樂，導航至某地這類動作。

機器人的 VLA 除了無人機之外，大部分可能還是在室內場景中，V 主要是針對室內場景和物體，而 A 則是要求動作精度更高的 manipulation 或者移動精度更高的 navigation。

我們去年基本把 VLN，就是的單純視覺語言導航這一塊，在實體機器人上實現了部署和運行，包括四足的機器狗\掃地機器人和輪式的機器人。我覺得在雙足上的部署問題也不大，因為我們目前大腦和小腦的開發還是分開的，雙足這邊的控制沒有問題的話，對于我們 VLN 來說是一樣的，就是根據當前 VL 信息，輸出一個機器人要執行的線速度和角速度，而據我所知，無論底盤式還是足式，都可以接受這兩個信息完成下層的動作指令。

阿德萊德大學吳琦：VLN 仍是 VLA 的未竟之戰丨具身先鋒十人談

具身智能導航團隊成員與機器人合照

AI科技評論：在經歷了 VLA 從坐冷板凳到如今大熱的過程后，您是如何看待現在大家對 VLA 的熱情呢？

吳琦： VLA 的大熱其實是產業和學術發展的雙重結果。從產業視角來看，任何落地場景均需處理多模態輸入，并依賴一個 high level 的推理模型輔助完成復雜的規劃與行為決策。人類大腦的工作機制即是典型例證——通過整合視覺、聽覺、觸覺等多模態感知信息，經中樞神經處理后生成具體動作指令，這一整合決策過程在日常場景中不可或缺。從學術研究趨勢而言，自然語言處理（NLP）與計算機視覺（CV）領域的核心任務已取得顯著進展，研究者正積極探索新的前沿方向。

值得一提的是，VLA 領域的研究者需精準定位應用場景，弄清楚 L（語言）的核心價值，即為機器人提供了一種更簡便的人機交互方式。這種交互模式具有高度的靈活性與自然性，能夠支持用戶以隨意的方式下達指令，由此衍生出一系列全新的技術挑戰——不同于傳統預設任務的固定模式，VLA 面臨的任務往往具有顯著的臨時性特征，需要實時響應非預定義的動態需求。

VLN 之于 VLA

AI科技評論：那您認為導航的難點和重要性在哪里？怎么理解 VLN 跟 VLA 之間的關系？

吳琦： 視覺導航作為任務本身可能是簡單的，但視覺語言導航（VLN）還是比較難的。

舉個例子，食物掉下餐桌后讓現有的掃地機器人清掃，要不選全屋清掃，要不把機器人搬到附近讓它轉圈掃，或者再聰明一些的能在 APP 上把餐桌的區域畫出來讓它轉圈掃。

但 VLN 能實現的是——給一個指令讓它去餐桌附近清理食物，它能利用這信息知道，先導航到廚房餐桌的位置，使用視覺信息找到食物殘渣位置，只去清掃這一塊區域，而且相比過去的導航任務和方法，VLN 更擅長處理很臨時性的事件。我們最近在掃地機器人上也基本上實現了這些功能，對這個技術感興趣的掃地機器人或家用機器人公司，也可以和我們聯系討論。

當然，VLA 中的 action 有很多，VLN 只是其中一個子集，需要具體場景具體分析。有些時候可能并不需要 VLN，比如機器人如果處在工廠、超市這樣的固定場景下，做分揀或清理貨架這些聚焦上半身的任務，它們以非常固定的軌跡去運動就可以了。

但是將來如果到了家用的實際場景，還是需要機器人不斷移動的，這時的導航問題就比較難解決。我和北大的王鶴老師也討論過，室內場景還是有很多挑戰，除了建模不準外，還有人移動或交互的影響。

AI科技評論：人的移動或交互這類動態場景對 VLN 最大的挑戰或難點在哪里？目前都有哪些可行的探索方向？

吳琦： 其實動態場景帶來最大的影響就是之前基于slam建圖式的導航不再適用了，提前利用地圖信息規劃好的導航路線因為動態場景可能不再能完成任務。

這個時候就需要類似于 VLN 的技術來輔助，就是利用當前的視覺信息以及最初的語言指令，來做出短程的導航路徑規劃，甚至是只預測下一步往哪里走，而到了下一步，再結合信息做出新的預測。

我們最近也提出了一個新的數據叫 Obstructed VLN，考慮的就是這個問題，就是在行走過程中發現出現了路徑的遮擋，需要做出臨時性的調整，大家可以關注。

AI科技評論：之前林倞老師團隊發表的綜述也將 VLN 列為具身智能的一大關鍵任務，那VLN發展至今已經七年了，除了開山之作外，您認為哪些工作是關鍵呢？

吳琦： 很榮幸我們主導了 VLN 領域多個關鍵節點工作。在提出三個數據集后，相繼采用CNN、RNN及注意力機制等方法開展研究。

Transformer架構誕生后，率先基于該架構提出“VLN-BERT”，能基于 Transformer 處理 VLN 任務；2022 年 CVPR 發表的“Discrete-Continuous-VLN”則首次探索 VLN 在離散與連續環境間的學習鴻溝彌合；去年推出的 NavGPT 是首個將 LLM 引入 VLN 的工作；而今年 ICRA 的 Open-Nav 則首次實現 VLN 在真實機器人上的落地應用。

其他組也作出了很多關鍵的工作，比如早期的，Hao Tan 在 NAACL 上提出的 EnvDrop，還是有 Chen Shizhe 也提出過好幾個非常關鍵的模型，比如現在常用作 baseline 的 DUET。我們的 ScalVLN（目前的SOTA）也是基于 DUET 的工作過。要提一下，Shizhe 也曾經在我們 V3Alab 訪問過一段時間，非常優秀。

AI科技評論：當前具身智能領域里大家對操作任務的熱情高漲，但您更關注具身導航。

吳琦： 可能還是落地導向吧，現在很多落地場景式工業場景，或者商業理貨場景，大部分時候機器人可以以固定路徑，并且在相對固定的場景里移動。而家用場景目前落地還比較難，所以很多人還沒有體會到室內視覺導航這塊的難度。

很多人認為導航已經是被解決完的問題，室內導航只需建好圖就能讓機器人指哪到哪，不像 manipulation 那么難。但事實上，假如把它放在具身智能領域，其實還要一定的時間。畢竟，機器人只有在走到對應的位置上，才能完成之后的動作。

如果認為具身行動就是和上半身有關的抓取或 manipulation，其實是沒有真正思考清楚什么是具身智能。關于具身智能眾多的定義里，我最喜歡的是 CVPR 2024 的一個關于具身智能的討論，即 AI agent 需具備看、聽、說、行動和推理五項基本能力，再能將模擬的機器人解決方案遷移到真實的機器人和現實世界中。

也就是說，只有把視覺信息、語言能力和具體執行的任務（無論是上半身還是下半身的動作）最后實現在真實機器人上，才能稱之為一篇真正的具身智能研究。

AI科技評論：那這和自動駕駛中的導航有哪些不同呢？

吳琦： 自駕的導航是室外導航，有很多可利用的信息，比如 GPS 提供精準定位，結合高精度地圖、視覺感知（如車道識別、路標檢測）及雷達系統（實現障礙物檢測與規避）。

而我們做的 VLN 其實是室內導航，面臨多重限制。由于缺乏 GPS 信號且環境信息（如地標、紋理）稀疏，無法直接復制室外方案。早期技術主要依靠視覺 SLAM（同步定位與地圖構建）實現環境建圖，通過攝像頭實時采集數據構建局部地圖以確定自身位置。但該方案對環境依賴性強，常需人工預處理（如標記特征點、優化場景紋理）以提升建圖精度，難以實現完全自動化。

最大的難點在于收集數據，尤其是大量的室內 3D 環境數據。我們希望獲取盡量真實的 3D 環境，但這些環境數據本身就很少，也沒有一個特別好的仿真器，而掃地機器人這類真實數據又存在隱私問題。我們因此也曾做過室內設計相關的工作，是基于視覺和語言的裝修風格生成，和裝修設計公司酷家樂合作，他們所提供的 3D 場景數據就特別有幫助。

AI科技評論：盡管室內不受天氣影響，但也可能會在低光、煙霧等極端感知條件下，視覺輸入失效。是否需為 VLN 引入多模態備份方案（如超聲波雷達、紅外傳感）？如何實現多模態信號與語言指令的實時對齊？

吳琦： 確實，隨著 simulator 變得越來越好，我們可以模擬出這些復雜的情景，也可以考慮引入其他的傳感器來輔助導航。我覺得這點上倒是可以參考無人駕駛的一些解決方案，實現多模態信息的對齊和處理。

卡脖子的數據也最易突破

AI科技評論：在 VLN 和 VLA 領域里，當前 Top 3 的研究問題都有哪些？

吳琦： 我認為目前面臨的核心挑戰首要是數據問題。當前缺乏足夠優質、大規模的數據集支撐 VLN 或 VLA 模型訓練，這與 GPT 依賴海量語料形成鮮明對比。具體而言，數據問題可拆解為三部分——

一是模擬器（Simulator）的必要性，與機器人技術結合的場景中，模擬器是訓練和測試的基礎載體，其性能直接影響數據生成質量。這里有很多東西可以去考慮，像材質摩擦力、摩擦系數、環境重力、甚至是熱交互等物理特性，我們常見的物理定律在目前的模擬器里面體現得并不夠，要做真正的世界模型（ word model ），數字孿生不能只是孿生表面，還要涵蓋其本身的物理特性。

二是高質量 3D 環境構建的稀缺性，僅有模擬器不足夠，還需在其中構建多樣化真實場景（如家庭、工廠、購物中心等），這類 3D 環境不僅稀缺，且制作成本高昂。

三是專用應用數據的獨特性，區別于傳統 AI 數據（如 NLP 的純文本、CV 的圖像標簽），VLA/VLN 需要特定任務數據（如抓取、操作、導航等數據），其數據格式需整合模擬器、環境及應用場景三類要素，缺一不可。因此，構建大規模復合數據集是 VLA/VLN 的關鍵發展方向。

第二個挑戰是 Sim-to-Real 的遷移鴻溝。模型在模擬器中完成高效訓練后，需在真實機器人和環境中部署，但二者存在多重差距——包括環境差異（如光照、物體物理屬性）和機器人硬件差異（如執行器精度），如何彌合這些 Gap 是技術落地的核心難點。

第三個挑戰與工程部署相關。VLA/VLN 任務涉及復雜推理和模型計算（如導航模塊與GPT大模型的結合），依賴高性能GPU支持，而在機器人終端實現高效模型壓縮，平衡算力需求與設備輕量化，是亟待突破的技術瓶頸。

AI科技評論：在這些瓶頸中，哪一個是最有可能率先被突破的？

吳琦： 雖然數據是最大的難題，但其實它也是最容易突破的，尤其是圍繞著如何構造更好的數據集、仿真器和環境出發，并利用好它們去訓練一個更好的 VLA 模型。

比如我最近在思考環境生成的工作，之前和酷家樂的合作就是通過輸入語言描述生成三維的房間環境，包括房間、家具的布局、墻壁的顏色、地板的材質等，但因當時模型還不夠強，效果比較一般，但現在或許可以重新拿出來實現一下。輸入可以是各種模態的，如對環境的語言描述、已有環境的圖片、視頻、結構信息，希望模型能按照用戶需求快速地生成一個精準的符合要求的環境，再把此環境導入到桃源或 Isaac Sim 等模擬器里供大家進行訓練。

AI科技評論：那針對最關鍵的數據問題，現在都有哪幾種技術路徑呢？

吳琦： 數據構建主要存在三種技術路徑。第一是真人操控采集，通過人工控制機器人完成行走、抓取、家具組裝等任務，同步記錄動作軌跡與環境交互數據，直接用于模型訓練。這種方式依賴真實場景操作，數據貼合實際應用但采集成本較高。

第二是Sim2Real模擬生成，借助高逼真度物理模擬器（如NVIDIA Isaac Sim、上海AI Lab桃源系統）構建虛擬環境，通過算法自動生成機器人執行各類任務的數據。該路徑優勢在于低成本批量生產數據——無需真實硬件介入，即可在模擬環境中完成海量訓練，訓練后的模型直接部署至真實機器人。

第三是視頻數據驅動，聚焦互聯網海量公開視頻（如導航、烹飪等場景），通過分析視頻中的高層決策邏輯（如任務規劃、動作序列）訓練模型。此路徑規避了傳統數據采集的繁瑣，僅關注“做什么”的高層規劃，無需處理機器人“如何執行”的底層控制細節。

AI科技評論：您很早就開始做 VLA 相關的 simulation，在您看來，這些年來仿真最大的進展是什么？當前最亟待突破的卡點又是什么？

吳琦： 確實當時我們在設計和發布 VLN 這個任務的時候，就做了一個基于 MP3D 數據的 MP3D simulator，這個 simulator 也僅僅是為 MP3D 提供的 environment 數據以及 VLN 這個任務來服務的，非常的簡單。

我覺得隨著具身智能的發展，大家越來越關注 simulator，包括前期 Meta 發布的 Habitat 1.0、2.0，再到最近的 Nvidia的 Issac-Sim。我覺得 simulator 還是要大廠來做，因為他是一個比較工程的問題。

而 simulator 這塊，我覺得有三塊內容比較重要，一個是場景仿真，就是說這個場景看上去要非常真實。這個就涉及到渲染，追光，建模，紋理這些的內容。第二個是物理仿真，就是能夠模擬我們的物理現實，比如重力、摩擦力、碰撞等等物理現象。第三個我覺得是這個 simulator 一定要高效，不能因為運行的速度拖延模型的訓練，尤其是加入 RL 之后，需要在訓練時和 simulator 交互，那么 simulator 的運行效率就很重要了。

AI科技評論：那又有哪些方法能解決Sim2Real Gap和工程部署這兩大問題呢？

吳琦： 如果說我們普遍選擇相信 scaling law 的話，我認為解決 sim2real 的問題其實就是解決數據的問題。

想象一下我們如果有一個非常龐大的 environment 的數據集，包含了各種各樣的場景，而這些場景又非常真實并且能夠導入到 simulator 里供我們訓練一個足夠大的模型，那我認為是有可能解決這種 gap 的。我們目前就在和酷家樂（群核）這邊合作，在大量的生成這些 environment 數據，因為他們之前積累了大量的3D資產。

說到部署，我覺得作為機器人本體公司（比如宇樹），可以發揮更好的作用，提供對應的、相對易用的部署工具。這是一個生態問題。英偉達之所以成為英偉達，關鍵還是生態做的好，推動了整個行業的發展。硬件公司應該要有這樣的前瞻性，提供好的工具，建立好生態，硬件才賣的出去。

更多關于VLA和VLN的故事，歡迎與雷峰網作者anna042023交流。雷峰網 (公眾號：雷峰網)

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

久草视频2-久草视-久草社区视频-久草色在线-久草色视频-久草软件

阿德萊德大學吳琦：VLN 仍是 VLA 的未竟之戰丨具身先鋒十人談

隨意打賞