北京跑出未來獨角獸:要用“具身 Sora ”做機器人大腦,已融資數千萬
?
八月初的世界機器人大會上,宇樹 科技 創始人王興興演講時拋出了引發行業激烈討論的觀點。
他認為,機器人尚未大規模落地的核心原因,并非硬件不足……最大的問題是模型。現階段看視頻生成模型的路線,相比 VLA 收斂概率更大。
而有意思的是,幾乎在同一時間,靈生科技宣布開源業內首個支持異步運行的快慢雙系統視覺語言動作框架 RealDualVLA,為機器人復雜操作任務提供了高效協同的全新解決方案,而這一方案背后的數據生成技術,恰恰是靈生獨創的視頻生成模型 - 稱為 " 具身 Sora"。
2023 年,在騰訊等 互聯網 大廠有過多年 AI 算法和產業經驗的楊洪兵創辦北京靈生科技有限公司(簡稱:靈生科技),專注于具身智能機器人大腦研發,其核心產品為云 - 邊 - 端一體化大腦系統(LingBrain),目前已獲數千萬融資。
楊洪兵認為,具身智能真正的變革,在于給機器人裝上一個能獨立思考和行動的 " 大腦 " ,而機器人 " 大腦 " 的進化,則來自開源帶來的生態繁榮。
靈生科技不僅開源了自研的 VLA 模型,還提出用生成視頻、" 跟我學 " 的方式來訓練機器人大模型,讓它們先像人一樣在腦海里 " 推演 " 操作流程,再去執行任務,從而把成功率拉到 95% 以上。
在楊洪兵看來,真正的機器人不應是人跟在后面的遙控玩具,也不是實驗室樣品,而是能理解語言、感知物理世界、完成復雜任務的 " 生產力伙伴 "。
最近,鉛筆道和楊洪兵就機器人大腦開源、具身 Sora、產業化路徑、門檻與挑戰等話題交流,以下是對話精華。
楊洪兵,靈生科技創始人
聲明:訪談對象已確認文章信息真實無誤,鉛筆道愿為其內容做信任背書。
01 讓人形機器人擺脫遙控器
鉛筆道:機器人大腦最大特點是什么?
楊洪兵 :平時大家使用的豆包、元寶,主要用于對話,屬于語言模型。而機器人大模型的目標是讓機器人 " 干活 ",從 " 聊天 " 到 " 行動 ",這是一個巨大的跨越。
語言模型只需理解語言,而機器人大模型需要理解物理世界——光照、摩擦、三維空間等,并將這些理解轉化為具體動作,比如端茶、搬運、分揀。
這需要大模型與機器人的控制系統緊密結合,從數字世界延伸到物理世界,為機器人賦予 " 思考 " 和 " 行動 " 的能力。
鉛筆道:機器人本體這么熱,為什么選擇做大腦?
楊洪兵 :我本科畢業于西安交通大學,碩士在清華,在百度、騰訊等互聯網大廠深耕人工智能技術多年。我非常了解大模型的訓練、調優和應用,同時很熟悉產業需求痛點。
在當前的機器人浪潮中,AI 領域目前有兩個主要方向:一類是像我這樣,人工智能背景,從軟件和算法出發,去探索軟硬件的融合之路;另一類則是傳統的機器人專家,出身硬件,逐步向人工智能靠攏。
我們堅信,機器人智能的未來一定是以 AI 為核心。如果只聚焦硬件,那只是傳統制造業,而真正的具身 " 智能 " 需要 AI 來驅動。
這也是靈生科技專注于研發 " 機器人大腦 " 的原因,希望讓機器人擺脫遙控器,真正實現自主化。
鉛筆道:擺脫遙控器,這在機器人行業意味著什么?
楊洪兵 :目前,很多機器人仍依賴遙控操作,觀眾和專家都指出,這更像是 " 遙控玩具 ",而非真正的智能。我們希望讓機器人大腦技術突破,讓機器人能夠自主奔跑,甚至完成復雜的操作任務。
我們公司雖然只運行半年多,但憑借機器人大腦技術,已與國內多家大型客戶建立了合作關系,確定了合作和采購訂單。就在上周二(8 月 12 日),我們發布了靈生開源 VLA 模型。
鉛筆道:為什么要開源 VLA 模型?
楊洪兵 :最早,大模型領域多是閉源競爭,缺乏開放合作。DeepSeek 的開源舉動打破了這種局面,帶動了其他公司跟進。我們希望成為機器人領域的 " 鯰魚 ",通過開源高質量模型,推動行業進步。目前很多業內公司也跟隨開源,這是一個積極的變化。開源不僅加速技術迭代,也讓整個生態更加繁榮。
鉛筆道:為何閉源仍是主流?
楊洪兵 :目前閉源仍是主流。許多公司認為模型是辛苦研發的成果,開源會被他人 " 拿走 ",擔心喪失競爭優勢。這種觀念導致行業封閉。
但我們認為,開源能讓更多人貢獻模型,最終大家受益。國外在 VLA 模型開源上做得更好,領先的模型多來自國外。
靈生科技旗下搭載一體化大腦 Ling Brain 系統的具身智能機器人
02 讓機器人通過 " 推演 " 來學習
鉛筆道:宇樹科技王興興提到人形機器人尚未迎來 "ChatGPT 時刻 ",主要是因為機器人大腦的研發跟不上??ㄔ谀睦锪耍?/strong>
楊洪兵 :核心問題在于數據匱乏。
語言模型之所以發展迅速,是因為人類幾千年來積累了大量文字數據,可以直接用于訓練。
但機器人智能需要的是行為數據,而人類數百萬年的行為歷史并未被系統記錄下來。沒有攝像頭、沒有記錄設備,過去的行為無法追溯,導致今天機器人智能的數據極度匱乏。
我們的解決方案是通過視頻生成技術彌補數據不足。思路簡單但實現復雜,我們生成大量行為視頻,讓機器人從中學習,解決了數據瓶頸的難題。
另一個制約是行業的封閉性。
許多公司捂著自己的模型,形成了惡性循環:數據少導致模型訓練難,訓練難又導致不愿開源,不開源進一步減緩了行業發展,數據收集更困難。
鉛筆道:在開發機器人大腦的過程中,遇到了哪些技術上的挑戰?
楊洪兵 :最大的制約在于數據來源。
目前行業內主要有兩種路線:一種是以智元為代表的真機數據采集,通過實際操作獲取數據;另一種是以銀河通用為代表的仿真環境,通過模擬生成數據。但這兩種方式都有局限。
我們提出了一條新路徑——通過視頻生成技術,讓機器人從生成的視頻中學習。我們稱之為 " 具身 Sora":先生成一段視頻,比如機器人調酒的場景,機器人通過觀察視頻學習操作,無需實際操作就能掌握技能。這就像人類在做事前會先 " 推演 " 流程,符合思維規律。
此前行業忽略了這一點,直接讓機器人 " 干活 ",往往準確率低、成本高。我們通過 " 推演 " 技術,讓機器人先模擬學習,大幅提升了效率和成功率。
鉛筆道:這種 " 推演 " 的實際效果如何?
楊洪兵 :效果非常顯著。通過視頻生成技術,將機器人任務的成功率從原來的 90% 以下提升到 95% 以上,接近甚至超過行業標準。相對于純仿真技術,數據構建的成本更低,而且更容易解決 Sim2Real 的 Gap 問題。
鉛筆道:聽起來很簡單,會被競爭對手輕易模仿嗎?你們的壁壘在哪里?
楊洪兵 :表面上看," 推演 " 技術似乎簡單,但實際操作非常復雜。
生成視頻時,需考慮光照、摩擦力、彈性力等物理世界中的復雜因素,這些都對技術提出了極高要求。
目前,市場上還沒有哪家公司能將視頻生成技術做到極致。我們是最早看到這一價值并持續投入的團隊。持續的模型迭代和資源聚焦是我們保持優勢的關鍵,這不是一朝一夕能復制的。
鉛筆道:大廠擁有強大的 AI 團隊和產業化能力,他們會不會也來搶占機器人大腦賽道?
楊洪兵 :這是一個關鍵問題,也是我從大廠出來 創業 的根本原因。
大廠擅長通用 AI,但要適配多樣化的本體并深入產業場景,需要軟硬件結合的垂直能力。這比純軟件開發更垂直也更復雜。
我們聚焦于 " 懂 AI、懂本體、懂產業 " 的結合點,這正是我們的差異化優勢。
03 機器人大腦產業化三大挑戰
鉛筆道:如何通過開源模型實現盈利?與本體廠商和終端客戶的合作模式是怎樣的?
楊洪兵 :我們的 商業 模式基于開放平臺,同時提供增值服務。
對于開源模型,如果客戶需要進一步優化或定制,我們會提供收費的技術支持,輸出模型側的能力來創造收入。
與本體廠商合作,我們通過增值服務收費;與終端客戶合作,我們直接通過為他們賦能大腦技術來收費。
這種模式既支持生態共建,又確保了商業化的可持續性。無論是與本體廠商的增值合作,還是為終端客戶提供直接賦能,我們都能找到清晰的盈利路徑。
鉛筆道:你們定位有點像微軟——電腦廠商生產電腦,但操作系統多用 Windows。
楊洪兵 :我們確實希望成為機器人智能領域的 "Windows" 或 "Android"。通過開源開放,我們的模型能適配不同形態的機器人本體,就像 Android 兼容各種 手機 型號一樣。
Android 雖然免費,卻創造了巨大價值,背后團隊也有自己的生存之道。同樣,我們也希望通過開源建立行業地位,同時通過增值服務實現商業化。
鉛筆道:目前與大公司的合作進展如何?具體有哪些合作模式和場景?
楊洪兵 :我們與大公司的合作通常分三個階段:
第一階段是付費 POC(概念驗證),客戶提供資金,我們在他們的場景中生成視頻、訓練模型并實現操作;第二階段是小批量采購,驗證效果后開始小規模應用;第三階段是中等規模乃至大批量復購。
目前,我們的大部分合作已完成 POC 階段,進入小規模復購。這相較于仍停留在實驗室階段的友商,是一個巨大的進步。
鉛筆道:能否分享具體的合作案例?
楊洪兵 :比如富士康集團某高端網絡產品的生產中,我們靈生在運用工業具身大腦,解決分揀中的泛化操作難題。
再比如在某國際 3C 巨頭,我們利用 RealDualVLA 解決產線中的精密操作難題,解決了泛化、精度、效率不可能三角。
而在半導體領域,我們和國內頭部上市公司建立合作,用具身 Sora 生成場景操作視頻數據,快速訓練模型實現產業化部署,從而贏得客戶信賴。
鉛筆道:你們之間的信任怎么建立的?
楊洪兵 :大企業客戶,決策非常謹慎。一般都要調研了多家同類機器人,從產品穩定性、大模型的泛化性、工程化能力到量產能力四個維度進行評估。
我們在這幾個方面展現了差異化的優勢,也多次對公司進行實地考察,最終被我們極致的產品力打動。
鉛筆道:在產業化過程中,遇到了哪些難點?是如何克服的?
楊洪兵 :產業化面臨三大挑戰。
首先,真實產業環境遠比實驗室復雜,實驗室中的成果往往無法直接應用。我們通過工程化和體系化能力提升,確保技術能適配上千、上萬臺機器的規?;枨?,對精度和穩定性要求極高。
其次,數據不足是個普遍問題。我們利用具身 Sora 視頻生成技術彌補了數據缺失,填補了行業空白。
最后,產業環境更關注失敗次數的控制,而非成功次數。我們優化了模型推理速度、效率和準確率,確保交付和部署的穩定性。
靈生科技于 WRC 展會精彩亮相
04 做垂域大腦,而非超級大腦
鉛筆道:現在很多機器人本體公司也在嘗試自研大腦。
楊洪兵 :機器人本體公司確實有自研大腦的嘗試,追求 " 全棧自研 "。但正如一個人不可能精通所有領域,一個公司在每個環節都做到極致是很難的。本體公司即使投入研發大腦,資源分散,難以達到頂尖水平。這種 " 撒胡椒面 " 式的投入往往導致每個領域都不夠突出。專注和極致化才是核心競爭力。即使本體公司有資金,也很難在每個環節都燒出頂尖產品。
鉛筆道:從本體公司角度看,把大腦交給外部供應商可能會讓他們感到不安。你怎么看待這種顧慮?
楊洪兵 :這種不安主要源于閉源模式帶來的不信任感。
所以,靈生一開始就選擇開源開放策略,我們的 VLA 模型完全向本體公司開放,源代碼透明可得,消除了他們的顧慮。
這就像 DeepSeek 的開源策略,吸引了眾多廠商使用,因為開源不僅降低風險,還能借助生態的力量加速發展。
開源是行業的未來,自研大腦的趨勢會因資源限制和專業分工而逐漸向合作與開源靠攏。
鉛筆道:數據安全會成為問題嗎?
楊洪兵 :數據安全確實是個重要考量。
我們的開源模型是預訓練好的,合作伙伴可以基于私域數據進行二次訓練(Few-Shot Training),這些數據無需公開。
我們使用的都是公開透明的通用數據,私域數據完全由客戶自己掌控,隱私性得到保障。開源的是模型和通用數據,而非客戶的敏感數據。
鉛筆道:如果未來 " 大腦 " 足夠智能,是否會出現一個通用大腦,適配所有行業和場景?
楊洪兵 :理論上,遠期可能出現這種 " 超腦 ",類似 AGI(通用人工智能),能解決所有問題。但短期內很難實現。
首先,超腦需要極高的泛化能力,相當于人類所有智能的總和,這在技術上幾乎不可行。
其次,算力需求將遠超當前語言模型的幾萬倍,成本極高。
最后,必要性存疑——讓超腦去做瑣碎任務,就像讓博士生算 1+1,性價比低。
我們更傾向于專注垂域大腦,在特定領域做到極致,而非追求贏家通吃的通用大腦,那需要數百億投入且風險極高。
鉛筆道:怎么應對多樣化的場景需求?
楊洪兵 :我們聚焦于泛工業場景。工業場景側重操作和作業,物流解決搬運、分揀等任務。我們的核心能力是 " 手腦協同 ",通過移動與操作的結合,讓機器人達到甚至超越人類的智能水平。
鉛筆道:你們接下來的規劃是什么?
楊洪兵 :首先,我們要服務好頭部 KA 客戶,回報他們的信任。目前靈生已經和數十家客戶建立合作,未來靈生將服務千家以上客戶,打造真正能用、易用、好用的具身智能產品,為工業提供優質生產力。
其次,繼續推動開源戰略,吸引更多開發者基于我們的模型進行二次開發。我們解決了國內機器人開發者缺乏開源大腦的痛點,讓他們在我們的平臺上更便捷地開發應用。這不僅服務于 B 端客戶,也面向開發者,通過共建生態加速產業落地。這是我們的核心優勢和戰略方向。
鉛筆道:未來大腦足夠智能后,是否只需通過自然語言指令就能控制機器人?
楊洪兵 :是的,我們的目標是實現自然語言處理通用接口(NLI)。用戶只需用日常語言下達指令,機器人就能理解并執行。這將讓機器人真正融入生活,成為解放人類的生產力工具。
我們目前已可以通過自然語言喚醒機器人。用戶下達指令,機器人就能根據指令執行相應動作。這是一個重要的里程碑,讓機器人更貼近實際應用場景。
來源:鉛筆道