遊客發表
【本期嘉賓】
王 鶴 北京銀河通用機器人有限公司創始人兼首席技術官
王 潛 自變量機器人公司創始人兼首席執行官
趙維晨 加速進化(北京)機器人科技有限公司副總裁
【主持人】
張漫子 王若辰
裝配夾爪的“量子2號”機器人,在2025世界機器人大會展台演示使用清潔工具進行360度無死角全方位清潔。受訪者供圖
今年的人形機器人賽道,上演著一場“冰與火之歌”。
一邊是“上得廳堂互動答疑,下得廠房幹活出力”的火熱場景,機器人進廠打工、酒店送餐、賽場踢球,前所未有地遊走於日常生活之中,展示著接近人類的肢體能力;另一邊,則是“融資超過百億,訂單卻不過百台”的冰冷現實,一些實驗室的捷報與商業訂單之間,橫亙著一條等待跨越的鴻溝。
今年以來,投資機構從觀望到競逐,從質疑撤退到擠破頭也要上牌桌;行業格局從“人形機器人第一股”一枝獨苗,演化到超20家機器人產業鏈企業走向IPO……這些變化與機器人的進化,一同寫就“人形機器人量產元年”的真實注腳。
具身智能也來到了十字路口:是擠進技術的窄門,還是擊穿一個場景?是做一個定義未來的遠見者,還是做第一個活下來的盈利者?
每個答案,都是創新者的求索與選擇。每一重門,是關卡,也是階梯,跨越之後,終將成為機器人的“成人禮”。
北京銀河通用機器人有限公司創始人兼首席技術官王鶴。受訪者供圖
數據:99%+1%,能實現“從0到10000”
銀河通用王鶴:讓機器人甩掉遙控器,“睜開眼”幹活
8月,全球首個城市級常態化運營的人形機器人示範區落地北京。來自北京銀河通用機器人有限公司的“銀河太空艙”——由機器人經營的無人超市開張,具身智能真正走進大眾日常生活。作為專注於研發人形機器人硬件和具身智能大模型的機器人企業,銀河通用率先實現機器人在工業、零售等場景批量化落地,其自研機器人Galbot在機器人格鬥賽等賽事上也斬獲佳績。
每次有機器人火上熱搜,評論區都有不少人強調一個現實:目前,絕大多數機器人離開人工和遙控,還是會“原形畢露”。
而銀河通用的機器人Galbot卻有所不同:它不僅無需“遙控”,還能自主幹活。
眼下,具身智能的最大困境,既非硬件,也非模型,而在於數據。不論是讓機器人從動作智能轉向認知智能,還是提升機器人的泛化性、魯棒性(指係統、算法或模型麵對外部幹擾、輸入異常或內部參數變化時維持穩定運行並輸出預期結果的能力),關鍵在於數據的豐富性和準確性。
而一個讓難度再進階的考驗是,想要真正實現商業閉環,還要權衡數據獲取的質量、成本與效率。
這是2025世界機器人大會上展示的一款拳擊機器人(8月8日攝)。新華社記者 謝晗 攝
記者:機器人發展的優先級,應側重於能力的展示,還是產業的切實賦能?在發展方向上,業內分歧多還是共識多?
王鶴:今年以來,機器人企業在兩種能力的選擇上逐步有了區分度。一類以宇樹科技為代表,其機器人擅長運動、舞蹈、拳擊,特點是以腿足乃至全身控製為主,能展現出精彩的運動能力。還有一類是以銀河通用為代表的“幹活派”,依靠視覺反饋閉環,展現出在實際場景中幹活的能力。“幹活派”裏,大致還可分為視覺算法+軌跡生成,與端到端VLA(即視覺-運動-動作一體化生成)兩種技術路徑。
其實,不少人形機器人跳舞、跑步,並沒有用到視覺傳感器。今年4月在北京舉行的全球首個機器人半程馬拉鬆上,不少觀眾注意到部分機器人“運動員”的不遠處,有人用遙控器遙控機器人跑步、轉彎或加速,實際上機器人是“閉著眼”跑的。這樣的技術現狀跟機器人“生產力時代”還不是一回事,畢竟,沒有活是閉著眼睛幹的。
今年,具身智能的場景落地在加快。以工業場景為例,銀河通用的機器人已實現流水線搬運、分揀等環節的規模化應用。零售場景中,銀河通用在北京海澱已成功落地10多家配備人形機器人的智慧藥房,並計劃年內在全國開設100家。此外,銀河通用的機器人已開始售賣零食、咖啡等商品。
記者:機器人完成酷炫的、令人眼前一亮的動作,許多情況下還是預編排的動作序列、人工遙控與視頻剪輯共同作用的結果。為什麽會出現“demo(演示視頻)先行、落地乏力”?
王鶴:秀一段5分鍾的demo,對機器人的可靠性、穩定性要求並不高,不能證明它是能24小時工作的高可靠性產品。
demo與產品的差距主要來自兩方麵。一是泛化性不足,視頻片段展示的多為精心布置的受控環境,如果換個物體、環境甚至是光線,機器人就難以工作了,這顯然還不是成熟的產品。二是硬件不可靠,如果機器人用上一會兒就需要人來維修,也顯然還不能大規模投入使用。機器人的核心功能是替人去勞動,而不是成為花瓶一樣的擺設。
記者:要想“拿掉機器人的遙控器”,核心在於什麽?
王鶴:在於能夠自主執行的模型“大腦”,且能實現跨場景泛化。今年初,銀河通用以10億級合成大數據,端到端訓練了一個VLA大模型,以視覺作為輸入,模型實時輸出當前機器人末端執行器應當如何移動,是一個閉環反饋模型,能夠實現對不同場景中移動物體的抓取。6月,又推出了端到端導航大模型,使機器人能夠擁有“聽—看—懂—走”閉環運動能力。
另一個核心在於硬件的性能要夠用、好用,精度要盡可能高。
記者:機器人實現泛化的關鍵在於什麽?
王鶴:數據。可以說數據決定了機器人能力的下限。
我的觀點是,現階段合成數據可用於解決從0到1的問題,利用真實遙操采集的數據可解決從1到100的問題,從100到10000的問題則交由視頻數據處理,讓機器進行學習。具身智能所依靠的數據,99%可借助高質量的合成數據完成,隻有在合成數據無法處理的情況下,才需要有針對性地采集使用1%的真實數據。
端到端具身大模型麵臨的困難,與自動駕駛所運用的端到端大模型有所不同。自動駕駛所依靠的數據來源廣泛、數量龐大,且采集成本為負。目前,頭部人形機器人廠商量產的機器人僅為千台級別,難以達到萬台規模。在現實中,讓所有機器人都投入不同場景自主工作,以供真人采集上億條數據,並不具有現實可行性。
更為切實可行的解決方案是,先利用合成數據完善抓取、移動、放置等功能,助力具身智能開拓市場,先完成那99%。而生成高質量合成數據也存在一定門檻,需具備出色的圖形學、物理仿真、物理渲染、自動動作合成管線等一係列完整的基礎設施,還需要長期的核心技術積累。
記者:什麽能稱為高質量的數據?該如何評價采集或仿真獲得的數據夠不夠好、夠不夠用?
王鶴:數據的“質”比“量”重要。如果數據千篇一律、同質性太高,那麽它的價值就非常有限。高質量數據意味著它是多元的,能夠體現柔性物體的操作,具備場景的泛化性。從機器學習的角度講,訓練數據能覆蓋盡可能多元的測試數據的分布,機器人的學習就越高效,學成之後,它就能在陌生環境抓取一個此前沒見過的東西。
記者:現有的模型架構夠用嗎?
王鶴:不能說完全成熟,但是夠用了。模型方麵一直有進展,但起決定性作用的是數據。數據足夠的情況下,好的模型能學得更好,但數據不夠時,好的模型也會變成“差生”。好比教一個3歲小孩學圍棋,一上來就教高端技巧並不現實,得先讓他知道什麽是黑子白子。
記者:機器人商業落地,難在哪裏?技術突破速度與場景適配深度之間的平衡,如何把握?
王鶴:可批量複製的場景落地,將是具身智能的“生死分水嶺”。在我看來,未來3年左右,能找到可以擊穿的場景就能留在牌桌,找不到的將會出局。未來1年,如果能實現千台到萬台的機器人批量交付,行業價值才算得到驗證,具身智能的泡沫也將被剝離。
事實上,如果能把抓取、移動、放置這類“簡單”操作的泛化性問題徹底解決,已堪稱具身智能發展過程中的一個裏程碑。這一技術的成熟足夠打開數千億元的市場,使機器人在零售、前置倉、車廠分揀等多個場景中幫助人類完成繁重勞動。
記者:普林斯頓大學一門哲學課花了一整個學期討論一個問題——先有語言,還是先有思維。這個討論是關於人的,但從這個視角看,機器人的語言形成、認知形成,是否與人類相仿?大語言模型、推理模型的發展,如何影響機器人的進化?
王鶴:不是所有的思維活動都基於語言。拿猩猩舉例,猩猩學習某個技能,靠的是另一隻猩猩在它麵前演示一遍,也就是說,技能是靠具身的學習來傳播的。即使語言交流不發達,猩猩也一樣具有視覺思維、空間思維、情感思維。
人類的思維是一個複雜的認知過程,人類的語言和思維在互動中塑造。語言能夠使思維在更大範圍內傳播,思維涉及心智層麵對信息的處理,包括概念形成、問題解決、決策製定與反思等,可以影響語言的演化與延伸。所以說人類智能裏,思維能力、語言能力、操作能力都是使人類擁有地球上迄今為止最強智能的重要因素。
記者:ChatGPT橫空出世時,有人說“語言即智能”;人形機器人熱潮來襲,又有人說“身體即智能”。也許在今天,隻以人的維度評價智能已經不夠了。你如何定義“智能”?人的智能、機器人的智能是否有一個交匯點?
王鶴:智能就是解決問題的能力。無論對於人類、其他動物還是機器人,遇到問題後能給出解決辦法的能力,就是智能。麵對一瓶飲料,人類利用語言溝通請有工具的人打開它,動物徒手打開它,機器人給出一個恰好的力來打開它——調用能力的方式不同,但這都是智能。
自變量機器人創始人兼首席執行官王潛。受訪者供圖
模型:變形的拉鏈,能測出機器人的“智商”
自變量王潛:改造“精密的廢物”,須從“頭”開始
2025世界機器人大會上,自變量機器人公司的輪式雙臂機器人“小量”用一雙巧手靈活製作香囊,“量子2號”仿人形機器人以7自由度手臂設計實現捏薯片不碎、360°清潔等高難度操作。支撐其複雜靈巧操作的是自變量自研的機器人“大腦”——通用具身大模型WALL-A。“一腦多用”的端到端技術,使機器人實現零樣本泛化能力。
什麽樣的機器人,才不被稱作“精密的廢物”?
蹣跚學步至今,人形機器人正在取得肉眼可見的進步。然而,真正製約它走進工廠、融入家庭的並非四肢,而是能深刻理解物理世界、自主決策的“更強大腦”。沒有大腦驅動的機器人,就好比失去靈魂的一塊鐵木,隻能演示、無法實幹。
超越“花拳繡腿”,機器人的再進化也許真的要從“頭”開始。
8月8日,工作人員在2025世界機器人大會上演示智能機器人。新華社記者 李欣 攝
記者:過去一年,人形機器人有了怎樣的進化?
王潛:去年夏天,還有很多人形機器人“動彈不了”,到今年,多款機器人已能走路、跑步乃至打拳、踢球,並逐步開始像人一樣在廣泛、複雜、真實的世界中自主移動、感知、理解、決策並靈巧地操作物體,以完成多樣化的任務。驅動這些進化的,是算法的進一步成熟和收斂。
記者:機器人的大腦雖然一直在進化,但技術路線還未“大一統”——有的用的是專用模型,有的用的是通用模型;有的采用分層模型,有的用上了端到端模型。哪種模型將是機器人大腦的“終局”?
王潛:提到大模型,普遍認知中的還是大語言模型、多模態模型,或者視覺語言大模型(VLM)+動作模塊。還有一種誤解,認為具身智能的基礎模型是這些模型的延伸。
事實上,這些模型都屬於虛擬世界的基礎模型,並不是真正作用於物理世界的基礎模型。由於機器人涉及真實世界極為複雜的物理交互,處理的問題與虛擬的數字世界所要解決的問題截然不同,所以機器人真正需要的是物理世界中一個全新的基礎模型。
如果對物理世界的某個局部做一個三維重建,看上去或許已達到1:1複刻,但隻要有一點點小毛刺那樣的瑕疵,在現實中都會造成操作上更大更棘手的問題,也就是說0.1%的謬誤也可能會帶來10%-20%的差池。
物理世界最核心的難點,是存在大量隨機的不可預測事件。哪怕隻是一個用手推門的動作,也會因手的接觸點位置、接觸時長、力的方向和大小、動摩擦因數等參數的差異,產生非常多的隨機可能。
記者:可以說,現階段機器人的泛化能力普遍還不強,比如剛在跑道上學習過跑步,換成草地就跑不起來了。而機器人能夠進廠入戶幹活的前提是具備舉一反三的能力,那麽,如何能讓機器人靈活應對複雜隨機甚至是陌生的環境?
王潛:傳統的解題思路類似於“搭積木”:視覺識別、推理規劃、動作生成各用一個模型,然後層層疊起……看似功能齊全,但信息傳遞時就像一排人在玩“傳話遊戲”,不僅效率低下,而且前一層產生的微小差錯容易在後續環節積累巨大誤差,無法實現深層跨模態理解。
理想的“大腦”,比如人腦,能夠讓看見、思考、行動一氣嗬成。因此真正的具身智能模型,應當由一個模型覆蓋從信號輸入到動作輸出的完整過程。處理長序列任務時,機器人無需劃分從看到想再到動的界限,而通過一個統一的神經網絡,邊想邊做,還能像人一樣舉一反三,遇到沒見過的情境也能靈活應對。
自變量是用一個通用具身智能模型來解決物理世界的複雜問題。具體來說,是把世界模型和端到端的通用模型放進同一個模型,也就是把視覺、語言、觸覺、動作等所有模態信息塞進一個架構裏統一處理。這就區別於直接把自動駕駛的模型遷移過來,或給虛擬世界的視覺語言模型加上運動模塊的方式。
記者:裝上這樣的大腦後,機器人能夠解決哪些以分層模型或專用模型作為大腦的機器人解決不了的問題?
王潛:比如機器人要完成穿衣服這一指令,如果遇到衣服突然掉落、拉鏈變形這樣的動態變化或陌生狀況,傳統分層模型需要重新編程,而自變量的端到端模型隻需少量樣本即可遷移學習。端到端模型能通過“實時感知決策閉環”馬上調整策略,而分層係統容易因模塊間延遲出現“手足無措”。
再比如,国产AV蜜桃网站讓裝載端到端模型的機器人“小量”削蘋果,它會去廚房島台尋找水果刀,国产AV蜜桃网站又告訴它這是一個有小孩的家庭,然後看到它從更高處的抽屜開始找起——它在行動前進行了邏輯推理:為防止水果刀被小孩翻到並使其受傷,水果刀會被放進更高的抽屜。
裝上通用大腦的機器人,還能拾取地麵上的廢紙、飲料瓶、塑料袋等各種形狀不規則的垃圾,把沙發上隨意堆疊的多件衣物放進髒衣簍。
記者:區分一個機器人大腦的強弱,與評價一個人智商的方法和維度相似嗎?
王潛:機器人大腦的強弱即模型的優劣,更出色的模型具備更強的泛化能力、推理能力,能處理更複雜的問題。就泛化能力來說,從易到難可分為光照位置的泛化、環境背景的泛化、操作對象的泛化、操作任務的泛化。就任務複雜度來說,又分為操作動作的複雜度、推理及狀態估計的複雜度、被操作物體的複雜度等不同維度。
記者:訓練一個這樣的大腦,關鍵在於算法還是數據?
王潛:在大約10年前的AI1.0時代,大家認為做AI就是做算法。如今,決定性因素從算法變成了數據。具身智能發展到深水區,核心競爭力就在於數據。
從成本和效率的角度考慮,目前自變量是以真實數據為主、互聯網數據為輔。自變量構建了全球最大的具身智能數據集,涵蓋數萬小時的機器人操作視頻、觸覺反饋、空間定位等多模態數據。為加快數據積累,自變量自研了物理準確性最高的視頻生成大模型來做數據增強,通過切換背景、環境、接觸物理過程等途徑,將一條真實數據擴展為成百上千的數據,用來快速提升模型的泛化性。我認為數據質量的重要程度高於數據數量,而提升數據質量的一大途徑在於擴大數據的多元性。
記者:機器人是軟硬件結合的工程。現在是“強本體—弱大腦”的階段,還是“強大腦—弱本體”的階段?
王潛:具身智能是顯著的“軟件定義硬件”的領域,硬件需按照機器人大腦的進化去定義、去適配。
8月8日,觀眾在2025世界機器人大會上觀看一款跳舞機器人。新華社記者 金立旺 攝
記者:有人調侃:除了跳舞、翻跟頭,人形機器人還能幹什麽?在跑步、跳舞、踢球、格鬥中習得的能力,與機器人實際落地所需的能力,有多大的匹配度?
王潛:匹配度不大。通用的機器人能力分為運動、導航、交互、操作四個維度,操作是關係到機器人進廠入戶的最關鍵能力。這也是為什麽自動駕駛的模型無法直接遷移到機器人身上,因為自動駕駛的能力難點集中在導航與運動上,而機器人的最大難點在於複雜操作。
但換個視角來看,人形機器人公司要發展,首先要活下來。如果機器人短期內還無法進化為實實在在的生產力,那麽訓練一些娛樂能力、體育能力,也能給用戶提供情緒價值。
加速進化(北京)機器人科技有限公司副總裁趙維晨。受訪者供圖
落地:敲開家門前,賽事為機器人找到了“用武之地”
加速進化趙維晨:形成商業閉環,才能打破“死循環”
8月落幕的世界人形機器人運動會上,一場全程無遙控的機器人足球比賽火了。這支踢球的機器人隊伍來自加速進化(北京)機器人科技有限公司。這家成立於2023年的公司在今年7月舉行的2025RoboCup巴西機器人足球世界杯上,幫助中國隊(清華火神隊)首次在成人組奪冠,打破了歐美國家在這一賽事上長達28年的壟斷。
人形機器人在球場上激烈對抗,而商業世界看不見的競賽或許更加殘酷。
技術突破與落地盈利之間,仿佛有一道“雞生蛋還是蛋生雞”的死循環:沒有訂單,就無力迭代技術;技術不夠成熟,就無法拿下訂單。
破局的關鍵,不在於硬件或算法的單點勝出,而在於誰能率先在“技術突破速度”與“場景適配深度”的平衡中轉動飛輪——哪怕從一場足球賽、一個教育場景開始,隻有讓機器人真正“用起來”,數據才會流動,成本才能打下去,技術才有機會來到實戰場。
記者:国产AV蜜桃网站常說“生命在於運動”。現在人形機器人也有了運動會,運動也成為機器人進化的加速器。機器人整體性能與運動能力進化之間有怎樣的關係?
趙維晨:如果把機器人整體性能的提升看作一條向上波動的S形曲線,那麽在最初的一段,運動能力與整體性能的曲線是最接近的。
對於“成年”以前的機器人,運動能力的突破可為數據收集與算法訓練提供支撐,推動機器人感知、決策、規劃能力的提升,反過來模型能力的進步也能倒逼運動控製的精度、複雜度,推動運動能力再進化。接下來,手腦眼配合、跨場景遷移的泛化操作能力開始決定曲線的斜率。這就好比人類學會走路之後,真正拉開人與人差距的是更精細化的操作能力、交互能力。
3月14日,機器人在“村超”球場進行趣味足球賽。新華社記者 楊文斌 攝
加速進化上場踢球賽的機器人“運動員”是不用遙控器、全自主運動的,這背後是“感知—決策—控製”的智能係統做支撐。
感知算法如同眼睛和耳朵,實時捕捉足球軌跡與場上動態;運控算法則像小腦和神經係統,精確控製全身數百個關節的電機,完成奔跑、急停、轉向、射門等複雜動作;決策算法則像是真正的戰術大腦,需要0.1秒內做出判斷。足球賽事對抗激烈,機器人需要更強的算法能力來保持本體的平衡。端到端模型將視覺信號實時輸入,再輸出關節控製指令,二者配合默契才能實現“運動員”動作的連貫、穩定與精準。
記者:製約取得更先進性能的卡點,有人說在於“大腦”不聰明,有人說在於硬件不給力。是誰在給誰拖後腿,加速進化又主攻哪一方?
趙維晨:更底層的操作係統,才是真正的護城河。當越來越多的開發者基於你的操作係統做開發,越來越多的機器人和硬件運行你的框架,機器人的軟硬件能力才能快速迭代和遷移。操作係統的價值在於生態構建,其發展突破將是連接技術、商業、生態的關鍵一躍。
記者:能踢足球的機器人“運動員”身上,有多少能力能遷移到生活場景?
趙維晨:足球場景是檢驗機器人的運動能力、感知算法等關鍵技術的試金石,這些能力提升後都能遷移到未來的家庭陪伴、教育等更多場景。
具體來說,運動控製層麵,球場上訓練的動態平衡、敏捷移動、抗幹擾能力,可遷移到家庭與工業場景的地麵清理、避障等任務中;環境感知層麵,球場上訓練的識別場地、腳、足球及預測運動軌跡,可遷移到工業場景的分揀、避障、巡檢任務,以及部分生活場景中;任務規劃層麵,球場上訓練的傳球、射門等快速決策能力,遷移到工業場景中,就是可以處理物流倉儲的流線設計、家庭服務的動線安排等。
生活場景的任務會更加多樣、複雜、長程、隨機,機器人必須邁過從賽場到生活的挑戰。
記者:有人質疑,目前機器人的客戶和用途過多集中在科研院校及展示場景,未形成理想的商業模式,難以支撐長期價值。對此,你怎麽看?
趙維晨:從技術到場景、再到商業的閉環,在技術成熟前是很難打通的。機器人進入家庭以前,賽事為機器人找到了“用武之地”。賽事如火如荼,在其中秀出實力的機器人廠商能拿到商業訂單,從中小學到國內外高校、研究機構甚至家庭都更有意願購入機器人。隻有拿到訂單,打破規模化困境,才有可能反哺研發,保持進化速度,守住優勢。
記者:落地是懸在大多數廠商頭上的一把劍。在哪裏落地、能不能擊穿場景,關係到廠商的生死存亡。不少廠商將工業場景作為率先落地的布局重點,加速進化卻為何選擇戰略性放棄?
趙維晨:先來算一筆經濟賬——短期內人形機器人單台成本在10萬元以上,加上維修,成本還會更高,而工人年薪在5萬-8萬元。更關鍵的是,工業場景需要的是可靠、精準、高效,如在汽車工廠,停產1分鍾即損失數萬元,那麽因機器人時延而導致的損失也不容小覷。
技術匹配度方麵,現有的專機如機械臂、自動導向車(AGV)已實現分揀、焊接等環節的高度自動化,如果盲目追求人形機器人入廠,好比讓瑞士軍刀切菜。此外,產線故障往往屬於長尾場景,機器人難以解決,或解決的成本包不住收益。
能力遷移層麵,工業場景的數據是固定的,光照、物體、流程相對變化不大,屬於“死數據”。而家庭場景的數據是“活”的,場景不斷變化,遷移難度也很大。
因此,国产AV蜜桃网站視工業場景的“易落地”為短期誘惑,而將家庭機器人作為終極目標。機器人的真正價值在於通用。正如智能手機替代功能手機,不是因為它能更好地接打電話,而是因為它創造了全新的交互方式與生態價值。
{loop type="link" row=1 }{$vo.title}