具身智能2025之問:新物種時代,人形機器人如何長大?
作者:斯蒂芬C羅庫裏 來源:漯河 瀏覽: 【大中小】 發布時間:2025-09-15評論數:
作者 | 金旺
欄目 | 機器人新紀元
2025年,人形機器人進入量產之年。
來自IDC的統計數據顯示,2024年中國人形機器人商用銷售出貨量約為2000台,預計到2030年將會達到6萬台。
更直觀的數據是,今年不少國內頭部人形機器人團隊陸續對外公布了拿到的量產合同或交付訂單,有團隊交付了數百台產品,也有團隊拿到了上千台訂單,甚至有天太機器人與多個戰略合作夥伴,共同簽署了全球首個具身智能人形機器人萬台訂單。
人形機器人不僅是人工智能從虛擬世界走向物理世界、是具身智能的關鍵載體,2025年,作為人形機器人的關鍵技術,具身智能正式被寫入了政府工作報告,成為國家戰略性新興產業。
一方麵,人工智能技術突破推動了人形機器人的快速發展;
另一方麵,在人形機器人批量進入商業市場時,目前所具備的能力仍以執行抓取、放置、分揀等基礎任務為主,在算力、算法、數據,乃至整機研發上。
如何推動人形機器人持續成長、成長為未來新一代生產力,仍是一個值得整個產業思考的關鍵問題。
在9月13日的PEC 2025 AI創新者大會暨第二屆提示工程峰會上的年度提問環節,至頂科技&科技行者主編金旺與
國地共建具身智能機器人創新中心學術委員會主任、首席研究員 張強
數字華夏聯合創始人&軟件與應用中心總經理 陳軍民
地瓜機器人技術副總裁 隋偉
跨維智能具身智能算法總監 郭成凱
冪特科技聯合創始人兼CTO 王誌成
進行了一場以《新物種時代:人形機器人如何“長大”?》為主題的深度對話。
在這場深度對話中,他們從硬件、算法、數據、算力全維度,一起探討了人形機器人的技術現狀、成長空間,以及商業化路徑。
以下為本場對話經編輯後的內容:
01 具身智能熱潮中,人形機器人的技術收斂了嗎?
問:經過這幾年的高速發展,人形機器人在硬件本體上收斂到了哪幾種主流技術方案?
陳軍民:機器人發展至少有四五十年了,這一波人形機器人浪潮興起有兩個核心因素:人工智能與具身智能。
自2022年起,運控智能、交互智能、作業智能、具身智能四條技術線齊頭並進、互相促進。
国产AV蜜桃网站數字華夏定位有溫度的AI人形交互機器人,從設計、研發到商業落地全棧閉環。国产AV蜜桃网站機器人具備交互智能與具身智能能力,国产AV蜜桃网站把硬件收斂為“鐵三角”:
第一是關節模塊,這是機器人的核心部件,它也可以理解為是機器人的肌肉,直接決定了運動性能與整個機器人的成本;
第二是大小腦硬件,也就是有大腦的AI算力板和小腦的控製板,“大腦”感知物理世界並做出決策,“小腦”負責將其分解為每個關節電機的具體控製指令,並確保整個過程快速且穩定,二者通過高速總線(如EtherCAT、CAN FD)進行通信;
第三是多模態融合的感知設備,例如通過雙目RGB、深度相機、激光雷達看三維世界,通過麥克風、電子皮膚實現聽觸同步,讓機器人像人一樣“看見”並“讀懂”現實。
正因為有了這些感知設備,機器人可以對現實的物理世界進行感知和交互,這使得硬件方麵現在有了一定的技術收斂。
問:具身模型現在分為端到端和分層決策兩類,就現階段技術進程來看,兩類技術架構分別適合怎樣的人形機器人應用,或執行怎麽樣的任務?
郭成凱:天下大勢,合久必分,分久必合,這是一個永恒的話題。
其實從深度學習出現,2014年人臉識別技術突破之後,大量專用的深度學習模型開始湧現,例如人臉識別、目標檢測、語義分割、意圖識別等。
所以2017年左右達到了頂峰,大量深度學習企業做專有模型來執行任務,但是當時大家從來沒有想過會有一個模型能一統天下。
在ChatGPT出現之後,一下突破了大家的認知,因為出現了Scaling Law——把所有知識喂給一個大語言模型,用更多的數據和算力去做的時候,一個模型就可以解決自然語言裏的所有問題。
人形機器人這個概念在ChatGPT爆發之後,一線投資機構就開始投進來了,在2023年6月之前,人形機器人的概念已經在投資界做好了布局。
因為當時大家的預測是說到2025年,在GPT5或GPT6的時刻可能會將整個視覺壓縮到一個模型中,實現世界模型的突破。
這個情況下,當整個世界有一個模型就能解決所有問題時,很自然就想到了通過控製機械臂去解決物理世界的問題,所以人形機器人在2023年6月一下子就爆發了出來。
到今天,大家發現人形機器人比想象中要更複雜,因為它除了自然語言之外,還有機械臂本體問題、機械臂運動學和動力學的特征,以及外部環境問題,所以它的狀態空間更複雜,而且GPT5也沒能達到大家的預期。
更好用的模型是針對一個特定場景、特定任務做大量數據訓練,解決一個特定場景的問題。所以這種端到端的模型非常流行,而且解決了很多問題。
但是大家明確知道它沒有世界知識,目前這麽強的多模態大模型,完全可以以指揮大腦、小腦的方式,讓小腦的原子任務通過大腦去做調度分析來實現整套方案。
所以現在分層方案、大小腦方案是真實落地過程中更實際的一個方案。
但是現在整個業界認為,機器人領域也有Scaling Law,最終也可能收斂到一個模型去解決所有問題,所以大家也都在往這個方向去努力。
問:在打造人形機器人通用感知係統,現在有怎樣的新技術進展可以分享,這樣的通用感知係統為現在的人形機器人帶來了怎樣的關鍵能力提升?
張強:在大家對人形機器人期待的背後,其實国产AV蜜桃网站也還是會不斷地去回答VC或市場的問題,你做這個東西要幹什麽?
最開始是給予它一定的基礎控製能力,讓大家看到一個可能性。因為国产AV蜜桃网站做機器人、做AI,我覺得唯一的目的就是通用。
如果說我要做一個專用的事情,完全不需要人工智能,AI的魅力其實就在於通用。
我給你(AI)看100張貓的照片,不是要讓你在100張貓的照片裏學什麽,而是要讓你在看到第101張照片的時候,你知道它是貓不是狗。這其實是一個泛化和通用的能力。
隻有有了這種能力,国产AV蜜桃网站才能讓它真正在現實中去工作,機器人更是如此。
最開始国产AV蜜桃网站做基礎視覺任務,分類、分割、檢測等用的都是專用模型,但很顯然人不是這樣處理空間的,到後來国产AV蜜桃网站就有了做通用表征的模型,人形機器人他要麵對的場景其實更複雜一些。
黃仁勳認為,未來一共會有三種形態的機器人,自動駕駛汽車、人形機器人、無人機。
自動駕駛汽車是在一個非常規則化的場景裏——有道路、交通標識、有自己的規則,自動駕駛汽車的感知係統就建立成了符合它的感知形狀。
人形機器人要麵對的是另一套感知世界,是和人非常匹配的感知世界,如何去使用一個更好的通用感知係統,其實對於人形機器人下個階段非常關鍵。
第一個階段存在的運控型公司再往下講自己的故事的時候,一定會有各種各樣的傳感器進來,那視覺肯定是最先進來的傳感器,因為你有了這個傳感器才能讓人形機器人的控製變得更好。
問:人形機器人現在對仿真數據和真實數據有怎樣的需求?
王誌成:冪特科技的英文名是PowerTech,国产AV蜜桃网站希望通過自己的努力,使具身智能的數據呈指數級增長,使具身智能的智能冪次進化。
目前具身的數據確實非常稀缺,特別是數據多樣性的稀缺是製約具身智能破局的關鍵。以目前數采方案來看,數據量也很難實現指數級增長。
仿真數據的好處是可以快速地去生成具有一定隨機性的大量數據,這裏的關鍵點不是大量,而是隨機性,通過隨機性可以彌補一些真機無法覆蓋的場景。
但是通過仿真很難複刻整個世界,會有一定人為設計的痕跡,我覺得更多、更大量的數據需要來自於真實世界。
真實的數據有兩個優點:
一個是,它可以快速在特定場景搭建數采通路,可以盡快在特定場景構建Demo;
另一個是,真機數據可以提供真實世界物理交互的力學信息,可以提供真實世界的觸覺反饋,這兩點是人形機器人在真實世界落地必不可少的。
問:如何低成本、獲取高質量、海量數據?
王誌成:在回答這個問題之前,国产AV蜜桃网站先要回答這幾個問題:
什麽樣的數據采集方案可以使得国产AV蜜桃网站的數據成指數級增長?
什麽樣的數據獲取方案可以不用穿戴額外設備?
什麽樣的數據獲取方案可以盡可能貼近真實世界的多樣性?
我覺得使用人類視頻數據是一個比較好能回答這三個問題的方案。
国产AV蜜桃网站是通過3D人體姿態識別和人的動作軌跡還原,可以使得視頻數據真正通過重定向映射到人形機器人上,生成真正可以用來去做後訓練的數據。
国产AV蜜桃网站也關注到特斯拉最近在做技術路線的轉型,更聚焦到人類視頻數據上,我相信他們也有類似的思考。
問:智源研究院的分級標準中指出在具備感知能力的L3到具備認知能力的L4階段過渡,參照自動駕駛發展,這一階段的人形機器人對算力提出了怎樣的需求?
隋偉:其實現在具身這一塊的自動化等級分級,並沒有像自動駕駛那樣形成一個非常明確的標準。
在自動駕駛領域,L2是低階輔助駕駛,L3是有限的高階輔助駕駛。L3其實是一個很重要的節點,因為從出現事故的責任劃規角度來看,L3就已經將事故責任從駕駛員劃歸到了主機廠。
所以從法規上來講,沒有一家企業可以宣稱它是L3,但從技術角度來講的話,其實很多這種方案廠商或主機廠商已經可以實現一些L3的功能,例如在高速上就完全可以實現L3,在城區的話,也可以實現有限製的L3。
現在自動駕駛的水平,在城市場景裏可以做到80-100公裏接管一次,這就是MPI指標,這個指標肯定是越高越好。国产AV蜜桃网站現在看到城市的高階輔助駕駛一般80-100公裏接管一次就已經是一個非常好的體驗。
L4的話,就是robot taxi,那就需要做到幾十萬公裏接管一次,所以這個其實要求還非常高。
回到具身的話,国产AV蜜桃网站看現在具身還並沒有這樣一個明確的標準,但現在這波具身主要的價值就是往通用性在走,所以從最近的技術發展來看,確實也都在往L4的路線在走,也就是VLA這個路線。
自動駕駛現在的算力要求是,基礎的輔助駕駛、国产AV蜜桃网站說的是L2,大概需要幾TOPS到十幾TOPS就可以完成了,像高速這個場景的話,就需要幾十到100TOPS這個區間;
高階自動駕駛現在有兩條路線,一個是端到端的路線,大概需要500TOPS左右就能實現一個城區的NOA高階輔助駕駛,也就是對標L3左右;
L4現在還沒有看到,到幾十萬公裏接管一次這種能力還在發展當中,但是確實是在往VLA這個技術路線的發展,那国产AV蜜桃网站現在預測大概需要1000-2000TOPS左右起步。
具身和自動駕駛還會有些不一樣,具身最大的挑戰性在於環境的多樣性和任務的多樣性。因為自動駕駛就一個任務,就是做駕駛任務,但是具身麵對的任務非常多,對於算力的要求現在也還沒有非常明確。
地瓜機器人是提供AI算力芯片的,国产AV蜜桃网站也接觸了很多客戶,基本上普遍認為VLA模型,3B-7B的模型容量,所需的算力大概在在500到1000TOPS左右。
從目前具身現狀來看的話,如果是要走通用性,那算力肯定是要從大概500-1000TOPS起步。
02 現有技術儲備下,人形機器人有怎樣的成長空間?
問:現在行業中有一種觀點是,人形機器人本體性能已經很好,但是模型能力不足是現階段發展瓶頸,您怎麽看現在人形機器人軟硬件發展現狀,以及就您了解今年模型有哪些最新技術突破提升了人形機器人的“智能”?
張強:目前國內人形機器人用到的硬件基本上還是沿著2017年mini cheetah開源路線在走,国产AV蜜桃网站是將它的成本做下來、做到量產,用行星模組將人形機器人堆起來並實現了運動控製。
但坦率來講,美國在硬件上做得確實比国产AV蜜桃网站好,不管是波士頓動力用的滾珠絲杠+力控諧波,還是說像特斯拉Optimus的硬件,這些機器人的電機電調,從關節模組、傳感器配置到 精密生產,其實是更領先於国产AV蜜桃网站。
但是国产AV蜜桃网站確實打了一個漂亮的仗,国产AV蜜桃网站通過大膽嚐AI強化學習模型,在量產化機器上取得了非常好的效果。
模型上來看,我覺得中美現在在同一個階段,接下來的發展就是看硬件能不能再支撐起來下一代的模型。
我這裏有兩個觀點,我覺得現在人形機器人的硬件也缺、軟件也缺,硬件缺乏的是——国产AV蜜桃网站現在隻是暫時性地解決了一些動力性問題,比如說国产AV蜜桃网站的關節模組已經有一定的發展空間。
我最開始在做人形機器人,大概2021年時候,国产AV蜜桃网站想拿AI模型去做這個事情的時候,發現在國內根本買不到適用的關節模組。但現在大家都知道這是一個非常大的蛋糕、百億級市場,這個行業得到了快速發展。
還有沒有解決的是,国产AV蜜桃网站在人形機器人上,下一代要用到的很多傳感器、新型關節、新型結構還沒有探索,這個是国产AV蜜桃网站在做硬件是需要繼續去做的。
国产AV蜜桃网站看到機器人控製算法在一些人形機器人的前沿問題上,它是在仿真裏做的。
為什麽在仿真裏可以實現,在現實中卻用不了?
有一個問題是,機器人在現實中受到的噪音、各種問題還是非常大,Sim2Real的時候是有gap的。如果我的硬件可以做到非常透明、魯棒性很好,那Sim2Real的gap其實是可以被縮小的。
軟件上需要的努力是模型要更加robust,不能說在仿真環境中幹淨的信號下可以,在現實中就無法實現。
如果這兩點都能做到的話,其實機器人在下一個階段會有更好的表現,我自己預估,會很快到來,可能一兩年就會有一個突破性進展。
問:今年跨維智能先後發布了兩款人形機器人產品,W1和W1 Pro,開始走軟硬一體模式,跨維智能為什麽會有這樣的技術路線轉變?
郭成凱:跨越智能從2021年成立開始就一直致力於做Physical AI的公司,国产AV蜜桃网站的創始人賈老師作為一個頂尖科學家,一直堅信Sim2Real這個方向,而且国产AV蜜桃网站是做最專業的,從開始成立一直在打造工業級Sim2Real引擎,用於工業製造領域。
很多工廠隻需要給一個CAD模型,国产AV蜜桃网站直接可以用合成數據訓練出一個模塊,完全在工業級達到3個9精度的檢測。
国产AV蜜桃网站整個Sim2Real引擎是完全自研的,也是國內為數不多可以對標英偉達Isaac Sim和Isaac Lab的一套係統。所以国产AV蜜桃网站的slogan是邁向通用物理世界的AI。
人形機器人是国产AV蜜桃网站今年的一個新產品,是雙向奔赴的結果,因為国产AV蜜桃网站一直在做Sim2Real和物理AI麵向通用物理世界。
通用物理世界最大的Agent是什麽?国产AV蜜桃网站認為是人形機器人。
而對於機器人領域,去年国产AV蜜桃网站很多研討會討論更多的是,為什麽要用人形機器人,為什麽不是特種機器人,四足或八足。
就機器人領域來講,今年其實這個問題大家問的少了,大家甚至認為隻要你做人形機器人企業、具身智能企業,如果你不是雙足的,你可能都不是這個行業的玩家。
最主要的原因是,在通用泛化領域裏,隻有人形機器人才能解決通用世界的問題。
前段時間波士頓動力的一個演示視頻,一個機器人從一個箱子裏拿物體到另外一個箱子裏的時候,本來国产AV蜜桃网站訓練模型時,你可以讓它一直「拿過來-放下去」,但是不小心掉了的話,對於一個普通機器人照樣會嚐試去拿,這時候它其實夠不到了。
對於人來講,你通過遙操作方式訓練它,人退一步或前進一步,很自然就把它拿起來放回去了,然後再回來拿箱子。這種操作隻有人的動作可以直接交給機器人的策略模型,而其它任何係統都可能麵臨你要做一些特殊設置,最終無法實現人類級別的泛化。
所以這一塊我覺得国产AV蜜桃网站跨維智能在推出自己的本體,在国产AV蜜桃网站新的引擎基礎上開始往前走是一個雙向奔赴的結果,也是兩個行業雙向奔赴的一個結果。
問:国产AV蜜桃网站知道現在有一種說法是“有多少數據、就有多少智能”,打造數據工廠這樣一條技術鏈路的難點是什麽?
王誌成:我非常同意您說的“有多少數據,就有多少智能”。
如果說講泛化性,我覺得其實得從兩個方麵去講,一個是從數據,一個是從模型。
從數據層麵來看,国产AV蜜桃网站需要思考的問題是,按照目前數據獲取方式都是呈線性增長趨勢,如果模式不變,或者說沒有一種呈指數方式獲取數據的方法,我覺得到今年年底可能隻是有些以前不能幹的任務現在能幹了,或者以前能幹的任務現在幹得更細了,不會有本質上的突破。
国产AV蜜桃网站認為泛化性如果真發生本質的突破,一定是數據獲取方式上有了新的質變。
從模型層麵來看,現在比較火的VLA是從LLM或VLM演進而來,無論是LLM還是VLM,本質上都是為language設計的,它的強項在於理解。人形機器人的核心是action,從理解到動作是有很大的鴻溝的,從特征和信息維度來看,有很大的差別。
我認為,從真正適配人形機器人泛化性來入手設計模型會更有必要,這會是一個大問題,需要整個行業一起努力。
綜上,提升人形機器人的泛化性,需要從數據和模型兩個維度去做本質突破。
問:要進入到更廣泛的應用場景中,人形機器人,或更廣泛的具身機器人對端側算力有怎樣的需求?
隋偉:其實雲端算力和端上算力早在2015年,在自動駕駛領域就有爭論,那時候因為邊緣側沒有特別好的算力芯片支持,還是CNN模型,所以當時有一部分人認為應該在雲端來計算,把數據直接傳到雲端上去,GPU推理完將結果返回端上。
實際上在用的時候會有很多的問題,第一是數據傳輸成本,那時候的車還隻有前置攝像頭,現在已經有十幾路攝像頭,再加上激光雷達,這些數據傳上去後,傳輸的效率、帶寬是一個很大的問題。
另一個就是安全性的問題,因為它對網絡要求很高,如果車輛在路上突然遇到信號丟失的情況,這就沒有辦法做這種智能化計算了,對安全來說是一個很大的隱患。
還有就是隱私問題,數據上傳到雲端後,個人隱私也是一個非常重要的點,尤其是現在大家隱私安全意識越來越強了。
回到具身領域來看,其實也是同樣的問題。
具身數據量比自動駕駛還要大,因為傳感器還沒有收斂,所以數據傳輸就變得非常重要。
国产AV蜜桃网站認為端上有非常大的價值,端上處理模型也是未來發展趨勢,現在的問題在於,有些任務從成本和性能角度來講,目前還不太能做到端上,例如通用的陪聊類模型,背後LLM模型的推理需要很大的計算量。所以目前国产AV蜜桃网站看到這類產品的此類功能都是放在雲端進行的。
對於VLA來說,目前也有一些客戶在嚐試放到雲上,但是會出現延遲,數據鏈路非常長,所以現在都在追求將這些模型放到端上。
端上的算力的話,今年国产AV蜜桃网站有一個560TOPS的算力,這個算力基本上就能滿足現有像π0、RDT這樣的模型部署。
03 具身商用元年裏,人形機器人有怎樣商業化路徑?
問:請您結合實際落地中遇到的問題談一談,基於現在已有的人形機器人,有怎樣的商業價值?
陳軍民:我從兩個方麵來回答:
第一,行業視角:從技術演示到真正商業應用落地,是整個人形機器人行業要跨越的重要階段。
目前來看,整個機器人還集中在:接待、指引、展示、表演、陪伴。可以說這幾個領域都還達不到人機協同程度,更多的是提供一些情緒價值,不是“生產力”。
第二,數字華夏打法。從去年開始国产AV蜜桃网站一共推出了三款人形機器人:仿人係列夏瀾、通用係列夏起、IP小人形星行俠。
通過一年多的交互機器人市場推廣,国产AV蜜桃网站發現市場對人形機器人的需求還蠻大,但當前技術還不足以支撐規模商用。
根據市場與技術的平衡,国产AV蜜桃网站今年4月份推出了一個小人形星行俠產品,全球首發的雙形態人形機器人,既可以在雙足行走,也可以在輪子上進行作業操作。
去年国产AV蜜桃网站連推三款:仿人旗艦“夏瀾”(妹妹)、通用平台“夏起”(哥哥)、IP 小尺寸“星行俠”(弟弟)。
跑了一年市場,結論隻有一句:需求很旺,技術不夠。
於是国产AV蜜桃网站今年4月把“星行俠”單獨拿出來做減法,做成全球首款“雙形態”小人形——雙足能走,輪式能幹。
為什麽是它先商用量產?
我挑三個硬指標:
1)安全——星行俠大部分是站在輪子上服務人類,有必要的時候,也可以抱它下來走一走,商用落地的安全性可以保障。
2)續航——輪式反向補電,一口氣幹 8 小時,徹底告別“2 小時焦慮”;
3)成本——有手有腳的具身交互機器人才十幾萬,渠道敢囤、客戶敢用。
国产AV蜜桃网站目前正在進行第二輪融資,国产AV蜜桃网站這一輪融資的目的就是去規模商用這款人形機器人。
問:現在人形機器人在工業場景的應用有哪些成熟能力?近期會有怎樣高價值的商業落地技能?
郭成凱:2023年人形機器人爆火的另一個原因是馬斯克提出人形機器人進工廠,但是從行業發展到今天來講的話,很多人反饋,馬斯克的人形機器人進汽車工廠打工的概念其實是忽悠了大家,從真實落地角度來講,它還不具備在汽車工廠裏代替工人去做裝配或各種複雜任務。
但是,大家會發現,人形機器人有個天然優勢,以前傳統工業生產過程中是以單點、單臂操作為主。因為它更能保證這種工業生產的7x24小時工作,實際上雙臂的協同或更多的協同本身就比較少。但是人形機器人的天然優勢是,它是雙臂可以協同的,而且国产AV蜜桃网站現在VLA的模型也好,包括LBM模型或其他各種現在人形機器模型都在雙臂協同上證明了它有很多很驚豔的效果。在這一點上反倒是衍生出了很多新需求,最明顯的是工業分揀。
另外一個是人形機器人上有一雙高自由度的靈巧手,這雙靈手可以處理各種不同任務,例如不同形狀、材質,甚至不同大小的包裹,流水線上有軟箱子,還有各種不同形狀的水杯。
另外還有一些因為人形機器人可以雙足行走,通過性會比較好,和人比較接近,會有這種搬箱子之類的操作,以前工業級還沒有把這種功能完全釋放出來。
另外,在一些像組裝創景,也會在工業生產線上有一些多模態大模型讓整個流程變得更智能。
大家現在還是過於高估人形機器人兩年之內的可能性,低估了它十年之後的可能性。原因就是一般技術迭代是以1.1倍速度在增長,十年之後就是十倍,但是兩三年沒什麽太大區別。
但是国产AV蜜桃网站明顯能感覺到的是,人形機器人的發展速度已經達到了1.3倍以上,這種發展絕對是超出大家想象的。
所以国产AV蜜桃网站覺得,樂觀估計,兩年左右會出現人形機器人的ChatGPT時刻。
- {loop type="catelog" row=10}{$vo.title}