![]()
編輯|冷貓
據統計,今年國內具身智能領域融資總額已突破 370 億元。
工信部與國務院國資委聯合啟動「人形機器人與具身智能實景實訓專項行動」,央廣網直接把今年定義為「商業化落地關鍵年」。一級市場的錢、二級市場的故事,全都在喊同一個方向:落地、落地、落地。
但問題來了,具身智能到底應該怎么落地?
大家都比較認可的觀點是,具身智能應該去攻克人類做不到的事,應該去替代人類做一些高危、繁重、重復,人不想干也不該干的活。
6 月 22 日,第四屆中國國際供應鏈促進博覽會在北京開幕,首次設立人工智能專區。
一家名為若愚科技的深圳公司首次亮相,帶來了搭載自研「若愚九天機器人大腦」的特種防爆機器人「若愚攬月 01」。展臺前人群不斷,「若愚攬月 01」在「若愚九天」機器人大腦的驅動下,于模擬油氣場站中自主完成了語音指令接收、環境感知導航、設備狀態識別到精準操作的完整作業閉環,直觀呈現了具身智能大腦從「理解任務」到「執行動作」的全鏈路能力。
![]()
而早在兩個月前,全球首個面向加油場景的「具身智能大腦系統」解決方案,就已經面向普通車主提供全流程自主加油服務了。開蓋、取槍、加注、收槍、關蓋,全套工序獨立完成,不需要人工介入。這在行業里是一個稀缺樣本。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/AzNxtEcdVRlzcYgfuWxkUA
國內首張防爆資質
若愚科技是一家務實的公司。
若愚科技從一開始就扎進了具身智能在特種場景中的應用:加油站、油氣場站、港口碼頭等等。他們認為,具身智能技術要想真正產生社會價值,應該先去解決那些人類從業者面臨高安全風險的場景,讓他們脫離危險繁重的作業環境。
但想法歸想法,要讓機器人真正「進得去」這些場景,第一道關卡就足夠勸退大多數公司:防爆認證。
在加油站、油氣場站、化工廠等易燃易爆環境中,機器人自身絕對不能成為潛在的點火源。這對產品硬件在設計之初就提出了極其嚴苛的要求。比如說:從電路層面就要做本質安全設計,限制回路能量,確保即便發生故障也不足以引燃環境氣體;機械結構要滿足隔爆要求,承受內部爆炸而不損壞外殼;所有連接點要做增安處理,防止正常運行中產生火花風險;關鍵部件還要通過澆封手段隔絕危險接觸等等。
2026 年 3 月,若愚科技自研的「若愚攬月 01」拿下了這張入場券:Ex db eb ib mb IIB T4 Gb 整機防爆認證與 Ex db IIB T5 Gb 協作機械臂防爆認證。若愚科技因此成為國內首家取得輪式人形機器人防爆資質的企業。
![]()
在整個具身智能向行業應用邁進的今天,這張防爆認證或許是含金量最高的「成績單」。
具身智能能去哪里
加油場景:全球首個具身智能大腦系統解決方案落地
2026 年 4 月,「若愚攬月 01」進駐佛山一座加油站,開始面向普通車主試運營。
這個場景對機器人的挑戰集中在「精細操作的連貫性」上。車主下單后,機器人要連續完成十多個動作:掀外蓋、擰內蓋、從槍座上摘下油槍、瞄準油口插入、等待加滿、拔槍、掛回槍座、蓋內蓋、合外蓋。每個動作的容差只有幾毫米,任何一步卡住都意味著整條鏈中斷。而且不同車型的油箱位置、蓋板結構、開啟方式千差萬別,機器人不可能靠固定程序跑通所有情況。
「若愚九天」機器人大腦在這套流程里做的事情比逐步下發指令復雜得多:每一步動手之前,它會先推演接下來三到五步的成功概率。比如當前車型的油箱蓋開啟角度偏小,大腦預判到后續取槍角度受限,就會在摘槍之前先調整機器人的站位。
![]()
這是一個已經落地驗證的場景,無需改造加油站現有設施,機器人直接適配現有布局;單臺機器人不綁定固定工位,可以在相鄰油島之間來回作業;對車主停車精度的容忍度也做了專門優化,不需要停得很正也能完成加注。車主端的體驗也變得更簡單,隨到隨加,無需下車。
油氣場站:鏈博會上的中石油展臺首秀
場站巡檢的痛點和加油站完全不同。加油站考驗的是精細操作,場站考驗的是「長時間自主巡邏 + 多種異常識別 + 現場即時響應」的綜合能力。巡檢員每天走固定路線,這份工作枯燥、危險,而且對注意力的要求極高,人連續巡檢幾個小時后遺漏率會顯著上升。
若愚科技正在開發的巡操一體化方案,讓「若愚攬月 01」承擔這類工作。操作員可以直接用語音下達任務,機器人將語音轉化為結構化的自然語言指令,由「若愚九天」大腦理解意圖并拆解為具體任務序列。整個過程中,大腦同時融合激光雷達、攝像頭、力覺傳感器等多源信息,驅動感知、識別、規劃、執行形成連貫閉環,讓機器人能針對不同巡檢任務靈活調整策略。
鏈博會現場,「若愚攬月 01」在模擬管路環境中演示了完整的巡檢閉環,是這套方案的首次公開亮相。
![]()
港口場景:多機器人協同的探索
這個場景最特殊的地方在于,它天然需要多臺機器人協同。
扭鎖是集裝箱之間的機械連接件,每個箱角四個,裝卸船時需要逐一安裝或拆除。若愚科技的方案是把整條作業鏈交給機器人:從料箱里取出鎖具、運送到指定箱角、對位安裝,卸船時再反向操作。
與其他場景的關鍵區別在于,一條船上百個扭鎖,靠一臺機器人逐個拆裝效率遠遠不夠。這要求「若愚九天」機器人大腦同時調度多臺機器人分布在不同工位上并行作業。這些調度決策都由同一顆大腦統一規劃。這也是若愚科技強調的「一顆大腦驅動多具身體」在實際場景中最直觀的體現。
三個場景背后有一條共同的產業邏輯:加油站驗證了精細操作能力,場站驗證了長程自主能力,港口驗證了集群協同能力。
每多跑一天真實作業,現場產生的傳感器數據、失敗案例、邊界工況就會進入訓練管線,反過來讓「若愚九天」機器人大腦更快地適應下一個新場景。若愚科技把它叫做「場景數據飛輪」,廣泛應用后將開啟更高效的進化迭代。
「若愚九天」,解決多個難題
目前大多數具身智能系統的架構是「流水線式」的,視覺模塊負責看,語言模塊負責理解,動作模塊負責執行。
這種架構處理短序列、低干擾的簡單任務還行,一旦遇到十幾步連續操作、環境高度動態、容錯率極低的場景,中間任何一步的微小偏差都會像多米諾骨牌一樣向后傳導。傳統流水線架構在這種量級的任務面前,幾乎不可能保證端到端的穩定性。
若愚科技自研的「若愚九天」機器人大腦,把感知、規劃、執行三個模塊端到端整合進同一個系統內,依托大語言模型與三維解碼器耦合的創新架構,讓視覺、語言、空間、動作、力覺等多源信息在一個模型里完成深度融合處理。這意味著,具身智能「看見」「理解」「動手」三件事,在同一個神經網絡里同時發生。
架構設計上,「若愚九天」大腦采用「大腦 - 小腦」分層協同的思路。大腦層負責高層任務規劃與決策,基于擴散模型模仿學習和 3D 可供性感知技術,處理智能體交互、長序列任務分解和環境避障等認知層面的工作。小腦層則聚焦于執行精度,把大腦輸出的規劃指令轉化為關節級的精細運動控制,確保操作毫米級到位。
世界模型驅動的預測能力
在加油站場景中,具身智能面對的任務鏈極長:停車引導、識別油箱位置、開外蓋、開內蓋、取槍、對準油口、插入、加注、拔出、收槍、關內蓋、關外蓋。任何一步的微小偏差都會向后傳導。
「若愚九天」機器人大腦引入世界模型能力,可以對環境未來狀態、任務進程及動作結果進行持續預測與推演。簡單理解,就是讓機器人在真正動手之前先「腦中過一遍」,預判各種可能出現的狀況。如果模型預測到「以當前角度取槍,后續插入油口的成功率很低」,它會在動手之前就調整策略,而非執行到一半才發現問題。
這種能力在長序列任務中尤其關鍵。加油不是一個「抓取 - 放置」的簡單操作,它是一整條有前后因果關系的動作鏈。世界模型讓具身智能具備了「看三步走一步」的前瞻能力。
用一個比喻來理解:一個老司機加油,不管油箱蓋開得順不順利,腦子里始終清楚最終要達到什么狀態,中間的每一步都圍繞這個終態來調整。讓具身智能從「線性執行」變為「終態對齊」。
第一,生成目標觀測。 系統接收到任務指令和當前攝像頭畫面后,先去預測「任務完成后,世界應該變成什么樣」。例如加油任務結束后,油槍應該歸位、油箱蓋應該合上。這個預測出來的「終態畫面」就是目標觀測,它為后續所有推理過程提供了一個明確的語義錨點。
第二,合成中間過渡幀。 有了目標之后,系統再倒推中間應該經歷哪些視覺狀態。如果起點是「油箱蓋關著」、終點是「油槍歸位、油箱蓋合上」,那中間就需要依次出現「油箱蓋打開」「油槍取出」「油槍插入油口」等過渡畫面。這些合成出來的中間觀測幀,為動作生成提供了逐步對齊的視覺參考。
這套機制讓機器人在動手之前就對整個任務過程有了完整的視覺想象,后續的動作規劃都圍繞這條「想象的軌跡」展開,從而大幅降低了長序列執行中的累積偏差。
目標驅動的分層精煉框架(H-GAR)
「若愚九天」機器人大腦搭載了一套目標驅動的分層觀測 - 動作精煉框架(H-GAR),先鎖定終態,再逐層向前精煉動作。
![]()
(a)現有方法通常采用目標無關、整體式的預測范式。(b) H-GAR 引入了目標條件觀測合成器和交互感知動作優化器,從而實現了以目標為錨定的預測,并顯式建模觀測與動作之間的交互。
具體而言,H-GAR 的工作流程分為三步:
![]()
H-GAR 架構圖
- 第一步:粗粒度動作草案。基于歷史畫面和任務指令,系統首先生成一組粗略的動作序列。這些動作描述了一條從當前狀態到目標的「大致路徑」,類似于人類加油時腦子里的粗略計劃,知道大概要做哪些步驟,是執行前的準備。
- 第二步:目標條件觀測合成(GOS 模塊)。拿到粗粒度動作后,系統在目標觀測的引導下合成中間視覺幀。這一步的關鍵在于:合成的畫面不是隨便生成的,而是同時受到目標終態和粗動作的雙重約束。這確保了中間過渡幀既符合動作邏輯,又對齊了最終目標。
- 第三步:交互感知動作精煉(IAAR 模塊)。最后一步將粗動作升級為精細的可執行指令。IAAR 從兩個方向獲取反饋來精煉動作:一是中間觀測幀提供的視覺上下文,讓動作與實際場景對齊;二是歷史動作記憶庫,它記錄了此前執行過的精細動作,確保當前生成的動作與歷史軌跡保持時序一致性。當記憶庫超過容量閾值時,系統采用相似度淘汰策略,合并最相似的相鄰動作來保持記憶多樣性。
若愚科技團隊聯合多家機構,已將這套框架的核心理論以論文形式發表于 AAAI 2026,在仿真基準和真實機器人操作任務上均取得了當前最優的表現。在 Libero-10 多任務基準上,H-GAR 取得高達 94% 的成功率;在真實世界實驗中,長鏈任務(如物體放置、抽屜操作)的階段完成率也顯著高于對比方法。
- 論文地址:https://arxiv.org/pdf/2511.17079
視覺 - 力覺融合的閉環糾偏
真實場景里意外幾乎是常態。油箱蓋可能打開角度不對,車主停車位置可能偏移預期,甚至油口周圍可能有異物遮擋。在實驗室里一百次能成功九十九次的動作,放到戶外真實環境可能打個七折。
「若愚九天」機器人大腦的解法是引入多模態閉環糾偏機制:實時融合視覺變化與力覺反饋,識別真實操作狀態。舉個例子,當機器人試圖將油槍插入油口時,如果視覺告訴它「位置看起來對了」但力覺反饋顯示「阻力異常」,系統會綜合判斷當前操作是否安全有效,自主決定是微調角度重試,還是退回上一步重新定位。
「一個大腦,多個身體」的通用架構。 最后一個關鍵設計決定了這套技術體系的擴展性。
「若愚九天」機器人大腦采用輕量化通用架構,同一顆大腦可以高效驅動多類型、多數量的機器人協同作業。目前若愚科技已自主研制了雙臂重載、單臂重載、雙臂輕載等多品類機器人本體,配套自研高負載防爆靈巧手,形成多構型產品矩陣。
這意味著什么?在加油場景積累的感知能力、規劃策略、糾偏經驗,可以直接遷移到其他場景的機器人本體上,不需要為每種構型從頭訓練一套系統。大腦的智慧是通用的,身體可以根據場景需求靈活適配。這大幅降低了多機型適配改造的成本與部署周期。
尾聲:知行合一
讓具身智能走向特種場景,是一件需要有長期主義精神的事情。
若愚科技從立項之初就選擇了具身大腦和本體一起做的完整鏈路。我們相信,這并非出于「什么都想干」的貪心,而是想要深耕特種場景的必選項。
要進入特種行業,機械結構設計必須從底層考慮安全性,必須要有研發具身本體的能力。而在特殊場景下執行任務,具身大腦更是不可或缺。大腦與本體的深度耦合已經超越了加分項,它就是準入條件。
正是這種選擇,讓若愚科技形成了行業中少見的完整閉環:同一個團隊既掌握從感知到決策的全鏈路算法,又能獨立完成滿足防爆標準的結構設計與制造。「若愚九天」機器人大腦從誕生起就和本體共同生長。
當具身智能行業集體站在商業化落地的十字路口,那些最早跑通「大腦 - 本體 - 數據」閉環的玩家,大概率會在接下來的競爭中占據先手。
支撐這套體系的,是一支學術積累深厚、產業經驗豐富的創始團隊。
公司由哈爾濱工業大學(深圳)孵化,依托哈深資產經營有限公司進行成果轉化。董事長聶禮強,哈工深信息學部主任,達摩院青橙獎獲得者。創始人兼 CEO 孫騰,90 后人工智能博士,成果發表于 IEEE TPAMI 等國際頂級期刊和會議。COO 江隆業,前奧比中光科技集團高級副總裁,產業化落地經驗十分豐富。首席科學家張民,是哈工深特聘校長助理、計算與智能研究院院長,2026 年 3 月斬獲吳文俊人工智能科技進步獎特等獎。
源自于哈工大的基因決定了這個團隊的氣質,信奉技術要落到實處。不去做錦上添花的事,去做那些真正把人從危險中釋放出來的事。讓具身智能進入這些危險場景,才是技術該去的地方。
若愚科技已累計完成種子輪、天使輪和天使 + 輪數億元融資,投資方包括東方精工、昆仲資本等。截至 2026 年 6 月,圍繞核心技術申報國內專利 40 余項。先后獲得深圳市創新型中小企業、國家高新技術企業認證,入選深圳市「機器人 +」典型案例及 36 氪「2026 最具價值成長企業 100」。
具身智能技術的終極承諾,或許正在于替換人去承受那些不該由血肉之軀承受的風險。在那些容錯率為零的特種現場,若愚科技的具身智能已經站在了第一線。
整個特種作業板塊,只是「若愚九天」機器人大腦率先驗證能力的第一站。
特種場景的價值在于,它對感知精度、決策魯棒性和執行安全性的要求極高,能在極端工況中充分錘煉智能的上限。未來,若愚科技將在此基礎上,向更廣泛的領域拓展。
「若愚九天」想要打造機器人時代的智能內核。機器人的形態會隨場景變化,但驅動它們感知環境、理解任務、協調行動的那顆大腦,是跨越所有場景的通用基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.