![]()
![]()
要像投入算力一樣投入數據。
作者|衛琳聰
2026年,39歲的姚卯青有了新頭銜:覓蜂科技董事長兼CEO。他同時也是智元機器人合伙人、高級副總裁,主管具身業務。
2023年加入智元以來,這位清華畢業、工作履歷貫穿谷歌、甲骨文、蔚來汽車的行業老兵在具身智能領域做了不少工作。先后發布機器人智元精靈G2、智元啟元大模型GO-1,后者是全國首個通用具身基座模型。
除了模型和機器人,他的工作中還有一塊相對靠后但重要性日漸凸顯的領域——數據。
2024年,姚卯青牽頭建成行業規模最大、場景最豐富的數采超級工廠之一,并開源全球首個基于全域真實場景的百萬真機數據集AgiBot World。
到了2026年,數據開始占據姚卯青更多精力。2月份上海覓蜂具身智能科技有限公司成立,姚卯青擔任一把手。
姚卯青告訴「甲子光年」,他在智元做具身智能迭代的過程中發現,真正的卡點不在算法,而在數據。于是專門成立了覓蜂科技,想通過獨立的公司以更聚焦、開放的方式突破數據瓶頸。
覓蜂科技致力于構建物理AI數據基礎設施,“讓高質量物理AI數據像水電一樣即取即用。”覓蜂在2026年4月發布MEgo系列無本體、可穿戴數據采集設備,并配套數據治理服務平臺MEgo Engine。
這背后更大的變化是具身智能數據掀起的熱潮。業內關于2026年是“具身數據元年”的說法不絕于耳,具身數據采集正從實驗室、采集場邁向全民參與。
近期,姚卯青和我們聊了聊他對具身數據的看法和做法。以下為「甲子光年」專訪姚卯青文字實錄,經編輯整理,略有刪改。
![]()
覓蜂科技董事長兼CEO姚卯青
1.百億小時具身數據能實現智能涌現,現在只有幾十萬
甲子光年:大家都知道具身智能缺數據,目前行業有效數據量級大概是什么級別?缺口有多大?
姚卯青:目前整個行業來講,我們認為有效數據在全球大概在幾十萬小時這樣的規模。但要達到像GPT-3.5那樣開箱即用的類人初步能力,我們認為大概需要一億小時量級。從幾十萬到一億,中間還有2~3個數量級的差距。
甲子光年:覓蜂的目標是2026年達到千萬小時級數據產能,2030年達到百億小時。如果能達到百億級,對具身智能意味著什么?
姚卯青:百億級如果是高質量、多元化的數據,我們認為對機器人應該能達到甚至GPT-4的效果,通過超大規模數據訓練出的基礎模型,會具備一些專家能力。
甲子光年:也就是說,達到百億小時數量級,就可能出現大家一直期待的智能涌現?
姚卯青:是的,我們還是比較堅信的。
甲子光年:最初為什么成立覓蜂?大家都知道覓蜂和智元有很強的聯系。
姚卯青:契機是大家雖然覺得具身智能是AI驅動、算法很重要,但經過我們前期迭代發現,核心卡點不在算法——算法可以通過優秀人員創新實現,但數據實在太少了。數據獲取需要時間、投入和迭代方法,不可能一蹴而就、一夜造出來。未來真正制約行業發展和形成壁壘的一定是數據。
具身智能的模型我們認為不會有強壁壘,只是投多少算力和工程人員的事。在這樣的背景下,數據是非常重要的商業模式。即使在AGI還沒出來之前,數據本身就有很大的市場。
所以我們孵化了獨立業務,讓它更聚焦,通過市場化方式融資獲得資金支持,讓數據采集、生產、標注的方法和基礎設施更扎實。作為獨立的第三方公司,也能更好地服務全行業用戶。
甲子光年:如果為了提高數據量級,為什么不在智元內部做,而要成立覓蜂,以這種第三方的形式來做?
姚卯青:第三方業務更聚焦,覓蜂的人員唯一的OKR就是把數據這件事做好,大家更專注。另外可以獨立融資,有更多資金支持數據。最近有人建議全球具身智能從業人員停止研發一年,全來搞數據,不要再搞模型代碼——說明聚焦數據很重要。
再者,獨立公司的決策更公允,才能保證服務行業。在智元體內,可能會給自身團隊優先級和資源傾斜,至少外界會這么覺得。成為獨立公司,智元就是正常客戶,大家都一樣,有什么需求就來采購,大家一起排隊,該排隊就排隊。
甲子光年:獨立出來也能更大量地采集數據,更開放?
姚卯青:對,更開放。智元的主要業務還是智能機器人,在各場景創造生產力價值,要聚焦那里。我們作為專門的數據公司,可以更開放、更大刀闊斧地搞各種數據創新。
2.眾包、加盟,全民采數據
甲子光年:現在離2030年只有四年,數據量從幾十萬小時增長到百億小時,怎么能實現?
姚卯青:從當前量級到百億,涉及幾個點。
第一,大家在使用和迭代中逐漸探索、收斂出什么樣的數據是更好的標準——從采集設備、采集方式,到場景分布、任務分布,再到標注格式、顆粒度、準確度。這需要和數據用戶、模型團隊反復迭代,逐漸沉淀和收斂。
第二,要支撐這么大的數據量,必須變成全民參與的形式。我們公司的使命是"讓全世界的數據為AI所用",加速智能體的到來.所以首先要提供大量采集設備,做好產品定義和量產化;其次要有一套強大的數據傳輸、存儲和處理的軟件、算法基礎設施。
第三,要有好的機制來吸納、分配數據。達到這種成熟度,才能真正讓全世界數據為AI所用。
甲子光年:覓蜂具體會怎么擴大數據量?據說你們要用眾包和加盟的方式來采集?
姚卯青:是的,已經在做了,我們現在有不同形式的生態合作。一些獨立的數據采集運營團隊會根據我們的標準和流程進行委托式采集——我們規定任務和場景,委托他們按標準采集,我們驗收結算。
甲子光年:怎么找到足夠多的采集人員?
姚卯青:有兩種方式。一種是在很多城市,我們的運營伙伴會集中招募人員,比如從職業院校等渠道,安排到各種場景里采集。另一種是和勞務平臺合作,他們本身每天有很多外包員工在各行各業工作,工作期間就可以采集數據。
將來我們還會推出更面向全民的形式:大家可以領取設備,把自己認為有價值的場景錄制成數據,我們根據質量、場景新穎性和價值來判定,有價值就會購買。這是純全民參與的眾包形式。
甲子光年:這種全民參與的形式,是由覓蜂直接開放組織嗎?還是通過中介?
姚卯青:前期我們直接在自己平臺上招募、篩選。估計會有很多人相應,在有限資源下,我們會篩選申請者,分配設備,規定需要的場景任務,他們采集后我們核驗。目前主要還是跟勞務公司合作,招募外包員工采集。
![]()
采集人員使用覓蜂的設備進行數據采集
甲子光年:加盟的采集方式具體會怎么做?
姚卯青:我們在各個地方有加盟的采集基地,往往是一些具備運營能力的伙伴——有人力、運營能力和本地場景觸達能力。他們拿著采集設備,自己招募人員,分配場景和所需數據時長,讓他們進入可觸達、可控制的場景里采數據。
甲子光年:這些合作方以前就是做數據的嗎?
姚卯青:都有,有些過去做其他領域的數據,比如自動駕駛、語言模型、機器視覺等。也有些原來不是做數據運營的,我們可以從零培訓他們如何管理和運營采集隊伍。
甲子光年:如果以前不是做數據的,他們可能有什么基礎適合加盟合作?
姚卯青:沒有特別強的標準。很多做算力運營的也有一定資金實力,這是需要的——因為要持有一批設備、招人,采集數據肯定有成本支出。
甲子光年:相當于是輕資產運營,加盟方或眾包組織方提供人力、場地,你們提供采集設備,他們采集后返回數據給你們?
姚卯青:對。
甲子光年:這個模式和真機采集、大型數據場采集相比,效率能提高多少?成本能降低多少?
姚卯青:人員采集效率有提升。真機采集8小時可能產出2~3小時有效數據,但像這種無本體、可穿戴設備,8小時采集甚至能產出5小時左右數據,幾乎翻倍。
成本上人力取決于人效,物力方面無本體采集用的設備比機器人真機便宜很多。
甲子光年:數據采集回來后要怎么用?
姚卯青:采集回來首先要做處理,處理完的數據才會給算法用戶做模型訓練。要做位置提取、語義標注、任務描述標注,有些情況下還要做視覺語義標注,做同一時間下各路傳感器、執行器的對齊,可能還要打語音標簽等。這些都做完形成數據集,才能交付使用。
甲子光年:你們還配套推出了數據處理引擎,這對數據采集的成本、效率有改善嗎?
姚卯青:是的,人員高效采集能減少不必要的時間浪費和低質量數據積累。采集完后的數據管線——位置提取、標注、預標注、清洗等,引入自動化環節,各方面都能提效。
3.標準不是拍腦袋想出來的
甲子光年:覓蜂想要成為具身數據的基礎設施,不過具身數據和機器人本體綁定性強,你們采集的數據能面向行業通用嗎?
姚卯青:無本體數據天然和機器人本體解耦,大家都能用。其實真機數據本身也可以跨本體使用。真機數據很多時候用于預訓練階段,學術上驗證過,用某些機器人本體產生的數據進行預訓練得到的模型,可以通過少樣本的后訓練數據微調,在另外的本體上落地部署。
甲子光年:這些數據的使用方主要是哪些?
姚卯青:主要是機器人、具身智能的研發團隊,包括機器人公司、大廠的具身團隊,還有大模型和視頻生成類公司,現在也叫世界模型。
他們使用完靜態互聯網數據后,需要更多真實物理世界的、與環境有交互、有任務執行和規劃的數據,來進一步提升多模態模型的智能化程度。這些都需要物理AI的數據。
甲子光年:你們發布了“蜂巢數據共創行動”,合作方很多。具體如何共創合作?
姚卯青:蜂巢數據共創行動里有不同參與角色。一類是場景提供方,他們有很多場景愿意開放出來做數據變現,對我們很有價值。第二類是本身在做數據生產、標注業務的。覓蜂希望成為平臺型公司,以靈活方式鏈接數據需求和供給,他們可以通過覓蜂平臺交易,觸達數據使用方。還有一類是和覓蜂合作、具備運營能力的委托數據生產方。
甲子光年:目前比較需要哪些場景?
姚卯青:像零售、酒店、物流、家居、家政、工業,各種各樣的場景都希望有。
甲子光年:比如一個藥店小老板,如果愿意合作就可以把設備放到他店里采集,是嗎?
姚卯青:對的。
甲子光年:現在不少地方政府牽頭建設大型數據采集場,覓蜂和這些采集場之間是什么關系?
姚卯青:我們和采集場有一些合作,他們算是我們的委托生產伙伴。覓蜂自己輕資產,人力密集型采集會委托采集場按我們的標準和流程進行采集。
甲子光年:市面上其他數據供給方,也可以通過覓蜂平臺進行數據供給和交易嗎?
姚卯青:是的。
甲子光年:在這種平臺模式下,覓蜂未來的商業模式是什么?賺哪部分錢?
姚卯青:覓蜂做數據的高價值增值部分,比如采集回來的數據,我們通過覓蜂的數據平臺做精細的后處理、標注、位置提取等,把原始數據變成模型能直接用于訓練VLA、世界模型的數據。我們從數據處理這部分獲取商業價值。
甲子光年:也就是說,你們還是希望從提高數據質量和附加值上賺取收益,而不是像互聯網平臺那樣做撮合交易、賺傭金?
姚卯青:對,不是簡單收取傭金的模式,這里面有很多技術含量。
甲子光年:大家談到具身數據都會說缺數據、質量低、沒有統一標準。覓蜂的模式能推動數據標準建立嗎?
姚卯青:我覺得可以。現在沒有標準是因為大家都沒有找到快速迭代標準的路徑。標準不是拍腦袋想出來的,一定是在使用中迭代收斂的。過去大家碎片化地滿足自己的數據需求,找一堆供應商,從質量、場景到采集設備五花八門,很難高效沉淀出真正有效的格式和質量標準。通過覓蜂提供大批量快速標準化的服務,我相信大家能和我們一起,通過模型效果的反饋來更快迭代出這套標準。
甲子光年:具身數據這個生態里,現在不同參與方更多是各自為戰,覓蜂怎么推動大家達成數據標準?
姚卯青:標準本身不是為了推而推就能推出來的。我們懂數據,不是簡單的開環盲采。覓蜂有數據閉環的團隊和能力,知道數據要經過怎樣的后處理,也會通過模型評估評測來閉環驗證數據效果。通過這些方法和能力,我們能保證和用戶一起設計、迭代出來的數據是真正能為模型所用的。最終這就是一個事實標準。
4.大力出奇跡
甲子光年:很多機器人廠商覺得數據是核心壁壘,更傾向于自采自用,不共享。但你之前在智元推動開放了100多萬條機器人軌跡數據集和仿真框架。不擔心沖擊自己的數據壁壘嗎?
姚卯青:不太擔心。整個行業太早期了,大家都需要高質量數據來啟動創新研發。沒有這些數據,所有創新都會被扼殺在搖籃里。
另外我們的開源是有設計的,不是盲目開源。我們會篩選典型場景和任務,保證質量有效后再開源。但背后還有更大的不開源部分。開源相當于讓大家試用,感受高質量數據的價值,但真要走到AGI、走到通用模型,需要的數據量還有幾個數量級的差別,這部分可以用閉源方式構建壁壘。
甲子光年:如果大家都不開源、各自為戰,數據量上不去、質量也差,但核心東西各家也不敢放出來。這怎么平衡?
姚卯青:我認為逐步會往閉源方向走。數據很核心,大家花了很大代價構建數據壁壘,會越來越多地像投入算力一樣投入數據。如果有足夠預算,大家不會完全依賴開源數據迭代能力,更可能和覓蜂這樣專業的一站式平臺合作,獲取定制化數據需求。
甲子光年:也就是說具身數據還是會以閉源為主?
姚卯青:對,將來全球總量肯定以閉源為主。
甲子光年:所以即便覓蜂做平臺基礎設施,也是定制化合作會更多?
姚卯青:是的。
甲子光年:之前大家討論比較多的是真機遙操采集,現在包括覓蜂在內,不少團隊都在做無本體采集。數據采集的范式發生變化了嗎?
姚卯青:肯定有很多新的數據需求在涌現,但也不是替代或互斥的關系。面向預訓練、前沿探索,大家需要以人為中心、無本體的數據,研究如何將人的行為遷移到機器人。但面向場景真正落地、形成部署或做demo,大家一定依賴真機數據,因為那是后訓練的范疇,必須用本體數據。不同用戶會產生不同的數據需求。
甲子光年:為什么之前真機采集數據比較多,無本體采集聲浪小一些?
姚卯青:因為真機數據直接拿來就能用,非常確定。有真機數據就可以訓練機器人的策略,直接部署。
直到今天,這也是一個開放式問題:無本體的數據有效性到底如何?怎么遷移到機器人上高效高性能運行?這還在探索中,比較前沿。
甲子光年:這跟機器人的發展階段有關嗎?前面大家在造本體,需要更精確;現在相對成熟,要做更大規模部署,就需要更大量數據,無本體采集能更快、更多地獲取數據?
姚卯青:對,這是其中比較重要的一個方面。大家都在沿用大語言模型的路線,相信大力出奇跡,只要數據夠多。在這種情況下,想盡可能短時間獲取盡可能多數據,無本體是一種scale up的方式。雖然它的數據質量和可用性有一些疑問,但至少容易堆量,哪怕從試錯角度,大家也愿意先嘗試。
(封面圖片來源:智元機器人官網;其他圖片來源:覓蜂科技)
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.