![]()
2012 年,MIT 的 Ramesh Raskar 團(tuán)隊(duì)在 Nature Communications 上首次演示了用超快飛行時(shí)間成像技術(shù)重建拐角后方物體的三維形狀。那套系統(tǒng)需要飛秒激光器和精密光學(xué)平臺(tái),整套設(shè)備造價(jià)在 50 萬到 100 萬美元之間,占滿一整間實(shí)驗(yàn)室。
十四年后,Raskar 實(shí)驗(yàn)室的博士生 Siddharth Somasundaram 用一顆批量售價(jià) 3.6 美元的意法半導(dǎo)體傳感器,做到了類似的事情。
這項(xiàng)成果 5 月 20 日發(fā)表在 Nature 上。Somasundaram 團(tuán)隊(duì)使用的是一種便攜式智能手機(jī)級(jí)激光雷達(dá)系統(tǒng),核心是意法半導(dǎo)體的 VL53L8CX 芯片,一顆只有 6.4 毫米見方的飛行時(shí)間傳感器,內(nèi)置 940 納米垂直腔面發(fā)射激光器和單光子雪崩二極管(SPAD)探測(cè)器陣列,能以每秒 30 幀的速度捕獲深度數(shù)據(jù)。整套硬件成本不到 100 美元,不需要任何額外校準(zhǔn),卻能探測(cè)到拐角后方被遮擋的物體。
![]()
圖丨消費(fèi)級(jí)非視距成像(來源:Nature)
這種聽起來近乎科幻的效果背后的原理其實(shí)并不神秘。核心就是激光雷達(dá)發(fā)射激光脈沖,光打到墻面后反射,一部分光繼續(xù)彈射到墻后隱藏的物體上,再反射回墻面,最終被傳感器接收。通過分析這些經(jīng)過多次反彈的極微弱光信號(hào)的飛行時(shí)間,就能推算出隱藏物體的位置和形狀。而墻面在這個(gè)過程中充當(dāng)了一面“虛擬鏡子”。
這個(gè)方向在學(xué)術(shù)界已經(jīng)發(fā)展了十多年,被稱為非視距成像(Non-Line-of-Sight Imaging,NLOS)。2018 年 O'Toole 等人在 Nature 上提出的光錐變換(Light-Cone Transform)方法讓重建算法效率提升了三個(gè)數(shù)量級(jí),但硬件門檻始終沒有降下來。
實(shí)驗(yàn)室級(jí)系統(tǒng)使用的單光子探測(cè)器靈敏度極高、時(shí)間分辨率達(dá)到皮秒級(jí)別,能從微弱的多次反射信號(hào)中提取足夠的信息完成重建。消費(fèi)級(jí)傳感器做不到這一點(diǎn):激光功率受限于人眼安全標(biāo)準(zhǔn),曝光時(shí)間因?yàn)橐幚韯?dòng)態(tài)場(chǎng)景而很短,空間分辨率也很低。單幀數(shù)據(jù)里的信噪比根本不夠用。
Somasundaram 的思路是放棄從單幀中提取信息,轉(zhuǎn)而融合大量幀的數(shù)據(jù)。他提出了一個(gè)叫“運(yùn)動(dòng)誘導(dǎo)孔徑采樣”(Motion-Induced Aperture Sampling,MAS)的模型,把物體形狀、物體運(yùn)動(dòng)和相機(jī)運(yùn)動(dòng)三個(gè)因素統(tǒng)一到同一個(gè)測(cè)量框架里。
其靈感來自兩個(gè)成熟技術(shù):智能手機(jī)相機(jī)的連拍模式通過合并多張照片來提升畫質(zhì),合成孔徑雷達(dá)通過綜合多個(gè)天線位置的信號(hào)來獲得等效于大型天線的分辨率。MAS 模型做的是類似的事情,利用相機(jī)的自然手持晃動(dòng)來擴(kuò)大虛擬孔徑,同時(shí)利用多幀之間的冗余信息來提高信噪比。
![]()
圖丨運(yùn)動(dòng)誘導(dǎo)孔徑采樣模型(來源:Nature)
“一旦我們開發(fā)出能夠跨多次測(cè)量合并信息的算法,隱藏的信號(hào)就開始清晰地浮現(xiàn)出來了。”Somasundaram 對(duì)媒體表示。
團(tuán)隊(duì)在論文中演示了三項(xiàng)能力。第一項(xiàng)是三維重建:讓相機(jī)在墻面前自然移動(dòng),系統(tǒng)能重建出墻后靜止物體的三維形狀。
第二項(xiàng)是物體追蹤:已知物體的大致形狀后,系統(tǒng)能實(shí)時(shí)追蹤它在三維空間中的運(yùn)動(dòng)軌跡,甚至能同時(shí)追蹤多個(gè)物體。團(tuán)隊(duì)還演示了一個(gè)手部追蹤的應(yīng)用,用戶戴上回射手套后,系統(tǒng)可以追蹤被遮擋的雙手位置。
第三項(xiàng)能力是用隱藏物體作為路標(biāo)來定位相機(jī)自身的位置。當(dāng)機(jī)器人面對(duì)一面白墻這樣缺乏紋理特征的環(huán)境時(shí),傳統(tǒng)的視覺里程計(jì)會(huì)失效,但如果墻后面有已知物體,NLOS 信號(hào)反而能幫助機(jī)器人確定自己在哪里。
這三項(xiàng)能力都實(shí)現(xiàn)了實(shí)時(shí)在線處理。追蹤任務(wù)使用了粒子濾波算法,用 1,000 個(gè)粒子來表示物體位置的概率分布,每一幀根據(jù)運(yùn)動(dòng)先驗(yàn)傳播粒子、根據(jù)實(shí)測(cè)數(shù)據(jù)評(píng)估權(quán)重、然后重采樣,整個(gè)過程在 30Hz 幀率下運(yùn)行。
但現(xiàn)在的效果還遠(yuǎn)遠(yuǎn)達(dá)不到科幻電影里的透視畫面。Somasundaram 自己也提醒,系統(tǒng)恢復(fù)的是極弱信號(hào)中的稀疏幾何和運(yùn)動(dòng)信息,和手機(jī)上幾百萬像素的清晰圖像之間還有巨大差距。
系統(tǒng)目前依賴一些較強(qiáng)的假設(shè):物體的形狀和運(yùn)動(dòng)在幀與幀之間保持相對(duì)一致,這樣才能把許多極弱的測(cè)量累積成較強(qiáng)的信號(hào)。如果人突然改變姿態(tài),或者物體被部分遮擋導(dǎo)致形狀突變,或者相機(jī)發(fā)生劇烈抖動(dòng),這些假設(shè)就會(huì)失效。
論文也指出,面對(duì)復(fù)雜的真實(shí)世界反射特性,手工設(shè)計(jì)的評(píng)分函數(shù)很難穩(wěn)健地工作,未來可能需要機(jī)器學(xué)習(xí)來學(xué)習(xí)更好的匹配策略。
對(duì)漫反射物體的效果也明顯不如回射材料。論文中雖然證明了 MAS 模型在漫反射條件下仍然可用,但信號(hào)質(zhì)量因?yàn)楣鈴?qiáng)的四次方衰減和非共焦路徑的干擾而顯著下降。
真正讓這篇論文上了 Nature 的,可能不是某一項(xiàng)具體能力有多強(qiáng),而是它所指向的范式轉(zhuǎn)換。過去做 NLOS 成像研究,光是搭建實(shí)驗(yàn)平臺(tái)就需要數(shù)萬美元和數(shù)小時(shí)的校準(zhǔn)。Somasundaram 團(tuán)隊(duì)證明,一顆量產(chǎn)的現(xiàn)成 SPAD 傳感器就能完成追蹤和定位任務(wù),不需要任何物理校準(zhǔn)或額外硬件。團(tuán)隊(duì)已經(jīng)在 GitHub 上公開了全部代碼。
“我們認(rèn)為最重要的意義在于技術(shù)的民主化,”Somasundaram 說。“當(dāng)這樣的技術(shù)變得人人可及時(shí),人們往往會(huì)發(fā)現(xiàn)遠(yuǎn)超原始研究者想象的應(yīng)用。”
自動(dòng)駕駛汽車在盲區(qū)路口提前感知行人和車輛,倉庫機(jī)器人在雜亂環(huán)境中避開拐角后的障礙物,AR 頭顯更準(zhǔn)確地追蹤用戶的身體姿態(tài),這些都是論文中列舉的潛在方向。但就像 Somasundaram 所說,真正的應(yīng)用可能來自他們沒有想到的地方。
參考資料:
1.https://www.nature.com/articles/s41586-026-10502-x
2.https://spectrum.ieee.org/smartphone-grade-lidar
運(yùn)營(yíng)/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.