網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

MIT團(tuán)隊(duì)實(shí)現(xiàn)“穿墻透視”，用的是你手機(jī)里就有的傳感器

2026-05-22 19:19:32　來源: DeepTech深科技

北京舉報(bào)

分享至

2012 年，MIT 的 Ramesh Raskar 團(tuán)隊(duì)在 Nature Communications 上首次演示了用超快飛行時(shí)間成像技術(shù)重建拐角后方物體的三維形狀。那套系統(tǒng)需要飛秒激光器和精密光學(xué)平臺(tái)，整套設(shè)備造價(jià)在 50 萬到 100 萬美元之間，占滿一整間實(shí)驗(yàn)室。

十四年后，Raskar 實(shí)驗(yàn)室的博士生 Siddharth Somasundaram 用一顆批量售價(jià) 3.6 美元的意法半導(dǎo)體傳感器，做到了類似的事情。

這項(xiàng)成果 5 月 20 日發(fā)表在 Nature 上。Somasundaram 團(tuán)隊(duì)使用的是一種便攜式智能手機(jī)級(jí)激光雷達(dá)系統(tǒng)，核心是意法半導(dǎo)體的 VL53L8CX 芯片，一顆只有 6.4 毫米見方的飛行時(shí)間傳感器，內(nèi)置 940 納米垂直腔面發(fā)射激光器和單光子雪崩二極管（SPAD）探測(cè)器陣列，能以每秒 30 幀的速度捕獲深度數(shù)據(jù)。整套硬件成本不到 100 美元，不需要任何額外校準(zhǔn)，卻能探測(cè)到拐角后方被遮擋的物體。

圖丨消費(fèi)級(jí)非視距成像（來源：Nature）

這種聽起來近乎科幻的效果背后的原理其實(shí)并不神秘。核心就是激光雷達(dá)發(fā)射激光脈沖，光打到墻面后反射，一部分光繼續(xù)彈射到墻后隱藏的物體上，再反射回墻面，最終被傳感器接收。通過分析這些經(jīng)過多次反彈的極微弱光信號(hào)的飛行時(shí)間，就能推算出隱藏物體的位置和形狀。而墻面在這個(gè)過程中充當(dāng)了一面“虛擬鏡子”。

這個(gè)方向在學(xué)術(shù)界已經(jīng)發(fā)展了十多年，被稱為非視距成像（Non-Line-of-Sight Imaging，NLOS）。2018 年 O＇Toole 等人在 Nature 上提出的光錐變換（Light-Cone Transform）方法讓重建算法效率提升了三個(gè)數(shù)量級(jí)，但硬件門檻始終沒有降下來。

實(shí)驗(yàn)室級(jí)系統(tǒng)使用的單光子探測(cè)器靈敏度極高、時(shí)間分辨率達(dá)到皮秒級(jí)別，能從微弱的多次反射信號(hào)中提取足夠的信息完成重建。消費(fèi)級(jí)傳感器做不到這一點(diǎn)：激光功率受限于人眼安全標(biāo)準(zhǔn)，曝光時(shí)間因?yàn)橐幚韯?dòng)態(tài)場(chǎng)景而很短，空間分辨率也很低。單幀數(shù)據(jù)里的信噪比根本不夠用。

Somasundaram 的思路是放棄從單幀中提取信息，轉(zhuǎn)而融合大量幀的數(shù)據(jù)。他提出了一個(gè)叫“運(yùn)動(dòng)誘導(dǎo)孔徑采樣”（Motion-Induced Aperture Sampling，MAS）的模型，把物體形狀、物體運(yùn)動(dòng)和相機(jī)運(yùn)動(dòng)三個(gè)因素統(tǒng)一到同一個(gè)測(cè)量框架里。

其靈感來自兩個(gè)成熟技術(shù)：智能手機(jī)相機(jī)的連拍模式通過合并多張照片來提升畫質(zhì)，合成孔徑雷達(dá)通過綜合多個(gè)天線位置的信號(hào)來獲得等效于大型天線的分辨率。MAS 模型做的是類似的事情，利用相機(jī)的自然手持晃動(dòng)來擴(kuò)大虛擬孔徑，同時(shí)利用多幀之間的冗余信息來提高信噪比。

圖丨運(yùn)動(dòng)誘導(dǎo)孔徑采樣模型（來源：Nature）

“一旦我們開發(fā)出能夠跨多次測(cè)量合并信息的算法，隱藏的信號(hào)就開始清晰地浮現(xiàn)出來了。”Somasundaram 對(duì)媒體表示。

團(tuán)隊(duì)在論文中演示了三項(xiàng)能力。第一項(xiàng)是三維重建：讓相機(jī)在墻面前自然移動(dòng)，系統(tǒng)能重建出墻后靜止物體的三維形狀。

第二項(xiàng)是物體追蹤：已知物體的大致形狀后，系統(tǒng)能實(shí)時(shí)追蹤它在三維空間中的運(yùn)動(dòng)軌跡，甚至能同時(shí)追蹤多個(gè)物體。團(tuán)隊(duì)還演示了一個(gè)手部追蹤的應(yīng)用，用戶戴上回射手套后，系統(tǒng)可以追蹤被遮擋的雙手位置。

第三項(xiàng)能力是用隱藏物體作為路標(biāo)來定位相機(jī)自身的位置。當(dāng)機(jī)器人面對(duì)一面白墻這樣缺乏紋理特征的環(huán)境時(shí)，傳統(tǒng)的視覺里程計(jì)會(huì)失效，但如果墻后面有已知物體，NLOS 信號(hào)反而能幫助機(jī)器人確定自己在哪里。

這三項(xiàng)能力都實(shí)現(xiàn)了實(shí)時(shí)在線處理。追蹤任務(wù)使用了粒子濾波算法，用 1,000 個(gè)粒子來表示物體位置的概率分布，每一幀根據(jù)運(yùn)動(dòng)先驗(yàn)傳播粒子、根據(jù)實(shí)測(cè)數(shù)據(jù)評(píng)估權(quán)重、然后重采樣，整個(gè)過程在 30Hz 幀率下運(yùn)行。

但現(xiàn)在的效果還遠(yuǎn)遠(yuǎn)達(dá)不到科幻電影里的透視畫面。Somasundaram 自己也提醒，系統(tǒng)恢復(fù)的是極弱信號(hào)中的稀疏幾何和運(yùn)動(dòng)信息，和手機(jī)上幾百萬像素的清晰圖像之間還有巨大差距。

系統(tǒng)目前依賴一些較強(qiáng)的假設(shè)：物體的形狀和運(yùn)動(dòng)在幀與幀之間保持相對(duì)一致，這樣才能把許多極弱的測(cè)量累積成較強(qiáng)的信號(hào)。如果人突然改變姿態(tài)，或者物體被部分遮擋導(dǎo)致形狀突變，或者相機(jī)發(fā)生劇烈抖動(dòng)，這些假設(shè)就會(huì)失效。

論文也指出，面對(duì)復(fù)雜的真實(shí)世界反射特性，手工設(shè)計(jì)的評(píng)分函數(shù)很難穩(wěn)健地工作，未來可能需要機(jī)器學(xué)習(xí)來學(xué)習(xí)更好的匹配策略。

對(duì)漫反射物體的效果也明顯不如回射材料。論文中雖然證明了 MAS 模型在漫反射條件下仍然可用，但信號(hào)質(zhì)量因?yàn)楣鈴?qiáng)的四次方衰減和非共焦路徑的干擾而顯著下降。

真正讓這篇論文上了 Nature 的，可能不是某一項(xiàng)具體能力有多強(qiáng)，而是它所指向的范式轉(zhuǎn)換。過去做 NLOS 成像研究，光是搭建實(shí)驗(yàn)平臺(tái)就需要數(shù)萬美元和數(shù)小時(shí)的校準(zhǔn)。Somasundaram 團(tuán)隊(duì)證明，一顆量產(chǎn)的現(xiàn)成 SPAD 傳感器就能完成追蹤和定位任務(wù)，不需要任何物理校準(zhǔn)或額外硬件。團(tuán)隊(duì)已經(jīng)在 GitHub 上公開了全部代碼。

“我們認(rèn)為最重要的意義在于技術(shù)的民主化，”Somasundaram 說。“當(dāng)這樣的技術(shù)變得人人可及時(shí)，人們往往會(huì)發(fā)現(xiàn)遠(yuǎn)超原始研究者想象的應(yīng)用。”

自動(dòng)駕駛汽車在盲區(qū)路口提前感知行人和車輛，倉庫機(jī)器人在雜亂環(huán)境中避開拐角后的障礙物，AR 頭顯更準(zhǔn)確地追蹤用戶的身體姿態(tài)，這些都是論文中列舉的潛在方向。但就像 Somasundaram 所說，真正的應(yīng)用可能來自他們沒有想到的地方。

參考資料：

1.https://www.nature.com/articles/s41586-026-10502-x

2.https://spectrum.ieee.org/smartphone-grade-lidar

運(yùn)營(yíng)/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.