AI已經能夠“看懂圖片”了?真的能看懂嗎?
你給它一張照片,它能描述里面發生了什么;給它一張網頁截圖,它能告訴你哪個按鈕是登錄;給它一張復雜圖表,它甚至能夠幫你分析數據趨勢。
但實際上,在計算機視覺領域,有一個比“看懂圖片”更難的問題。那就是:
找到圖片里的具體目標。
比如你打開一張復雜的街景照片,對AI說:“找到畫面中停在路邊的紅色汽車。”或者:“找到桌子上那個黑色無線耳機。”甚至:“找到網頁右上角的提交按鈕。”對于人類來說,這幾乎是瞬間完成的事情。但對于AI來說,這背后涉及的是一個非常復雜的任務——Visual Grounding(視覺定位)。
![]()
AI看見世界容易,找到目標卻很難
很多人以為目標檢測已經是一個被解決的問題。
畢竟從YOLO到Faster R-CNN,再到Grounding DINO,各種檢測模型已經存在很多年了。
但這里有一個關鍵區別。傳統目標檢測模型能夠識別的對象,往往是提前訓練好的類別。
比如:
- 汽車
- 自行車
如果你問它:“找到圖片里的汽車。”它沒問題。但如果你說:“找到正在喝咖啡的人。”“找到第二排最右邊的座椅。”“找到界面中的保存按鈕。”事情就完全不同了。
這是因為,目前的多模態大模型大多是“語義的巨人,空間的矮子”。它們知道“是什么”(What),卻極度缺乏“在哪里”(Where)的像素級感知能力。
然而,這一僵局被 NVIDIA(英偉達)研究團隊徹底打破。近期,NVIDIA 正式發布了名為LocateAnything的全新視覺-語言定位模型(Vision-Language Grounding Model),不僅在 GitHub 和 Hugging Face 上全面開源,更憑借其獨創的并行邊界框解碼(Parallel Box Decoding, PBD)技術,實現了高達 2.5 倍的推理提速,同時在精度上對現有的開源模型形成了降維打擊
![]()
大模型時代的視覺痛點——為什么 AI 能“看懂”卻“指不出”?
要理解 LocateAnything 的偉大之處,我們首先需要回顧一下計算機視覺(CV)領域關于“目標檢測”(Object Detection)與“視覺定位”(Visual Grounding)的進化史。
1. 從傳統目標檢測到開放詞匯定位
在深度學習的早期,我們使用 YOLO(You Only Look Once)、Faster R-CNN 等經典的卷積神經網絡(CNN)來進行目標檢測。這些模型非常快,畫框也非常準。但它們有一個致命的弱點:封閉集(Closed-set)限制。
也就是說,如果一個 YOLO 模型是用 COCO 數據集訓練的,它就只認識那 80 類物體(如人、車、狗、貓)。如果你讓它找“一個穿著紅色夾克、手里拿著星巴克咖啡的短發女孩”,它就徹底抓瞎了,因為它根本聽不懂復雜的自然語言指令。
為了解決這個問題,學術界引入了視覺定位(Visual Grounding)的概念。它的目標是:輸入一張圖片和一段任意的自然語言描述(開放詞匯),模型需要在圖片中精確框出描述對應的物體。
![]()
2. 多模態大模型(MLLM)的“空間失明癥”
隨著大語言模型(LLM)的爆發,研究人員自然而然地想到:能不能把強大的 LLM 和視覺模型結合起來,直接讓大模型輸出坐標?
于是,以 LLaVA、Qwen-VL 為代表的多模態大模型誕生了。它們的做法通常是把圖像切成一個個小塊(Patch),通過視覺編碼器(Vision Encoder)轉換成一堆“視覺詞元”(Visual Tokens),然后和文本詞元一起送進大語言模型里。
這種架構雖然實現了“視覺-語言”的統一,但卻引發了嚴重的“空間失明癥”。原因有二:
- 全局特征優先,局部細節丟失:大模型在提取特征時,更關注全局的語義(“圖里有一群人”),而忽略了細粒度的空間細節。尤其是為了節省顯存,很多模型會把高分辨率的圖像強行壓縮(比如 224x224),導致小物體和文字直接糊成一團。
- 自回歸生成的致命缺陷:這是最核心的問題。大語言模型天生是用來做“下一個詞預測”(Next-Token Prediction, NTP)的。當它需要輸出一個物體的邊界框(通常包含四個坐標值:左上角 X1, Y1,右下角 X2, Y2)時,它只能像擠牙膏一樣,一個數字一個數字地往外蹦。
想象一下,讓你蒙著眼睛,把一個正方形的四個頂點的坐標一個一個念出來。如果你第一個坐標 X1 猜錯了,后面的 Y1, X2, Y2 無論怎么編,這個框都已經毀了。這種將連續的幾何空間強行打碎成離散文本 token 的做法,不僅破壞了邊界框的內部幾何連貫性,還導致推理速度奇慢無比。
而 LocateAnything 的出現,正是為了徹底終結這種低效且反直覺的架構。
![]()
LocateAnything 憑什么打破僵局?
NVIDIA 的研究團隊精準地抓住了當前 VLM(視覺語言模型)的痛點,通過一套漂亮的架構組合拳,實現了速度與精度的雙重飛躍。其核心架構可以拆解為三大黑科技:
黑科技一:告別“擠牙膏”的并行邊界框解碼(Parallel Box Decoding, PBD)
這是 LocateAnything 論文中最具開創性的一步。
傳統的自回歸模型輸出一個邊界框需要經歷多步解碼:
生成 -> 等待 -> 生成 -> 等待 -> 生成 -> 等待 -> 生成 。
![]()
NVIDIA 團隊認為:邊界框(Bounding Box)或關鍵點(Point)在物理世界中是一個不可分割的“原子單位”(Atomic Unit)。強行把它拆成四個獨立的 token 是毫無道理的。
因此,他們提出了Parallel Box Decoding(PBD)。在 PBD 框架下,模型不再像寫文章一樣逐字預測坐標,而是將整個邊界框作為一個整體單元。在推理時,模型通過一個并行的預測頭(Head),在一個時間步(Single Step)內,同時輸出 (x1, y1, x2, y2) 這四個坐標值!
![]()
這樣做帶來了兩個極其顯著的好處:
- 幾何連貫性(Geometric Coherence):因為四個坐標是同時計算出來的,它們共享了相同的上下文特征,這就避免了自回歸過程中前一個錯誤坐標誤導后一個坐標的連鎖反應。模型畫出的框更加緊湊、精確。
- 吞吐量狂飆(Massive Parallelism):省去了繁瑣的多步自回歸等待時間。NVIDIA 的實驗表明,在批量處理大規模目標檢測任務時,PBD 讓模型的解碼吞吐量提升了驚人的2.5 倍
![]()
想要找得準,眼睛必須尖。如果視覺編碼器在第一步就把圖片糊化了,后面解碼器再怎么厲害也是巧婦難為無米之炊。
LocateAnything-3B 的底層架構選擇非常講究:
- 視覺編碼器(Vision Encoder):采用了強大的Moon-ViT。不同于傳統 ViT 粗暴的全局縮放,Moon-ViT 能夠極好地處理原生高分辨率圖像,提取視覺 token 時能夠保留極其細粒度的空間細節。這對于識別密集的物體、微小的 UI 按鈕以及文檔中的小字至關重要。
- 語言解碼器(Language Decoder):選擇了目前開源界公認的頂級小鋼炮Qwen2.5。Qwen2.5 極強的指令遵循能力和強大的邏輯推理底子,保證了模型能夠完美理解用戶極其復雜的自然語言定位指令。
- 橋接網絡(MLP Projector):通過多層感知機將高精度的視覺 token 無損映射到語言模型的語義空間中,直接轉化為與邊界框對齊的區塊級預測。
![]()
黑科技三:剛柔并濟的混合解碼策略(Hybrid Decoding Policy)
追求極致并行速度往往伴隨著風險:如果遇到極其模糊或歧義極大的極其困難樣本,并行解碼如果一步算錯,可能連挽救的機會都沒有。
為了保證模型在現實復雜環境中的魯棒性,NVIDIA 極其聰明地設計了混合解碼策略(Hybrid Decoding Policy)。
在運行 PBD 并行解碼時,模型會自動評估當前輸出的“置信度”。如果發現某個并行模塊給出的邊界框極不可靠(比如預測出了不合邏輯的框大小),模型會自動觸發“回退機制”,僅僅針對這個有問題的局部模塊,臨時切換回傳統的自回歸(NTP)重新解碼。
這就好比開跑車:在絕大部分平坦的高速公路上(常規圖像),開啟自動駕駛全速狂飆(PBD);一旦遇到極其險峻的非鋪裝路面(高難度局部遮擋),立刻無縫切換為人工掛低擋精細操作(局部 NTP 回退)。這種策略使得 LocateAnything 在享受 PBD 帶來的絕大部分速度紅利的同時,大幅降低了最壞情況下的定位失敗率。
![]()
7.85億個邊界框喂出的“像素級”直覺
在深度學習領域,模型架構決定了上限,而數據決定了模型究竟能達到多高。NVIDIA 這一次不僅在算法上創新,在數據規模上更是展現了“算力霸主”的鈔能力。
根據官方透露的信息和相關分析,LocateAnything 的訓練數據規模達到了令人咋舌的地步:
- 1200 萬張高分辨率圖像
- 1.38 億條自然語言查詢指令
- 7.85 億個精準標注的邊界框
這是迄今為止學術界和工業界所見過的規模最大、跨度最廣的聚焦于視覺定位的數據語料庫之一。
![]()
更為關鍵的是數據的多樣性(Diversity)。傳統的目標檢測模型往往只在自然風景、街景或室內照片上訓練。但 LocateAnything 的訓練集橫跨了多個截然不同的領域:
- 自然圖像:包含長尾分布的罕見物體、極度密集的場景(比如一堆雜亂的木頭、遠處的密集人群)。
- 應用程序截圖(App UIs)與網頁:這是最具顛覆性的一點。模型學習了海量的手機屏幕和電腦網頁截圖,理解了什么是“下拉菜單”、什么是“復選框”、什么是“導航欄”。
- 文檔與票據(Documents):掃描的 PDF、收據、發票、技術圖紙。模型被訓練去定位特定的表格單元格、印章、或者極其微小的排版元素。
正是這種史詩級規模的跨域數據“狂轟濫炸”,賦予了 LocateAnything 遠超以往系統的空間推理直覺。它不僅知道一只貓長什么樣,更知道在 Windows 系統里,那個最小化窗口的橫線圖標究竟在哪里。
![]()
降維打擊的實測表現——專治各種“密集恐懼癥”
在學術評測中,LocateAnything 展現出了統治級的表現。特別是在與同級別尺寸(如 3B 參數量級)的頂尖開源模型(如 Qwen3-VL 和 Rex-Omni)的對比中,LocateAnything 贏得毫無懸念。
![]()
這里必須引入一個關鍵指標:IoU(Intersection over Union,交并比)。
簡而言之,IoU 就是模型畫的框和真實的人工標注框的重合程度。很多傳統的 MLLM 在低 IoU(比如 0.5,只要框住物體一半就算對)時表現尚可,但一旦要求高精度(IoU 達到 0.75 甚至 0.95,要求像素級貼合),性能就會斷崖式下跌。
而這正是 LocateAnything 的絕對統治區:
- 在 LVIS(大規模詞匯實例分割與檢測)數據集上,在相同模型尺寸下,LocateAnything 相比 Rex-Omni 在平均 F1 分數上提升了+3.8%;在 COCO 數據集上提升了
- 高精度碾壓:當 IoU 閾值設定為極其苛刻的 0.95 時,LocateAnything 的得分是驚人的31.1,而競品 Rex-Omni 僅有 20.7。這是質的飛躍!
在 NVIDIA 展示的 Demo 中,我們看到了讓人直呼內行的“密集目標檢測”能力。
![]()
比如,給模型一張一棟摩天大樓的遠景圖,讓它“識別建筑物中的每一扇窗戶”。傳統的 VLM 往往只能圈出幾個大區塊,而 LocateAnything 則密密麻麻、極其精準地為幾百扇窗戶畫上了毫無重疊的完美邊界框。再比如給它一張伐木場的照片,讓它“單獨識別出每一根木頭”,它依然能像擁有強迫癥一般,把每一根木頭精準摳出。
這種在極度密集、遮擋嚴重場景下的高精定位能力,宣告了 VLM 終于跨過了走向工業級實用的那道門檻。
重塑三大萬億級賽道——LocateAnything 的落地場景
如果僅僅是一個跑分機器,LocateAnything 還不值得我花這么多筆墨。它真正的價值,在于它為目前炙手可熱的幾大 AI 賽道補齊了最關鍵的一塊拼圖。
場景一:讓具身智能(Embodied AI)與機器人真正“開眼”
NVIDIA 一直在布局物理世界的 AI(如 Project GR00T 和 Isaac 平臺)。對于一個在工廠里干活的機械臂,或者一個在家里幫你做家務的人形機器人來說,光知道“桌子上有一個蘋果”是毫無意義的。機械臂需要精確的 3D/2D 空間坐標(XYZ)才能規劃抓取軌跡。
![]()
LocateAnything 極高的推理速度和像素級的高 IoU 精度,使得它可以作為機器人的“視覺皮層”,在幾毫秒內將用戶的自然語言指令(“把那個藍色的帶把手的馬克杯遞給我”)轉化為精準的物理空間坐標,讓機器人真正實現“指哪打哪”。
場景二:電腦操控與 GUI 智能體(Computer Use Agents)的終極武器
如果你關注 AI 圈,應該知道 Anthropic 前不久發布了震撼的 "Computer Use"(電腦操控)功能,讓 AI 代替你操作鼠標和鍵盤。然而,目前的 GUI 智能體大多依賴底層的無障礙接口(Accessibility Tree)或 HTML DOM 樹來獲取元素位置。一旦遇到那些沒有標準代碼標簽的自定義圖標、Flash 頁面、或者遠程桌面(如 RDP、VNC 只有純圖像流),AI 就會瞬間變瞎。
![]()
LocateAnything 因為在海量屏幕截圖中訓練過,它不需要讀懂代碼,直接“看”圖就能定位。你可以直接命令它:“點擊畫面右上角那個像齒輪一樣的設置圖標”,它就能立刻返回該圖標精確的 X、Y 像素坐標,隨后由鼠標執行點擊。這為全平臺、跨軟件的終極自動化 RPA(機器人流程自動化)鋪平了道路。
場景三:下一代文檔分析與高精度 OCR 提取
在金融、法律、醫療等行業,每天都有大量的掃描版 PDF 和紙質單據需要處理。傳統的 OCR(光學字符識別)只能把字提取出來,卻常常搞亂排版順序。
LocateAnything 能夠深刻理解復雜的文檔版面(Document Layout Analysis)。你可以讓它:“精準定位表格中的第三行第二列的數據”,或者“找到文檔右下角手寫簽名的區域”。它不僅能找到字,更能理解信息在空間版面上的結構關系,大幅提升企業級情報提取的效率。
![]()
開源生態與快速部署指南
最讓人興奮的是,NVIDIA 并沒有把這項技術藏在實驗室里。他們已經將LocateAnything-3B模型開源并托管在了 Hugging Face(nvidia/LocateAnything-3B)上。
對于開發者來說,它的部署極其友好,門檻極低:
- 極度輕量:這是一個 3B(30 億參數)級別的模型,這意味著即使是你手頭的 M1/M2/M3 MacBook Pro,或者普通的單張消費級顯卡(如 RTX 3060/4060),也能輕松在本地跑起來。
- 生態兼容:它完美支持目前主流的推理框架,包括 Transformers、SGLang 以及大火的vLLM
- 一行代碼啟動:如果你使用 Docker 和 vLLM,只需要一行簡單的命令:
- Bash
- vllm serve "nvidia/LocateAnything-3B"
- 隨后,你就可以通過兼容 OpenAI 的 API 接口,向模型發送圖片和指令了。
官方也貼心地提供了標準化的 Prompt 模板(提示詞模板)來觸發不同的任務。比如:
- 目標檢測:Locate all the instances that matches the following description: [CATEGORIES]. (定位所有符合以下描述的實例:[類別])
- GUI 定位:Locate the region that matches the following description: [PHRASE]. (定位符合以下描述的區域:[短語])
- 場景文字檢測:Detect all the text in box format. (以邊界框格式檢測所有文本)
![]()
值得一提的是,LocateAnything 技術實際上已經被整合進了 NVIDIA 更龐大的企業級商業堆棧中(屬于 EAGLE VLM 家族),并成為了 Nemotron 3 Nano Omni 等生產級多模態模型的基礎設施。這意味著開源版本已經具備了極高的工業級成熟度。
結語:給 AI 裝上“八倍鏡”,邁向真正的 AGI
過去兩年,我們見證了 AI 從“能聽會說”到“能看懂畫”的飛躍。但在我看來,能夠高精度的“定位”與“錨定”(Grounding),才是連接數字大腦與物理世界的最重要的一座橋梁。
NVIDIA LocateAnything 的出現,不僅僅是一個新的 SOTA(State-of-the-Art)刷榜模型,它通過獨創的并行邊界框解碼(PBD)技術,從根本上糾正了多模態大模型在處理空間幾何信息時的低效路徑。它給那些只會泛泛而談的 AI 裝上了一把“八倍鏡”,讓它們擁有了像素級的凝視能力。
![]()
隨著 LocateAnything 在開源社區的普及,我們有理由相信,在接下來的幾個月里,我們將看到越來越多真正智能的電腦自動化助手、不再“抓瞎”的家用機器人,以及能夠秒速解析復雜圖紙的行業級 AI 應用如雨后春筍般涌現。
不要再只問你的 AI“這是什么”了,是時候問它“在哪”,并讓它真正為你干活了!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.