![]()
模型正從影像識別走向高效適配、臨床語義理解與跨模態推理。
作者丨鄭佳美
編輯丨馬曉寧
醫學 AI 過去很長一段時間都在回答一個問題:模型能不能看得比人更準?
于是,大量研究圍繞病灶識別、器官分割、影像分類和報告生成展開,目標是在標準數據集上取得更高指標。但現在,這個問題已經不夠了。
真實的醫學與生物科研場景并不是一個干凈、統一、標注充分的 benchmark,而是由不同設備、不同協議、不同數據質量、不同任務目標和不同專業知識共同組成的復雜系統。
因此,新的研究重點開始發生轉移。一個模型是否有價值,不再只取決于它在某個數據集上的分數,而取決于它能否在新實驗室的數據上快速適配,能否用更少標注學到有效推理,能否把 CT、超聲、病理、報告、空間轉錄組、運動傳感器、腦活動和多視角 X-ray 等異質信息連接起來。
也就是說,醫學與生物視覺正在從“會看圖”走向“會理解任務”,從“模型本身更大”走向“系統整體更有用”。
CVPR 2026 相關論文中也能看到這種趨勢:一方面,AI agent、數據篩選和輕量化適配方法正在減少人工調參、數據標注和模型微調成本;
另一方面,三維 CT 基礎模型、超聲圖文預訓練、空間轉錄組預測、IMU-視頻對齊、fMRI 視頻重建和雙視角 X-ray 推理等工作,則不斷擴展醫學視覺模型能夠處理的信息邊界。
這些研究共同指向一個方向:醫學 AI 的下一步,不只是訓練更大的模型,而是讓模型真正進入真實科研與臨床流程。
![]()
01
少數據、少微調、少人工
來自加州理工學院、康奈爾大學、德克薩斯大學奧斯汀分校和倫斯勒理工學院的研究團隊在《Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization》中,關注的是如何用簡單的 AI agent 自動優化生物醫學圖像分析工作流。
研究的重點不是重新訓練一個新模型,而是讓 agent 為已有的成熟工具自動編寫圖像預處理和后處理代碼,從而解決不同實驗室、不同成像設備、不同數據分布下工具效果下降的問題。
論文在 Polaris、Cellpose 和 MedSAM 這 3 個真實生物醫學圖像分析流程上進行了實驗,覆蓋單分子點檢測、細胞實例分割和醫學圖像分割等不同尺度任務,結果發現簡單的基礎 agent 就能超過專家手寫的官方優化方案,尤其在 MedSAM 任務上提升非常明顯。
![]()
論文地址:https://arxiv.org/pdf/2512.06006v1
研究的亮點在于,它證明了在這種工程性很強、數據量有限、目標明確的科研工作流優化場景中,簡單、透明、低成本的 agent 往往已經足夠有效,復雜的 agent 架構、專家函數庫或 AutoML 并不一定穩定帶來收益,甚至可能因為任務差異、搜索空間偏置或小驗證集過擬合而降低效果;
同時,論文還分析了不同任務中 API 空間和參數空間的差異,解釋了為什么同一種 agent 設計在不同工具上表現不同。雷峰網
整體來看,這項工作把 LLM agent 從泛泛的自動化概念落到了真實科研工具適配中,說明 agent 可以幫助科研人員減少大量手工調參和代碼適配工作,并有潛力成為生物醫學圖像分析工具落地應用中的實用輔助系統。
![]()
在工具工作流的自動適配之外,《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把問題轉向醫學推理模型的訓練數據選擇。
來自華東師范大學、穆罕默德·本·扎耶德人工智能大學、蒙納士大學和上海人工智能實驗室的研究團隊提出 DIQ,即 Difficulty-Influence Quadrant,希望用極少量微調數據提升醫學推理模型的效率。
研究指出,醫學 VLM / LLM 的監督微調通常依賴大量帶推理鏈的數據,但其中存在許多重復、低質量或優化價值不高的樣本,直接擴大數據規模會帶來較高計算成本,也不一定提升復雜臨床推理能力。
論文認為,單純按“難度”選數據容易選到噪聲大、過難且難以優化的樣本,單純按“梯度影響”選數據又容易偏向淺層、好學但推理不深的樣本,因此 DIQ 同時計算每個樣本的醫學推理難度和訓練影響力,把樣本劃分到不同象限,并優先選擇“高難度、高影響力”的數據,讓模型在很小數據量下也能學到有價值的臨床推理模式。
實驗顯示,在 Huatuo 和 FineMed 等醫學推理數據上,DIQ 只用 1% 選中數據就能接近甚至超過全量微調效果,用 10% 數據時整體優于隨機選擇、困惑度選擇、相似度選擇和 LESS 等基線;同時在人類和 LLM-as-a-judge 評估中,DIQ 選出的數據在鑒別診斷、安全檢查和證據引用等方面更符合專家臨床推理習慣。
![]()
論文地址:https://arxiv.org/pdf/2508.01450v3
它的亮點在于,不是繼續堆更多醫學推理數據,而是從“樣本是否有推理價值”和“樣本是否真正推動模型優化”兩個角度做精細篩選,說明高質量數據選擇比粗暴擴大數據規模更有效;
同時,DIQ 的影響力計算基于一階梯度點積,避免傳統影響函數的高成本,難度分數又通過醫學 BiomedBERT 分類器估計,因此整體方法相對輕量、可復用。雷峰網
整體來看,這項工作為醫學推理模型提供了一種更省數據、更省計算的微調方案,尤其適合醫學數據昂貴、標注困難、但又需要模型具備可靠臨床推理能力的場景。
![]()
進一步來看,《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》關注的不是訓練數據篩選,而是視覺語言模型在特定領域中的輕量化適配。
亞馬遜云科技和加州大學洛杉磯分校的研究團隊提出 CRAFT,全稱是 Codebook Regulated Fine-Tuning,主要研究如何在不改動大語言模型部分的情況下,讓大型視覺語言模型更好適應醫學圖像、細粒度分類、植物病害識別等特定視覺領域。
論文指出,現有方法通常會微調視覺編碼器、投影層或 LLM,但這樣容易造成視覺特征空間變化,需要重新對齊語言模型,甚至會讓模型在短答案數據上過擬合,損害原本的指令遵循和解釋能力;
CRAFT 的核心思路是只微調離散視覺編碼器,并把視覺特征錨定到一個固定的離散 codebook 中,讓視覺編碼器學會選擇和排列已有的“視覺詞匯”,從而向凍結的語言模型傳遞更適合目標領域的視覺信息。
訓練時,方法結合 surrogate LLM 的對齊損失、commitment loss 和對比學習損失,保證離散 token 既貼近圖像內容,又能被語言模型理解;推理時還加入基于 token 稀有度的剪枝機制,去掉大量背景或重復 token,讓模型更關注關鍵視覺區域。
實驗覆蓋 IconQA、OCRVQA、ScienceQA、VQA-RAD、EuroSAT、Flowers、Kvasir、PlantVillage、Cars、Dogs 等 10 個分類和視覺問答基準,結果顯示 CRAFT 相比原始離散模型平均提升 13.51%,在最強設置下平均準確率達到 68.58%,并且在推理解釋能力上比 LoRA、projector fine-tuning 和連續特征微調更穩定。
![]()
論為地址:https://arxiv.org/pdf/2602.19449v1
它的亮點在于把“視覺適配”和“語言推理”解耦:只更新視覺編碼器,不重新訓練或破壞 LLM,卻能讓同一個適配后的編碼器遷移到共享 codebook 的不同語言模型上;
同時,離散 codebook 起到了穩定接口的作用,避免連續特征微調帶來的跨模態錯位。整體來看,這項工作為領域專用 LVLM 適配提供了一種更輕量、更可復用的方法,尤其適合那些視覺分布特殊、但又不希望重新訓練大語言模型的應用場景。
![]()
![]()
02
從三維 CT 到超聲圖文理解
在《Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers》中,荷蘭埃因霍溫理工大學電氣工程系(ARIA 實驗室、AIMS 實驗室)提出了面向三維 CT 的開放式基礎模型 SPECTRE。
它的目標是學習既包含體積影像空間結構、又包含放射科報告臨床語義的通用 CT 表征。論文關注的核心問題是:三維 CT 不同于普通二維圖像,直接使用常規視覺基礎模型會遇到 token 數量過大、體素各向異性、掃描范圍和層厚不一致、醫學報告監督噪聲較強等困難。
![]()
論文地址:https://arxiv.org/pdf/2511.17209v2
為此,作者設計了“局部 ViT + 全局 ViT”的兩級純 Transformer 架構,先在局部三維窗口中提取精細結構特征,再在全局層面整合完整掃描信息;訓練上則結合自監督學習和 CT-文本跨模態對齊,讓模型同時具備幾何理解能力和臨床語義理解能力。
實驗顯示,SPECTRE 在腫瘤生物標志物預測、器官分割和文本到 CT 檢索等任務上整體優于多數基線,尤其在文本檢索影像任務中提升明顯。
論文的亮點在于,它不是簡單把二維視覺模型擴展到三維醫學影像,而是針對體積 CT 的計算結構、空間特性和報告語義進行了系統設計;
同時,它強調使用公開數據訓練并開源模型和代碼,降低了醫學影像基礎模型對私有數據的依賴。整體來看,這項工作為三維 CT 基礎模型提供了一個更可復現、更適合體積醫學影像特點的方案,也說明純 Transformer 架構在經過合適設計后,可以在 CT 表征學習中兼顧空間細節和臨床語義。
![]()
與 SPECTRE 面向三維 CT 的體積建模不同,《Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding》把重點放在超聲這一更依賴臨床經驗、圖像表現更復雜、診斷屬性更細粒度的醫學影像模態上。
來自浙大城市學院、香港浸會大學、浙江大學、浙江大學醫學院附屬婦產科醫院、浙江大學醫學院附屬第一醫院和香港城市大學的研究團隊提出 Ultrasound-CLIP,主要研究如何為超聲圖像構建更適合臨床語義理解的圖文預訓練模型。
現有 CLIP 或醫學 VLP 模型大多偏向 CT、MRI、病理等模態,超聲數據占比很低,而且超聲報告里有很多專門的診斷屬性,比如回聲、邊界、后方聲學現象和血流情況,普通圖文對比學習很難準確處理這些細粒度語義。
為了解決這個問題,論文先構建了大規模超聲圖文數據集 US-365K,包含約 36.4 萬對圖像—文本樣本,覆蓋 52 個解剖類別;
![]()
論為地址:https://arxiv.org/pdf/2604.01749v1
同時提出超聲診斷分類體系 UDT,把解剖層級和 9 類診斷屬性統一起來,再基于這些知識設計 Ultrasound-CLIP,通過語義軟標簽減少“相似病例被當成完全負樣本”的問題,并用異構圖編碼器建模病灶和診斷屬性之間的結構關系。
實驗顯示,該方法在超聲多屬性分類、圖文檢索以及下游零樣本、線性探測和微調任務上都優于通用 CLIP 和多種醫學 CLIP 基線,例如平均分類準確率達到 59.61%,明顯高于最強基線 BiomedCLIP 的 33.81%,圖像到文本檢索的 R@10 也提升到 0.3745。
這項工作的亮點在于,它不是簡單收集超聲數據后套用標準 CLIP,而是把超聲影像特有的解剖層級、診斷屬性和語義相似性顯式放進訓練目標中,使模型更能理解超聲報告里的臨床語言;
同時,數據集、分類體系和模型框架一起提出,也為后續超聲圖文理解、檢索、輔助診斷和跨數據集泛化提供了比較系統的基礎資源。
![]()
![]()
03
從病理、運動到 X-ray 雙視角
《HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction》來自廈門大學、上海人工智能實驗室、清華大學和鵬城實驗室的合作研究,關注的是如何從病理 H&E 全切片圖像中預測空間轉錄組的基因表達。
論文提出的方法叫 HyperST,核心問題在于:現有方法大多只做單個 spot 圖像和基因表達之間的局部匹配,容易忽略空間轉錄組數據本身的層次結構,例如單個 spot 與周圍組織微環境 niche 之間的關系,以及病理形態信息與更細粒度分子表達信息之間的不對稱關系。
為了解決這個問題,論文把圖像和基因表達都建模成多層級表示,一方面提取 spot 級和 niche 級的病理圖像特征與基因表達特征,另一方面把這些表示投影到雙曲空間中,通過層次化對比對齊和層次化蘊含約束,讓模型顯式學習“spot 到 niche”“圖像到基因表達”這類由粗到細、由一般到具體的結構關系,從而得到更有分子語義的圖像表征。
實驗方面,論文在來自 HEST-1K 的腎臟、結直腸、皮膚和肺部 4 個公開空間轉錄組數據集上驗證,結果顯示 HyperST 在 PCC@10、PCC@50、PCC@200、MSE、MAE 等指標上整體優于 TRIPLEX、StNet、BLEEP、Stem 等方法,其中相對第二強的 TRIPLEX,在 PCC@200 上分別提升約 10.95%、3.24%、2.52% 和 16.7%;
論文還做了臨床下游驗證,用在結直腸數據上訓練的模型對外部 TCGA-COADREAD 數據進行零樣本基因表達預測,再用于 MSI 狀態分類,HyperST 在 MSI-H 和 MSS 上的 AUROC 達到 0.719 和 0.601,也高于最強基線。
![]()
論文地址:https://arxiv.org/pdf/2511.22107
它的亮點在于沒有把空間轉錄組預測簡單看成普通圖像回歸問題,而是抓住了空間組學中天然存在的層級結構,并用雙曲幾何來表示這種樹狀、層次化關系;
同時,它不僅利用局部 spot 圖像,還引入周圍 niche 的組織上下文,并在圖像側用病理基礎模型 UNI 加 LoRA 做高效適配,使模型能同時保留組織形態信息和分子表達語義;
消融實驗也支持這一設計,去掉完整的層次雙曲對齊模塊會造成 PCC@200 明顯下降,說明雙曲空間和層級約束確實是性能提升的關鍵。
整體來看,這項工作把幾何深度學習引入空間轉錄組預測,用更符合生物組織層次結構的方式連接病理圖像和基因表達,為低成本、可擴展的空間轉錄組推斷提供了一個更穩健的建模思路。
![]()
在《MoBind: Motion Binding for Fine-Grained IMU–Video Pose Alignment》中,阿德萊德大學澳大利亞機器學習研究所將問題聚焦在可穿戴 IMU 傳感器信號與視頻中 2D 人體姿態序列之間的細粒度對齊。
論文提出的方法叫 MoBind,目標是學習一個統一的跨模態表示,使系統能夠完成 IMU 到視頻檢索、視頻到 IMU 檢索、時間同步、人物和身體部位定位以及人體動作識別等任務。
它的核心思路不是直接對齊原始視頻像素,而是先從視頻中提取骨架運動信息,以減少背景干擾,再把全身運動拆成不同身體部位,讓每個部位軌跡與對應的 IMU 傳感器進行局部對齊,最后通過 token 級、局部身體部位級和全局全身級的層次化對比學習來同時保留亞秒級時間同步能力和整體動作語義。
論文在 mRi、TotalCapture 和 EgoHumans 三個多模態數據集上驗證了方法,結果顯示 MoBind 在跨模態檢索中穩定超過 IMU2CLIP、DeSPITE、SyncNet 等基線,在時間同步任務中也明顯更強,例如在隨機引入 [-7, 7] 秒偏移的 20 秒片段上,MoBind 在 TotalCapture 和 EgoHumans 上的平均誤差分別只有 0.05 秒和 0.04 秒,并且在 200 ms 容忍范圍內的準確率達到 0.98 和 1.00。
![]()
論文地址:https://arxiv.org/pdf/2602.19004v1
這項工作的亮點在于,它針對 IMU-視頻對齊中最難的幾個問題給出了比較完整的設計:一是用骨架姿態替代原始圖像,避免模型被無關視覺背景影響;
二是顯式建模多傳感器和身體部位之間的結構關系,不只是把所有 IMU 信號簡單拼接;三是通過層次化對比學習解決重復動作、相位偏移和短時間錯位帶來的細粒度同步困難;四是加入 Masked Token Prediction 輔助任務,避免模型只關注局部同步而丟失動作類別語義。
整體來看,它把可穿戴傳感器和視頻人體運動之間的對應關系做得更細、更穩,不僅能用于無需人工校準的多模態時間同步,也能用于多人物場景下判斷哪個人佩戴了哪個傳感器、傳感器位于哪個身體部位,并且在傳感器缺失時仍保持較強魯棒性,因而對運動分析、康復監測、體育訓練和多模態數據采集都有較直接的應用意義。
![]()
從可穿戴傳感器和視頻之間的運動對齊繼續延伸,《SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance》進一步研究腦活動與視覺內容之間的映射關系。
北京郵電大學和薩里大學的研究團隊提出 SemVideo,嘗試從人觀看視頻時記錄到的 fMRI 腦活動中重建其看到的動態視覺內容。
它的核心目標是解決現有 fMRI 到視頻重建方法中常見的兩個問題:一是跨幀主體外觀不穩定,導致同一個物體在生成視頻里前后不一致;二是時間連續性差,容易出現動作錯位或幀間突變。
論文的思路不是直接讓腦信號恢復每一幀像素,而是先用 SemMiner 從原始視頻中挖掘三層語義信息,包括第一幀靜態錨點描述、面向動作的運動敘事和整體視頻摘要,再讓 SemVideo 通過語義對齊解碼器 SAD 將 fMRI 信號對齊到這些語義嵌入,通過運動適配解碼器 MAD 建模動態運動潛變量,最后用條件視頻渲染模塊把語義和運動信息融合生成視頻。
實驗在 CC2017 和 HCP 7T 兩個公開 fMRI-video 數據集上進行,論文稱方法在語義、像素和時空三個層面的 10 個指標中的 8 個達到最好結果;在 CC2017 上,SemVideo 的 2-way-V、50-way-V、CLIP 和 EPE 分別達到 0.865、0.264、0.526 和 4.788,說明它不僅更能恢復視頻中的語義對象,也能更好保持動作和時序一致性。
![]()
論文地址:https://arxiv.org/pdf/2602.21819v2
它的亮點在于把“人腦看視頻時更偏向關鍵語義和動作記憶,而不是逐像素逐幀處理”的認知假設轉化成可訓練框架,用多層級語義作為中間監督來彌補 fMRI 時間分辨率低、語義稀疏的問題;
同時,論文通過消融實驗證明三類語義提示都很重要,其中去掉運動敘事 Cmotion 會明顯損害像素級和時空指標,去掉 MAD 后幀序對齊能力大幅下降,說明運動提升不是單純來自文本到視頻模型的先驗,而是確實從腦信號和運動語義中解碼出來的。
另一個有價值的點是,作者還做了腦區重要性可視化,發現錨點語義更依賴高級視覺皮層,運動語義與 MT、MST、TPOJ 等運動相關腦區更匹配,整體語義則分布在視覺和運動相關區域,這讓方法不僅是一個生成模型,也提供了一定的神經科學可解釋性。
整體來看,這項工作把 fMRI 視頻重建從“生成看起來像的視頻”推進到“同時保持對象語義、動作軌跡和時間連貫性”的方向,為未來基于腦活動重建動態視覺體驗提供了一個更結構化、更可解釋的框架。
![]()
如果說 MoBind 和 SemVideo 都是在時間序列層面做跨模態對齊,那么《Can a Second-View Image Be a Language? Geometric and Semantic Cross-Modal Reasoning for X-ray Prohibited Item Detection》則把跨模態思想用于空間幾何推理,尤其是安檢 X-ray 場景中的雙視角理解。
來自北京交通大學信息科學研究所和北京航空航天大學復雜與關鍵軟件環境國家重點實驗室的研究團隊關注安檢場景中的 X-ray 違禁品檢測,核心問題是:現實安檢人員通常會同時觀察俯視和側視兩張 X-ray 圖像來判斷物體結構、遮擋關系和空間位置,但現有視覺語言模型多依賴單視角圖像或文本提示,缺乏對“雙視角幾何一致性”的顯式推理;
因此論文提出一個很有意思的觀點——第二視角圖像能否像語言一樣,為模型提供額外約束。圍繞這個問題,作者構建了 DualXrayBench,這是一個結合雙視角圖像和多模態標注的基準,包含 45,613 對雙視角圖像、12 類違禁物品,以及 1,594 個專家驗證的視覺問答樣本,用來測試計數、識別、遮擋、空間關系、擺放屬性等 8 類跨視角推理能力。
方法上,論文提出 GSR,即 Geometric-Semantic Reasoner,基于 Qwen3-VL-MoE-8B 構建,通過視覺編碼器、特征對齊模塊和語言推理模塊,把俯視圖、側視圖和文本問題統一到一個推理流程中,并進一步構建 GSXray 數據集,將推理過程組織成 、、 這樣的結構化 Chain-of-Thought,讓模型先分別理解兩個視角,再綜合得出結論。
實驗結果顯示,GSR-8B 在 DualXrayBench 上取得 65.4 的準確率、70.6 的 F1 和 52.3 的 mIoU,明顯超過 GPT-4o、Gemini-2.5-Pro、Qwen3-VL-235B 等通用模型,也優于單視角 X-ray 視覺語言模型;
消融實驗還表明,單純加入第二視角并不一定足夠,只有把雙視角信息和結構化推理標簽結合起來,才能穩定提升幾何對齊、遮擋判斷和空間關系理解能力。
![]()
論文地址:https://arxiv.org/pdf/2511.18385v1
它的亮點在于,不只是把兩張圖簡單拼接做多模態輸入,而是把第二視角當成一種“類語言模態”,用來約束和補充主視角中的不確定信息;
同時,論文同時貢獻了數據集、評測任務和模型框架,為安檢 X-ray 場景中更接近人工檢查流程的跨視角推理提供了系統方案。
整體來看,這項工作把視覺語言模型從單圖像語義理解推進到雙視角幾何—語義聯合推理,對于復雜遮擋、相似物體區分和未知違禁品泛化都有較強的應用意義。
![]()
這次去 CVPR 現場,一定不要錯過
【認識大牛+賺外快】的機會
需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來
你能獲得什么?
認識大牛:你將可以進入CVPR名師博士社群;
錢多活少:提供豐厚獎金,任務量精簡;
聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。
如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]
【限額5位,先到先得】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.