![]()
隨著單細胞多組學技術的迅速發(fā)展,研究者已能夠在同一細胞中同時獲取轉錄組( RNA )、蛋白質組( ADT )與染色質可及性( ATAC )等多層分子信息,為理解細胞異質性和基因調控機制提供了前所未有的視角。然而,不同組學模態(tài)之間存在極端的稀疏性、維度不平衡與分布差異,現(xiàn)有方法在整合 多 模態(tài)時往往面臨模態(tài)對齊不足、局部細胞拓撲丟失以及缺乏可解釋性等核心挑戰(zhàn),難以在保留生物信號的同時實現(xiàn)高精度的細胞類型鑒定與調控解析。
近日, 河北工業(yè)大學王云鶴和吉林大學李向濤團隊 在Nature Communications期刊上 發(fā)表 題為Interpretable Modality-Aware Mapping of Gene Regulation in Single-cellMultiomicswithscMAGCA的 研究論文 ,提出了面向單細胞多組學分析的新方法scMAGCA( single-cell Multi-omics Adversarial Graph Convolutional Autoencoder )。該方法為復雜生物系統(tǒng)中多組學數(shù)據(jù)的聯(lián)合表示與調控解析提供了新的計算框架。
![]()
與傳統(tǒng)方法將不同模態(tài)數(shù)據(jù)直接壓縮 進統(tǒng)一 潛在空間不同, scMAGCA 顯式保留了細胞間的局部拓撲關系,并對跨模態(tài)分布差異進行主動校正。 scMAGCA 的核心設計融合了三個協(xié)同工作的關鍵模塊:圖卷積編碼器通過構建細胞圖并聚合鄰域信息,在潛在空間中保留細胞間的局部拓撲結構;對抗對齊模塊利用生成對抗學習將不同組學的潛在嵌入對齊至共同先驗,消除模態(tài)間的分布偏移; ZINB 解碼器則對多組學 計數(shù)數(shù)據(jù)進行概率建模,將真實生物變異與技術噪聲有效解耦。在此基礎上,模型采用 預訓練 與聚類優(yōu)化兩階段策略,通過 KL 散度迭代精化細胞亞群邊界,實現(xiàn)多組學嵌入與聚類的端到 端聯(lián)合 優(yōu)化。
為系統(tǒng)評估 scMAGCA 的性能,研究團隊在 28 個單細胞多組 學 公開 數(shù)據(jù)集上,與 多 種主流方法開展了大規(guī)模基準測試。結果表明, scMAGCA 在 大多數(shù) RNA+ADT 和 RNA+ATAC 數(shù)據(jù)集上取得了最優(yōu)或接近最優(yōu)的聚類性能,并在多批次整合任務中同樣保持領先,顯示出在消除批次效應的同時有效維持生物學差異的能力。更值得關注的是, scMAGCA 的 優(yōu)勢不止體現(xiàn)在整體指標的提升上,還體現(xiàn)在對精細亞群的分辨能力上 。 在包含 27 種細胞類型的大規(guī)模 PBMC 數(shù)據(jù)集中, scMAGCA 成功區(qū)分了其他方法難以分離的 CD8 Naive 與 CD4 Memory 細胞等精細亞群,體現(xiàn)出更強的細胞異質性解析能力。
scMAGCA 支持 RNA+ADT+ATAC 三模態(tài)數(shù)據(jù)的聯(lián)合分析。研究團隊將其應用于人外周血單核細胞 TEA- seq 數(shù)據(jù)集( GSE158013 ),驗證了逐步添加模態(tài)( RNA → RNA+ADT → RNA+ADT+ATAC )對聚類性能的遞進提升效果。在中性粒細胞系和 B 細胞 群體中, RNA 和 ADT 信息無法區(qū)分的精細亞群, scMAGCA 通過引入 ATAC 染色質可及性分數(shù)后被成功分辨為高染色質可及性( HCA )和低染色質可及性( LCA )兩個功能不同的亞群。進一步的潛在因子分析與 GO/KEGG 富集分析揭示, HCA B 細胞富集 MHC II 類分子呈遞與免疫受體活性程序,而 LCA B 細胞則呈現(xiàn)與腸道免疫網(wǎng)絡及同種異體移植排斥相關的功能特征,展示了三模態(tài)整合對免疫調控異質性的解析能力。
在疾病應用層面,研究團隊將 scMAGCA 分別應用于阿爾茨海默癥和腎癌的多組學數(shù)據(jù)分析。在阿爾茨海默 癥數(shù)據(jù) 集中, scMAGCA 解析出 4 種興奮性神經(jīng)元亞型,發(fā)現(xiàn) EX-3 神經(jīng)元比例顯著減少,與其在 AD 進程中的選擇性退化高度吻合,并通過轉錄因子基序富集揭示了 MEF2 家族在突觸重塑中的關鍵調控角色。在腎癌數(shù)據(jù)中, scMAGCA 鑒定出疾病相關的內皮細胞與近端小管細胞亞型。 基于潛在因子的分析將 LACTB2 和 NCOA2 識別為腫瘤進展中的關鍵調控因子,并通過 qPCR 在多種腎癌細胞系及患者腫瘤組織中對這兩個基因的表達進行了實驗驗證,為其作為腎癌潛在生物標志物提供直接的實驗支撐。此外, siRNA 介 導的 HNF4A 敲低實驗 證實其對腎癌細胞增殖和遷移具有促進作用,進一步驗證了 scMAGCA 所預測的調控關系。
scMAGCA 還提出了一種基于 GCN 權重反向追蹤的特征歸因框架,通過逐層篩選標準差最大的權重維度,從潛在空間反向溯源至輸入層,識別出對細胞表示貢獻最大的關鍵基因、染色質峰或 ADT 特征,實現(xiàn)對深度圖神經(jīng)網(wǎng)絡學習表示的生物學可解釋性分析。
![]()
圖: scMAGCA 技術路線圖
這項工作表明,單細胞多組學整合不應止步于 “ 把不同模態(tài)放在一起 ” ,更關鍵的是在保留細胞間局部拓撲的同時對齊跨模態(tài)分布差異,并將技術噪聲與真實生物信號有效區(qū)分。 scMAGCA 不僅在聚類 精度和批次校正上取得了全面的性能提升 , 還通過可解釋的潛在因子分析將計算結果與具體的生物學調控程序相連接,更在阿爾茨海默癥和腎癌等復雜疾病場景中將計算預測與實驗驗證有機結合,為多組學驅動的疾病機制解析與生物標志物發(fā)現(xiàn)提供了強有力的工具支撐。
原文鏈接:https://www.nature.com/articles/s41467-026-73055-7
制版人:十一
BioArt
Med
Plants
人才招聘
學術合作組織
(*排名不分先后)
![]()
轉載須知
【非原創(chuàng)文章】本文著作權歸文章作者所有,歡迎個人轉發(fā)分享,未經(jīng)作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.