<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      牛津、微軟等發布音視頻智能綜述:梳理大模型時代的AVI研究全景

      0
      分享至



      GPT-4o 一邊看屏幕一邊和你語音對話;Veo-3、MovieGen、Seedance 2.0 直接把原生音軌納入視頻生成鏈路;HappyHorse 這類近期模型也開始探索音視頻聯合生成;OpenVLA 讓機器人” 聽音辨物”—— 音視頻大模型,正在從” 加在視覺模型旁邊的一個 ASR”,進化成 omni-modal 基礎模型的核心能力之一。

      NUS 聯合牛津、多倫多、UTD、HKUST、QMUL、微軟研究院、羅切斯特大學等共 9 家機構最近推出據作者所知第一份系統的音視頻智能(AVI)大模型綜述,用一張演化樹串起十年發展,給出統一 taxonomy、三條主線與六大未來研究軸,把 AVI 在大模型時代的角色與待解問題擺到了同一張地圖上。



      一、9 機構、首份” 音視頻大模型” 綜述

      近年來,AI 圈最顯著的變化之一,是” 模型不再只看圖”。

      2024 年 GPT-4o 把語音、視覺、文本塞進同一個 backbone,2025 年 Google Veo-3、Meta MovieGen 把” 原生帶音軌的視頻生成” 作為統一目標,2026 年字節 Seedance 2.0 和 HappyHorse 等工作進一步把文本、圖像、視頻、音頻條件與同步音視頻輸出放進同一代視頻生成敘事中;Qwen-Omni 把多模態對話推到流式實時層面,OpenVLA、π0、GR00T 這一線 VLA 模型則開始讓機器人同時處理語音指令、視覺、動作甚至環境聲響。

      但與此同時,整個領域的學術地圖卻仍然高度分散。ASR、數字人 / 說話頭(talking head)、Foley(擬音)合成、視頻配音(V2A)、音頻驅動視頻生成(A2V)、音畫編輯、音視頻問答(AVQA)、空間音頻推理、AV 導航、AV 操作…… 每一個子方向都有自己的范式、benchmark 與評測口徑。

      正是在這一背景下,新加坡國立大學(NUS)聯合牛津大學、多倫多大學、UTD、HKUST、QMUL、微軟研究院、羅切斯特大學等機構,推出了據作者所知第一份專門針對” 音視頻大模型(AVI in Large Foundation Models)“的系統綜述



      • 論文標題:Audio-Visual Intelligence in Large Foundation Models: AComprehensiveSurvey
      • 論文:https://arxiv.org/abs/2605.04045
      • HF Paper:https://huggingface.co/papers/2605.04045
      • GitHub(Awesome-AVI,持續更新):https://github.com/JavisVerse/Awesome-AVI
      • 項目主頁:https://javisverse.github.io/

      論文把過去十年里散落在十幾個子社區的 AV 工作,重新組織成理解世界(Understanding the World)/ 創造世界(Creating the World)/ 與世界交互(Interacting with the World)三條主線,給出統一的 taxonomy、基礎技術拆解、應用版圖、以及面向未來 1–3 年的六軸研究路線。

      論文本身的立意,是把AVI 當作大模型時代下、與單模態語言模型同等重要的一支基礎能力來梳理:從音視頻對齊、到聯合音視頻生成、再到實時閉環交互,應該形成一個連貫的研究框架,而不是被 ASR、Foley(擬音)、數字人 / 說話頭、AVQA 各自的范式繼續切碎。

      二、十年 AVI” 進化樹”:從” 對得上” 到” 聽 - 看 - 說 - 動一體”

      打開 paper 第一頁,先映入眼簾的就是這張2016–2026 AVI 進化樹



      論文把整個 AVI 的發展分成 4 個時代:

      • Era 1(2016–2018):AV Alignment——L3-Net、AVTS、Wav2Lip、Audio2Head,加上”ASR + LLM + TTS” 的級聯式語音對話。問題集中在” 對得上”。
      • Era 2(2019–2022):Scaled Representations——XDC、AVID、VATT 這些大規模對比學習方法登場,AudioLDM、MusicGen 等單模態生成開始爆發,SpeechGPT、SALMONN、Qwen-Audio 一路走出 audio-native LLM。
      • Era 3(2023–2024):AV Creation——MBT、AV-HuBERT、Diff-Foley、MMAudio、FoleyCrafter、MusicInfuser、AudioGPT、Mini-Omni、NExT-GPT,把” 以一種模態生成另一種模態” 和”AV 控制器” 推到舞臺中央。
      • Era 4(2024–2026):Omni / VLA——ImageBind、Qwen-Omni、JavisDiT、MovieGen、Veo-3、Seedance 2.0、HappyHorse、GPT-4o、OpenVLA、Audio-VLA,原生融合的 AV 大模型、同步音視頻生成模型與 VLA 一起走上前臺。

      更重要的是,論文明確指出,從 Era 1 到 Era 4,有6 條瓶頸貫穿始終:音畫同步、時序一致性、可控生成、評測體系、實時延遲、安全治理與數據合規。這些問題不會因為模型變大就自動消失,反而會隨著場景升級(短視頻 → 長視頻 → 實時 omni → agentic)反復出現。

      三、統一 Taxonomy:感知 / 生成 / 交互三條主線

      論文給出的統一 taxonomy 是核心交付物之一,它把 AVI 拆成三條主線:



      理解世界(Understanding the World,Perception):包括音視頻語音識別(AV-ASR)、唇語識別(lip reading)、活躍說話人檢測(ASD)、聲源定位與分離、音視頻事件理解、跨模態檢索、音視頻問答(AVQA)這些經典任務,加上越來越多基于 AV-LLM 的長視頻理解與因果推理任務。



      創造世界(Creating the World,Generation):被進一步拆成” 條件生成 / 跨模態生成 / 聯合音視頻生成 / 音畫編輯” 四類,覆蓋視頻配音(V2A)、音頻驅動視頻生成(A2V)、joint AV 生成等代表方向。論文特別指出,真正” 原生聯合” 的音視頻生成才剛剛開始——MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 這類近期模型已經能從文本或多模態條件生成帶原生音軌的視頻,但跨身份、跨時長、跨場景物理合理性的音畫同步生成,以及局部、可控的音畫編輯,仍是開放問題。



      與世界交互(Interacting with the World,Interaction):包含兩條線,一條是” 音視頻對話”(從級聯 ASR + LLM + TTS,到 audio-native LLM,再到 GPT-4o / Qwen-Omni 這類原生 omni-modal 實時音視頻對話),另一條是” 具身智能與機器人”(AV 導航、AV 場景理解、AV 操作,對應 SoundSpaces、AVLMaps、OpenVLA、Audio-VLA)。





      論文強調:交互不是一次性輸出,而是帶狀態的閉環 —— 感知 → 推理 → 響應 / 行動,要在延遲、反饋和用戶意圖的約束下持續運行。這也是為什么 omni-modal 與 VLA 類模型會在 Era 4 同時出現。

      四、基礎技術:表示、生成、LLM-centric

      如果說三條主線組織的是” 做什么”,基礎技術這一章組織的就是” 怎么做”。論文把 AVI 的技術棧拆成三塊:

      • Representation(表示):音頻與視覺特征抽取、VAE / 重建式壓縮、離散化 tokenization、跨模態對齊與融合。在大模型語境下,關鍵問題已從” 特征對不對得上” 升級為” 用哪種 token 把音視信號塞進 LLM 才最高效”。
      • Generation(生成):系統梳理VAE / GAN / Diffusion / 自回歸(AR)/ Masked Autoregressive(MAR)五類生成范式各自的能力邊界與組合方式,特別覆蓋了 diffusion /flow matching 的演化、AR 模型在視覺與音頻上的進展、以及 hybrid AR + Diffusion 的最新方向。
      • LLM-centric 系統范式:論文把當前 AV 大模型按結構歸成幾種典型范式 ——Encoder + LLM、LLM + Generator、統一感知生成模型(unified Encoder + LLM + Decoder)、以及 Agentic 系統與 VLA 模型。這也是工業界搭” 音視頻版 GPT-4o” 時最直接對應的架構選擇。



      對正在搭” 音視頻版 GPT-4o” 的工程團隊來說,這張圖大體相當于一份 AV 大模型架構選型的速查表,可以拿來對照自己當前的 backbone /encoder/decoder 劃分。

      五、應用版圖:從短視頻 AIGC 到具身機器人

      論文用一整章梳理了 AVI 的下游應用版圖:



      圍繞音視頻基礎模型展開,作者把應用歸納為6 大方向

      1.AIGC 與創意內容:視頻配音 / Foley(擬音)合成、跨語言唇形同步、配樂與音畫編輯,再到一次性出” 帶原生音軌短場景” 的 JavisDiT、Veo-3、Seedance 2.0、HappyHorse 等聯合音視頻生成模型;

      2.數字人與社交交互:從 Wav2Lip 的 2D 唇形同步、到 GaussianTalker 的 3D 神經渲染、再到 EmoGene、EMAGE、Stereo-Talker 的高保真全身數字人;

      3.人本服務:以 Qwen-Audio、SALMONN 等 audio LLM 為核心的對話助手 / 會議轉寫 / AI 教學 / 無障礙輔助;

      4.沉浸式體驗與 Metaverse:空間音頻推理、AV-NeRF、AVLMaps,以及 <20 ms 級別的低延遲硬約束;

      5.具身 AI 與機器人:從 SoundSpaces 一脈的 AV 導航,到 OpenVLA / π0 / GR00T / SmolVLA 的統一 VLA 策略;

      6.泛在感知與安全治理:智慧城市、工業 IoT、深偽檢測、聲學異常檢測、水印與數據合規、隱私與邊緣部署。

      六、未來六大研究軸:超越” 更長清單”,給出結構性能力



      AVI 發展路線圖:前三階段建立起” 對應 / 感知 / 生成” 的能力基礎,當下處于交互式 omni-modal 與具身模型這一前沿,再往后是因果 - 上下文 AVI 與可驗證的 agentic AVI—— 下文六大主軸正對應路線圖右側兩段需要補齊的關鍵能力。

      論文最后給出六條未來研究主軸,覆蓋音畫同步、因果事件 grounding、空間音頻推理、長程上下文記憶、可控生成、安全治理、水印與數據合規等關鍵問題,并強調這六軸不是更長的待辦清單而是把 AVI 與” 通用多模態學習” 區分開的結構性能力

      1.因果事件 - 聲源 grounding:建模延遲、遮擋、畫外音、多源混合下的源級 / 事件級 / 因果對齊,把音畫同步推向因果可解釋層面;

      2.AV 世界模型:把音視頻當作幾何、材質、動力學、可供性、用戶 / 社交狀態的互補證據,并以空間音頻推理作為關鍵能力;

      3.長程 AV 上下文記憶:構建流式 / 情景 / 語義多層、可選擇、可溯源的 AV 記憶,而不是簡單加長上下文窗口;

      4.因果 AV 干預與可控生成:讓生成與編輯支持對物體、聲音、身份、情緒、空間、時間的局部、因果、同步干預;

      5.Verifier 與 Reward 生態:超越 FAD / FVD / CLIP / SyncNet 這些代理指標,發展面向 grounding、物理合理性、音頻不可替代性、長程一致性、任務效用的驗證器;

      6.交互式與負責任 AVI:在低延遲、隱私、版權、水印與數據合規等安全治理約束下,把 AV 模型變成可被信任的實時合作者。

      這六條主軸,每一條都幾乎對應著某條工業界正在追的產品線:

      • 因果事件 - 聲源 grounding ? 視頻理解 / 視頻搜索;
      • AV 世界模型 ? 世界模型 / Sora 系列;
      • AV 上下文記憶 ? 長會議、長直播、長游戲陪伴的 omni assistant;
      • 因果 AV 干預 ? AI 視頻后期 / 影視特效;
      • Verifier & Reward 生態 ? AI 視頻質量評估、自動剪輯;
      • 交互式與負責任 AVI ? omni 助手 / 實時陪練 / 具身機器人。

      七、對行業意味著什么

      最后做一個簡短的產業向解讀:

      1. 論文給出了” 音視頻大模型” 研發的統一坐標系。不論你是在做視頻生成、數字人 / 說話頭、omni 助手,還是 AV 智能體或具身機器人,都能在這張全景圖里找到自己的位置,進而判斷鄰接技術棧在哪里、可借鑒的方法是什么。

      2. 它明確指出了 omni-modal 模型的下一波競爭點不在” 能不能聽 / 能不能看”,而在” 能不能在統一 backbone 或統一生成鏈路下做長程 AV 上下文推理 + 原生音畫同步生成 + 實時閉環交互”。GPT-4o、Veo-3、Seedance 2.0、Qwen-Omni、OpenVLA,以及 HappyHorse 這類近期聯合音視頻生成嘗試,都在從不同側面推進這一趨勢。

      3. 評測體系正在重塑。論文對 FAD / FVD / CLIP / SyncNet 這類代理指標在音畫同步與音頻不可替代性維度上的局限做了系統討論,并明確把 verifier & reward 生態列為未來主軸之一。可以預期未來一年,AV 評測會從” 主觀打分 + 代理指標”,走向” 任務效用 + 物理合理性 + 安全可溯源” 的多維評測體系。

      4. 安全治理已經從錦上添花走向基礎設施層面。深偽、版權、隱私、水印與數據合規、實時濫用,將成為部署側不可繞過的硬約束。

      對任何在做 AV 大模型、omni-modal 模型、視頻生成、數字人 / 說話頭、AV 智能體、具身機器人、空間音頻或深偽檢測的團隊,這篇綜述長文都值得完整通讀一次。

      配套的 Awesome-AVI 倉庫會持續更新方法、數據集與 benchmark,研究者可以圍繞它跟蹤最新進展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      奧爾莫:隊內為了搶10號球衣大打出手?根本沒有這事

      奧爾莫:隊內為了搶10號球衣大打出手?根本沒有這事

      懂球帝
      2026-06-02 21:41:25
      戲混子又來嚯嚯央視劇?只會一個表情抿嘴干瞪眼,張嘉益都帶不動

      戲混子又來嚯嚯央視劇?只會一個表情抿嘴干瞪眼,張嘉益都帶不動

      不似少年游
      2026-06-01 16:56:28
      王曉晨俞灝明被曝就醫,王曉晨街邊抽煙,全程眉頭緊鎖,神色焦灼

      王曉晨俞灝明被曝就醫,王曉晨街邊抽煙,全程眉頭緊鎖,神色焦灼

      韓小娛
      2026-06-02 15:22:29
      【西班牙】警察解救3名華人女子,被逼性奴賣YIN,因為惡臭被鄰居發現報警...

      【西班牙】警察解救3名華人女子,被逼性奴賣YIN,因為惡臭被鄰居發現報警...

      魯曉芙看歐洲
      2026-06-02 20:56:44
      為了杰倫布朗,火箭隊需送出2主力1替補?若成功,全新陣容太豪華

      為了杰倫布朗,火箭隊需送出2主力1替補?若成功,全新陣容太豪華

      熊哥愛籃球
      2026-06-02 15:00:59
      24小時已過,普京政府準時斷供,航油不賣中國,歐盟啟動應急方案

      24小時已過,普京政府準時斷供,航油不賣中國,歐盟啟動應急方案

      愛下廚的阿釃
      2026-06-02 17:12:48
      周星馳入股江蘇一企業

      周星馳入股江蘇一企業

      中吳網
      2026-06-02 19:24:23
      中國車企三強:比亞迪、奇瑞、吉利5月銷量公布,差距拉開了

      中國車企三強:比亞迪、奇瑞、吉利5月銷量公布,差距拉開了

      劉哥談體育
      2026-06-02 18:19:55
      張學友的嘴,是開了光的預言家…

      張學友的嘴,是開了光的預言家…

      慧翔百科
      2026-06-03 08:46:01
      被印度斷油后,尼泊爾瘋搶電動車,窮國逆襲全球第二,真相太扎心

      被印度斷油后,尼泊爾瘋搶電動車,窮國逆襲全球第二,真相太扎心

      青眼財經
      2026-06-02 18:57:47
      莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

      莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

      品讀時刻
      2026-05-27 09:00:58
      完爆克魯皮!阿森納賺大了!8000 萬英超巨星主動投奔

      完爆克魯皮!阿森納賺大了!8000 萬英超巨星主動投奔

      瀾歸序
      2026-06-03 06:07:33
      燃油車再掀集中降價潮!多款車型創歷史最低價:軒逸低配跌破6萬、雅閣裸車11萬

      燃油車再掀集中降價潮!多款車型創歷史最低價:軒逸低配跌破6萬、雅閣裸車11萬

      快科技
      2026-06-02 16:29:22
      總價4500萬 曼聯與26歲巴西國腳簽約4年 或再買2名中場+夏窗砸3億

      總價4500萬 曼聯與26歲巴西國腳簽約4年 或再買2名中場+夏窗砸3億

      我愛英超
      2026-06-03 06:46:55
      黎巴嫩政府的悲劇:當短視取代了戰略清醒

      黎巴嫩政府的悲劇:當短視取代了戰略清醒

      民間胡扯老哥
      2026-05-14 13:12:11
      中方呼吁羅馬尼亞無人機事件有關方保持冷靜克制

      中方呼吁羅馬尼亞無人機事件有關方保持冷靜克制

      環球網資訊
      2026-06-02 09:23:09
      美軍證實攔截伊朗導彈和無人機 稱空襲格什姆島

      美軍證實攔截伊朗導彈和無人機 稱空襲格什姆島

      新華社
      2026-06-03 07:46:07
      資治通鑒:當你混到沒人給你打電話發信息、沒人找你聚會、沒人約你吃飯的時候,那么說明你可能在慢慢變好,你的人生正在走上坡路

      資治通鑒:當你混到沒人給你打電話發信息、沒人找你聚會、沒人約你吃飯的時候,那么說明你可能在慢慢變好,你的人生正在走上坡路

      心理觀察局
      2026-06-03 07:06:09
      2020年杜少平被押火葬場,抬進死刑執行車,8分鐘后結束罪惡一生

      2020年杜少平被押火葬場,抬進死刑執行車,8分鐘后結束罪惡一生

      莫地方
      2026-06-03 01:45:03
      老人精通一絕技,四年拿下二十六女,背后真相令人震驚

      老人精通一絕技,四年拿下二十六女,背后真相令人震驚

      霧島夜話
      2025-06-02 17:30:56
      2026-06-03 10:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13151文章數 142660關注度
      往期回顧 全部

      科技要聞

      員工抗議鍵鼠追蹤,Meta讓步:可暫停30分鐘

      頭條要聞

      牛彈琴:中國一鄰國正在瘋狂表演 嚴重傷害中國人感情

      頭條要聞

      牛彈琴:中國一鄰國正在瘋狂表演 嚴重傷害中國人感情

      體育要聞

      1米74的業余聯賽替補,在英超踢中衛

      娛樂要聞

      奚夢瑤何猷君補辦婚禮超幸福

      財經要聞

      左手通脹右手衰退,歐美當下的困局

      汽車要聞

      星途神秘新車輪廓曝光 又一款性能SUV要來了?

      態度原創

      游戲
      親子
      教育
      公開課
      軍事航空

      新戰神商店頁上線!奎爺亡妻打復活賽?大量截圖公開

      親子要聞

      可愛小豬歡樂歌

      教育要聞

      小學幾何題,難倒了不少的家長和學生,換個思路試試

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗媒體新發布最高領袖照片

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品无码日韩国产不卡av| 天美免费在线传煤mv| 国产漂亮白嫩美女在线观看| 三级色网| 青青草国产成人99久久| 小泽玛利亚区二区在线| 亚洲第一天堂无码专区| 人妻饥渴偷公乱中文字幕| 日韩中文日韩中文字幕亚| 爱啪导航| 九九精品在线观| 成人国产片视频在线观看| 国产精品午夜波多野结衣性色| 狠狠色噜噜狠狠狠狠av不卡| 中文字幕无码专区一VA亚洲V专| 亚洲avav| 醉红楼av| ww欧美ww| 欧美牲交视频免费观看| 亚洲77777| 美乳丰满人妻无码视频| 亚洲欧美综合人成在线| 国产成人精品手机在线观看| 色中色综合一区| 亚洲综合无码明星蕉在线视频| 日韩AV无码一区二区三不卡| 亚洲国产中文字幕精品| 久久这里只精品国产2| 久操B网| 亚洲理论| 国产在线一区二区三区四区五区| 国模精品在线| 亚洲综合久久精品哦夜夜嗨| 艳妇乳肉豪妇荡乳在线观看| 奇米四色7777中文字幕| 久久人妻精品白浆国产| 成人性爱网站| 精品亚洲国产成人AV在线| 亚洲欧美人成电影在线观看| 亚洲国产大片永久免费看| 国产在线极品美女酒店|