網易首頁 > 網易號 > 正文申請入駐

面向具身智能芯片的技術瓶頸與架構發展路徑研究

2026-06-01 18:58:08　來源: 雷克智能

北京舉報

分享至

ROBOT INDUSTRY

視覺-語言-動作（Vision-Language-Action，VLA）模型為具身智能系統提供了從語義理解到物理世界感知、推理與控制閉環的端到端能力，但其在邊緣側部署面臨的關鍵約束并非單純源于峰值算力不足。本文從芯片系統視角出發，圍繞VLA模型端側執行過程中的計算、存儲與感知輸入，分析具身智能芯片面臨的技術瓶頸及架構發展趨勢。研究表明，VLA模型與現有邊緣AI芯片架構之間存在結構性錯配，一是動作生成環節具有強時序依賴性和頻繁數據訪問需求，易受到內存帶寬和數據傳輸效率限制；二是傳統邊緣計算平臺的串行工作流難以適配高頻物理控制和連續動作輸出需求；三是多模態傳感輸入、模型狀態更新和控制信號下發在共享存儲與互聯架構下形成資源競爭。面向上述問題，未來具身智能芯片架構將從通用AI推理加速平臺，向面向動作生成的協同計算架構、片上數據流優化的存儲互聯架構和感算一體的前端智能傳感架構演進。本文認為，具身智能芯片的發展重點將從峰值算力提升轉向計算核心、存儲互聯和感知前端的協同重構，其競爭焦點在于能否在受限邊緣環境中持續、穩定、低延遲地支撐實時感控閉環。

當前，具身智能正推動人工智能系統從數字空間的內容生成與語義理解，向物理世界的感知、推理與控制閉環演進。以視覺-語言-動作模型（Vision-Language-Action，VLA）為代表的具身基礎模型，將視覺感知、語言指令理解與動作生成過程進行統一建模，提升了具身智能體在復雜環境中的任務泛化與交互能力。與傳統具身智能體主要依賴預設程序或規則控制不同，VLA模型使智能體能夠根據開放式指令和環境變化生成連續動作序列，為具身智能從實驗室驗證走向真實場景部署提供了關鍵支撐。

然而，具身智能大模型的邊緣部署并非單純的模型壓縮或算力堆疊問題，而是涉及模型結構、芯片性能、存儲帶寬和多模態數據流的系統性問題。Grover等的綜述研究明確指出，具身基礎模型邊緣部署本質上是一個系統級問題，實時控制需在嚴格的尺寸、重量與功耗約束下運行，內存流量、計算延遲、時序波動和安全裕度相互耦合并共同決定部署可行性[1]。由此可見，對具身智能芯片性能的關注不能僅停留在峰值算力層面，而應進一步審視端到端延遲、存儲互聯效率、多模態I/O吞吐和長時穩態運行能力等指標。

從現有邊緣平臺的測試結果看，VLA模型在具身智能場景下已出現顯著的芯片技術瓶頸。Vishwanathan等基于英偉達Jetson Orin和Jetson Thor平臺，對典型VLA模型進行性能剖析后發現，動作生成階段（自回歸解碼）占端到端延遲的75%，是端側執行的主要瓶頸，其延遲與內存帶寬和數據傳輸效率密切相關[2]。上述研究表明，具身智能芯片面臨的核心問題，正從“是否具備足夠算力”轉向“能否在受限物理環境下持續維持感知、推理與控制所需的實時速率”。

與此同時，現有具身智能體控制系統普遍沿用將動作過程離散化為逐幀預測的算法設計，并通過CPU、GPU/NPU等通用計算芯片組成異構系統，按感知、推理、規劃、控制的流程串行執行。該工作流在早期視覺識別或輕量控制任務中尚可適用，但在VLA大模型驅動的具身智能系統中，易導致推理頻率過高、數據通信與計算過程串行累積、控制響應不連續等問題。Huang等發現，即便采用30億參數規模的視覺語言模型，具身AI系統在執行操作任務時仍存在較高延遲和能耗，為此提出通過預測短期未來軌跡、解耦模型推理與機器人控制及數據通信等方式，將模型推理頻率降低逾5倍，實現近6倍的端到端加速[3]。這進一步說明，僅從模型側或單一算力側優化難以充分解決邊緣部署問題，軟硬件系統協同設計已成為解決該問題的關鍵路徑。

基于上述研究現狀，本文圍繞具身智能大模型邊緣部署的芯片技術瓶頸展開研究，重點梳理VLA模型端側推理、動作生成瓶頸、存儲帶寬約束、工作流執行錯配、多模態I/O及算法-架構協同等方向的代表性研究。本文從芯片系統視角出發，研判具身智能芯片從通用邊緣計算平臺復用向專用具身架構演進的趨勢。未來具身智能芯片競爭的關鍵并非單純提升理論峰值算力，而在于能否在邊緣側物理約束下實現低延遲、高能效、可預測和長時穩定的實時感控能力。

具身智能邊緣部署的芯片技術瓶頸分析

具身智能芯片面臨的核心問題，并不是簡單缺少更高的峰值算力，而是現有邊緣計算架構與具身智能工作任務之間存在系統性錯配。與傳統視覺識別、語音識別或自然語言推理任務相比，具身智能系統需要在真實物理環境中同時完成多模態感知、語義理解、動作生成和底層控制，其計算過程需要滿足強實時性、強交互性和強物理約束的要求。尤其對于VLA模型，端側芯片不僅要承擔大模型推理任務，還要面對傳感器數據接入、動作序列生成、控制信號下發和安全冗余校驗等并發任務。因此，具身智能芯片的技術瓶頸主要體現在三個方面：一是動作生成階段的內存帶寬壓力，二是通用計算工作流與高頻物理控制需求之間的執行錯配，三是多模態輸入輸出與共享內存架構形成的資源爭用。

動作生成環節的內存帶寬壓力成為端側推理的主要瓶頸

現有邊緣AI芯片的核心指標多集中在峰值算力、算子吞吐和模型推理速度等方面。然而，VLA模型不僅需要理解圖像和語言信息，還需要進一步將語義結果轉化為可執行的動作序列。與傳統視覺或語言任務中計算密集型操作占主導不同，VLA的動作生成環節具有更強的時序依賴和更頻繁的數據訪問需求。Vishwanathan等人基于英偉達Jetson Orin和Jetson Thor平臺，對MolmoAct-7B等典型VLA模型進行性能測試后發現，動作生成階段消耗高達75%的端到端延遲，且該階段呈顯著的內存帶寬受限特征[2]。Zhou等基于GPU、NPU、XPU等異構加速器構建跨平臺評測體系后指出，VLA模型推理通常分為前段視覺語言模型骨干網絡和后段動作生成執行環節，前段更受算力約束，而后段更受內存約束，這使得單純提升計算單元峰值性能難以線性轉化為端到端控制性能[4]。

因此，在具身智能端側部署中，芯片層的瓶頸除計算單元數量不足外，更主要地受制于動作生成過程中的內存帶寬限制和數據傳輸能力約束。即使芯片理論峰值算力持續提升，若數據傳輸能力無法支撐VLA模型高頻動作生成的數據搬運需求，具身智能系統也難以獲得與算力提升相匹配的端到端性能收益。上述研究表明，判斷具身智能芯片性能時，應從傳統的TOPS、FLOPS或每瓦算力等算力指標，轉向對端到端任務執行能力的綜合評估，包括生成階段帶寬利用率、數據傳輸能效、端到端延遲和控制輸出穩定性等指標。

通用計算工作流難以適配高頻物理控制需求

在具身智能系統研發和早期部署中，部分研究平臺和企業產品復用車載智算平臺等成熟的邊緣AI計算平臺，以降低硬件開發和軟件適配成本。這類平臺能夠在早期支撐具身智能體視覺感知、環境理解和輕量級決策任務，但隨著VLA模型動作生成環節任務的加重，傳統通用計算平臺的串行化工作流，逐漸出現與具身控制任務低時延、高頻閉環和連續動作輸出需求不匹配的問題。

圖1 傳統具身智能體計算與控制系統工作流

一方面，目前具身智能體的計算與控制系統仍以如圖1所示的按幀離散處理方式為主，包含傳感器采集、數據預處理、視覺/多模態感知、VLA/大模型推理、動作解碼/規劃、控制指令下發并重復下一幀的閉環過程，會導致推理延遲直接體現在控制延遲上。該模式的優點是有利于算法開發的便捷性，但并不完全符合具身智能體運動控制的連續性要求。這是由于具身智能體運動控制是連續軌跡和實時反饋構成的動態過程，若每一幀都依賴模型進行完整推理，將大幅浪費計算資源，并增加端到端延遲。Huang等指出，現有具身AI計算系統往往基于算法開發者習慣進行設計，將機器人動作按離散幀進行處理，產生較高延遲和能耗。該團隊提出將LLM推理、機器人控制與數據通信解耦的方法，并由單幀動作預測轉向近未來軌跡預測，可將LLM推理頻率降低逾5倍，實現最高5.9倍端到端加速[3]。

另一方面，VLA模型的動作生成環節的細粒度解碼機制會放大串行工作流的延遲積累效應。由于VLA模型輸出的是連續可執行動作而非單一類別標簽或文本結果，現有基于動作分塊的擴散或流匹配策略在增強復雜動作序列表達能力的同時，仍受限于迭代去噪或逐塊生成的順序依賴性，導致推理延遲易在串行工作流中累積。Black等指出，VLA等通用模型的高推理延遲已成為具身智能體實時控制的重要挑戰，并提出Real-Time Chunking（RTC）方法，在執行當前動作塊的同時異步生成下一動作塊，以降低延遲對控制連續性的影響[5]。

因此，具身智能芯片不能簡單沿用面向通用AI模型設計的芯片架構，而需要圍繞具身智能體任務的連續軌跡、動作預測和實時反饋特點進行綜合優化。未來芯片架構應聚焦于保障動作生成數據流的連續性、控制任務的確定性、細粒度算子的高效執行，以及異步任務調度能力，防止上層大模型推理與底層物理控制之間產生系統延遲積累或出現控制中斷。

多模態輸入輸出與共享內存架構形成資源爭用

具身智能系統的計算任務不僅包含模型推理過程，而是由多模態傳感、數據預處理、特征融合、語義推理、動作生成和運動控制共同構成的復雜任務。具身智能體需要在運動中持續接收視覺、位姿、慣性、力覺、觸覺等多源數據，并將其轉化為可供模型理解和控制系統調用的統一狀態表達。而在典型邊緣SoC架構中，CPU、GPU、NPU、圖像信號處理器、傳感器接口和通信模塊通常共享片外內存通道、片上緩存和互聯資源。當多源傳感數據持續寫入、VLA模型頻繁訪問權重與中間狀態、控制任務按固定周期下發指令時，不同任務流會在統一內存和共享互聯架構下形成資源競爭。因此具身基礎模型在邊緣側部署面臨著內存流量、計算延遲、時序波動和安全裕度共同耦合的系統問題[1]。前面所述的VLA邊緣性能測試研究結果也進一步說明，端側部署瓶頸并非僅由芯片峰值算力決定，還需要結合內存訪問、數據傳輸和硬件利用率等因素綜合分析[2,4]。

同時，這一資源競爭會進一步影響控制系統的穩定性。對于具身智能系統而言，傳感數據采集、模型狀態更新和控制指令下發三個環節間的時間延遲都會影響控制系統的時間一致性，進而影響機械臂操作、移動避障和姿態平衡等運控過程的穩定性。關于邊緣與云端的協同策略，Pohland等研究的測試結果表明，具身智能系統需在邊緣計算能力與云端卸載間進行權衡，較小的邊緣算力水平難以保障具身智能體完成任務執行，而較高的邊緣算力水平雖能支撐推理但功耗顯著增加，會加快電池耗盡速度。通過云端計算能夠緩解邊緣端計算壓力，但網絡延遲和傳輸帶寬的約束將影響任務執行的準確率[6]。

綜上所述，具身智能芯片的硬件瓶頸不僅體現為算力性能不足，更突出表現為多模態數據流與模型權重在統一內存架構下的資源爭用。這要求芯片架構設計重點關注多模態I/O調度、片上緩存復用、傳感數據近端處理、異構計算單元協同及控制流確定性保障等系統級優化。

面向具身智能邊緣部署的芯片架構發展趨勢

通過第2章的分析，可以發現VLA模型在邊緣側部署時面臨的瓶頸并非僅源于芯片峰值算力不足，而是內存帶寬壓力、通用計算工作流與控制需求錯配、數據傳輸資源爭用等因素共同構成。針對這一系統性問題，僅依靠具身模型參數壓縮或通用計算芯片算力提升，難以充分改善端到端執行效率，需推進芯片面向具身智能應用設計專用計算架構，對計算單元組織、存儲互聯和感知前端進行系統重構。

具體來看，VLA模型將具身智能芯片的任務范圍擴展至連續動作生成、狀態更新和實時控制輸出，對芯片提出低延遲、高帶寬、高能效和實時性約束的綜合要求。圍繞上述要求，具身智能芯片架構需沿三個方向發展：一是面向動作生成的協同計算架構，二是片上數據流優化的存儲互聯架構，三是前端智能感知架構。

面向動作生成的協同計算架構

現有邊緣AI芯片大多采用CPU、GPU、NPU等異構計算單元協同的SoC架構，主要面向視覺識別、目標檢測、語義分割、語音識別等典型AI推理任務進行優化。這類架構通常以矩陣乘法、卷積計算和Transformer算子加速為重點，追求單位功耗下的模型吞吐能力和峰值算力表現。但在具身智能場景中，任務由視覺語言理解、動作生成、狀態更新和控制指令輸出等多個環節共同構成。芯片不僅需要處理大規模神經網絡推理，還需要支撐動作序列生成、控制指令下發等連續性任務。因此，通用邊緣AI芯片所強調的單次推理吞吐能力，難以完全適配VLA模型驅動下的具身智能工作負載。

從模型執行過程看，VLA模型內部不同階段對芯片資源的需求存在明顯差異。Zhou等人在跨XPU平臺的研究中指出，VLA推理前段視覺語言理解主要受計算能力限制、后段動作生成主要受內存限制[4]。這一結論表明，具身智能芯片不能簡單提高GPU或NPU的峰值算力，而是要根據VLA模型不同階段的負載特征，配置更加細粒度的協同計算架構。英偉達VLA模型GR00T N1采用雙系統架構，視覺語言模塊負責環境理解、擴散Transformer模塊負責實時動作生成[7]，為芯片架構的模塊化設計提供了模型層面的依據。基于上述模型架構特征推斷，未來具身智能芯片可能從傳統“CPU+GPU/NPU”的異構架構，向“環境推理單元+動作生成單元+實時控制單元”的協同計算架構發展。

從動作生成機制的技術發展路徑看，傳統VLA模型通常將具身智能體動作離散化為動作詞元，并采用類似語言模型的自回歸方式逐步生成動作序列。這種方式試圖復用大語言模型的訓練和推理經驗，但會導致動作生成環節并行運行難度高，影響高頻控制穩定性[8]。為緩解這一問題，Moo Jin Kim等提出了一種基于OpenVLA模型的優化微調方法，通過將并行解碼、動作分塊和連續動作生成整合為優化微調方案，可在提升任務成功率的同時顯著提高動作生成吞吐能力[9]。PI公司提出一種基于流匹配的連續動作生成架構，使模型能夠在預訓練視覺語言模型基礎上輸出面向復雜靈巧操作的連續動作軌跡[10]。這些研究表明，VLA模型的動作生成方式正在從離散自回歸，向動作分塊、并行解碼和連續動作表示等方向演進。

綜上，面向VLA模型的具身智能芯片，不能再簡單沿用傳統大語言模型邊緣AI芯片以峰值算力和通用推理吞吐量為核心的設計邏輯，而應圍繞視覺語言理解、動作生成和控制輸出三個環節，構建能夠協同處理矩陣計算、狀態更新、動作序列生成與調度、實時控制的新型協同計算架構。

片上數據流優化的存儲互聯架構

在VLA模型由語義推理進一步延伸至動作生成和控制輸出后，具身智能芯片面臨的關鍵約束從單純的算力供給轉向數據能否持續、低延遲、高效率地供給計算單元。若僅依賴片外內存，具身智能芯片將難以在模型權重、中間激活、多模態輸入、歷史狀態、動作序列和控制結果等多個模塊之間維持數據的頻繁傳輸，因此芯片架構優化不能僅關注內存帶寬提升，還應進一步圍繞片上緩存、數據流組織、片上互聯和狀態復用能力進行系統設計。

因此，具身智能芯片需在存儲互聯架構上進行優化升級。一是強化片上緩存和局部數據復用能力。VLA模型在連續執行過程中具有明顯的時間相關性，當前觀測、歷史狀態和歷史動作token之間存在較強復用關系。若芯片能夠通過片上SRAM保存高頻訪問數據，并將跨請求狀態下的碎片化內存操作融合為密集計算，可有效減少動作生成階段對片外內存的重復訪問。Dai等提出ActionFlow推理框架，通過跨請求流水線機制將歷史請求的內存密集型Decode階段與當前請求的計算密集型Prefill階段在時序上重疊執行，有效提升了VLA模型的控制回路頻率[11]。二是優化片上互聯與多模塊數據交換路徑。具身智能芯片需要同時支撐傳感器接入、圖像預處理、視覺編碼、語言推理和動作生成，這一并發交換過程需要高效的片上傳輸通道和共享緩存機制，以提升CPU、NPU、GPU、ISP和控制單元之間的數據傳輸效率。三是優化數據流配置和提升近存計算能力。Raha等人針對DNN加速器的研究發現，從能耗角度而言，數據傳輸成本遠高于計算成本[12]。Boroumand等對谷歌邊緣TPU的研究也發現，該加速器在實際運行中存在實際吞吐量遠低于峰值吞吐量、實際能效遠低于理論峰值能效、內存系統成為能耗和性能瓶頸等問題[13]。VLA模型雖以Transformer架構為主，但其視覺編碼器在處理高維視覺特征時同樣面臨數據復用與內存訪問優化問題，且LLM推理中的KV緩存管理與數據復用問題，與上述研究揭示的內存瓶頸和數據流優化需求本質相通。因此，未來具身智能芯片需要通過優化數據流配置、近存計算等方法，提高不同任務階段的數據傳輸效率。

綜上，VLA模型的邊緣部署使具身智能芯片架構設計更加聚焦數據供給效率和狀態復用能力。未來具身智能芯片不僅需要具備高算力，還需要保障視覺編碼、語言推理和動作生成所需的數據能夠以更低延遲、更低能耗在芯片內部穩定流動，從而在邊緣側受限環境中保障VLA模型的實時推理。

前端智能傳感器架構

除計算架構和數據互聯架構設計外，具身智能芯片的另一重要發展方向是將部分感知計算從主計算核心前移至傳感器或傳感接口側，形成前端智能傳感器。具身智能體通常需要同時接入視覺、深度、位姿、慣性、力覺、觸覺、語音等多源傳感數據，原始數據直接上載將帶來沉重的片外帶寬與計算負擔。因此，未來具身智能系統需推動傳感器從被動數據采集器向具備事件感知、數據篩選和初級特征提取能力的前端計算節點演進。

多模態傳感數據規模的持續增長使這一方向更具緊迫性。對于具身智能系統而言，視覺傳感器是數據量最大的輸入來源，原始像素數據流對片外帶寬形成主要壓力；IMU和觸覺陣列等傳感器雖數據量相對有限，但其高頻特性對實時處理鏈路提出低延遲要求。若這些數據全部依賴主計算芯片處理，將進一步加劇片外帶寬壓力并消耗VLA模型推理所需的存儲與計算資源。因此，在數據源頭進行篩選和壓縮，而非將所有原始數據集中到主芯片處理，成為提升系統效率的關鍵路徑。相關研究已從感知-運動-通信協同優化角度展開探索，如Guo等提出邊緣機器人場景下依據感知場景變化和運動狀態動態調整傳輸頻率、壓縮比及發射功率的策略，減少過量傳感器數據上傳需求[14]。

前端智能傳感器架構的核心，是在傳感器或近傳感接口側完成低層數據處理。傳統傳感器主要負責將物理信號轉換為數字數據，再由主計算芯片完成數據處理。相比之下，智能傳感器可在本地完成部分信號處理，僅將篩選后的狀態信息、事件信息或低維狀態表征傳遞給主計算核心。Datta等的研究表明，圖像傳感與下游處理之間的數據傳輸會帶來顯著帶寬開銷，并提出面向圖像識別任務的脈沖神經網絡傳感器內計算方法，在基礎配置下將感知與計算環節間的帶寬降低12倍，在通道縮減配置下最高可降低96倍[15]。

從系統架構看，前端智能傳感器架構并非替代主計算芯片，而是通過分層處理降低主計算芯片負擔。傳感器側主要承擔低層、局部、實時性強的數據處理任務，主計算芯片則聚焦多模態融合、語義理解、復雜推理、動作生成和控制決策等高層任務。通過這種分層架構，主計算芯片接收的數據從全部原始像素流轉變為經過篩選和壓縮后的低維狀態表征，從而減少數據搬運和冗余計算開銷，提高端側VLA模型的執行效率。

結論與展望

本文圍繞VLA模型在具身智能邊緣側部署中的芯片技術瓶頸與架構發展趨勢展開研究。研究表明，VLA模型邊緣部署的關鍵約束并不僅是峰值算力不足，更源于VLA工作負載與現有邊緣AI芯片架構之間的結構性錯配。動作生成環節的時序依賴性、多模態數據流的高頻并發訪問，以及原始傳感輸入對片外帶寬的占用，共同構成了計算、存儲與感知三個維度的協同瓶頸。因此，具身智能芯片的發展重點不應停留在通用AI推理算力增強，而應轉向計算核心、存儲互聯和感知前端三個層面的系統級協同重構。

針對上述問題，本文從芯片系統視角分析了VLA模型端側執行中的三類典型瓶頸。其一，動作生成環節的強時序依賴和頻繁數據訪問，使內存帶寬和數據傳輸效率成為影響端到端性能的重要因素。其二，傳統邊緣計算平臺多沿用面向視覺識別的串行執行工作流，難以充分適配具身智能系統對高頻控制與連續動作輸出的要求。其三，多模態傳感輸入、模型狀態更新和控制信號下發在共享存儲與互聯架構中形成資源競爭，使端側部署問題從單純的算力性能范疇擴展為計算、存儲、互聯和感知之間的系統性協同挑戰。上述分析說明，具身智能芯片不能簡單沿用以TOPS、FLOPS或單次推理吞吐為核心的傳統性能評價和設計體系，而需面向真實具身智能感控任務重新設計專用芯片架構。

在此基礎上，本文歸納了面向具身智能邊緣部署的芯片架構發展方向。在計算架構層面，芯片需從通用異構計算架構轉向面向動作生成的協同計算架構，圍繞視覺語言理解、動作生成和實時控制配置細粒度計算資源，實現大模型推理、狀態更新和低延遲控制輸出的并行支撐。在存儲互聯層面，芯片需從依賴片外帶寬擴展轉向片上數據流優化，通過緩存復用、狀態保持、高速片上互聯與近存計算等手段，提升動作生成和多模態推理的數據供給效率。在感知前端層面，芯片系統需從集中式原始數據處理轉向感算一體架構，通過傳感器側預處理與特征提取，從源頭降低主芯片的帶寬與計算負載。這三個層面的協同演進表明，具身智能芯片架構的發展并不僅是算力提升，而是圍繞動作生成、數據傳輸與感知輸入形成的系統級重構。

未來，面向具身智能的芯片研究仍需在以下方面深化。一是加強VLA工作負載與芯片架構的協同設計，圍繞動作分塊、連續動作生成等需求，探索更適合動作生成的計算單元與緩存結構。二是突破存儲互聯和數據流瓶頸，研究高帶寬存儲、近存計算與數據流優化的協同方法，以支撐連續狀態更新和多模態特征訪問。三是推進智能傳感器與主計算芯片的協同架構，通過事件驅動感知和傳感器內計算，減少低價值原始數據對主計算核心的帶寬與能耗壓力。

總體而言，隨著VLA模型逐步從實驗室驗證走向物理世界、移動平臺和工業終端，具身智能芯片將從傳統邊緣AI推理平臺，演進為支撐物理世界智能體實時行動的關鍵底座。這一躍遷的本質，是芯片設計從單一性能指標導向，轉向面向具身任務的原生架構構建。

[1]Grover U, Ranjan R, Mao M, et al. Embodied foundation models at the edge: A survey of deployment constraints and mitigation strategies[J]. arXiv preprint arXiv:2603.16952, 2026.

[2]Vishwanathan M, Subramanian S, Raghunathan A. Characterizing VLA Models: Identifying the Action Generation Bottleneck for Edge AI Architectures[J]. arXiv preprint arXiv:2603.02271, 2026.

[3]Huang Y, Hao Y, Yu B, et al. Dadu-corki: Algorithm-architecture co-design for embodied ai-powered robotic manipulation[C]//Proceedings of the 52nd Annual International Symposium on Computer Architecture. 2025: 327-343.

[4]Zhou K, Chen Q, Peng D, et al. Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment[J]. arXiv preprint arXiv:2604.24447, 2026.

[5]Black K, Galliker M, Levine S. Real-time execution of action chunking flow policies[J]. Advances in Neural Information Processing Systems, 2026, 38: 33383-33407.

[6]Pohland S, Foukas X, Ananthanarayanan G, et al. Offload or Overload: A Platform Measurement Study of Mobile Robotic Manipulation Workloads[J]. arXiv preprint arXiv:2603.18284, 2026.

[7]Bjorck J, Casta?eda F, Cherniadev N, et al. Gr00t n1: An open foundation model for generalist humanoid robots[J]. arXiv preprint arXiv:2503.14734, 2025.

[8]Lin J, Taherin A, Akbari A, et al. Vote: vision-language-action optimization with trajectory ensemble voting[J]. arXiv preprint arXiv:2507.05116, 2025.

[9]Kim M J, Finn C, Liang P. Fine-tuning vision-language-action models: Optimizing speed and success[J]. arXiv preprint arXiv:2502.19645, 2025.

[10]Black K, Brown N, Driess D, et al. π0: A Vision-Language-Action Flow Model for General Robot Control[J]. arXiv preprint arXiv:2410.24164, 2024.

[11]Dai Y, Gu H, Wang T, et al. ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge[J]. arXiv preprint arXiv:2512.20276, 2025.

[12]Raha A, Mathaikutty D A, Kundu S, et al. FlexNPU: A dataflow-aware flexible deep learning accelerator for energy-efficient edge devices[J]. Frontiers in High Performance Computing, 2025, 3: 1570210.

[13]Boroumand A, Ghose S, Akin B, et al. Google neural network models for edge devices: Analyzing and mitigating machine learning inference bottlenecks[C]//2021 30th International Conference on Parallel Architectures and Compilation Techniques (PACT). IEEE, 2021: 159-172.

[14]Guo D, Jin X, Wang S, et al. Learning to Optimize Edge Robotics: A Fast Integrated Perception-Motion-Communication Approach[J]. IEEE Wireless Communications Letters, 2026, 15: 265-269.

[15]Datta G, Liu Z, Abdullah-Al Kaiser M, et al. In-sensor & neuromorphic computing are all you need for energy efficient computer vision[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.

本文作者：

李毅豐中國電子信息產業發展研究院集成電路研究所

夏夢陽中國電子信息產業發展研究院集成電路研究所

種丹丹中國電子信息產業發展研究院集成電路研究所

閱讀更多內容，歡迎訂購《機器人產業》雜志。

點擊跳轉！圈內人都在看的專家觀點

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.