![]()
隨著以視覺(jué)為中心的大語(yǔ)言模型轉(zhuǎn)向設(shè)備端部署,僅用原始TOPS來(lái)衡量性能已經(jīng)不夠。架構(gòu)需要圍繞真實(shí)工作負(fù)載、內(nèi)存行為和持續(xù)利用率來(lái)構(gòu)建,尤其是在邊緣場(chǎng)景。
過(guò)去十年,大多數(shù)邊緣AI芯片都是為了極其出色地完成一項(xiàng)工作而構(gòu)建的:運(yùn)行卷積網(wǎng)絡(luò)來(lái)進(jìn)行圖像分類、檢測(cè)和基本分割。隨著多模態(tài)模型從研究階段進(jìn)入商業(yè)邊緣系統(tǒng),這種設(shè)計(jì)思路正變得不再充分。
視覺(jué)大語(yǔ)言模型在單一管道中融合了感知、語(yǔ)義和推理能力。它們可以理解場(chǎng)景,回答關(guān)于所見(jiàn)內(nèi)容的問(wèn)題,總結(jié)跨時(shí)間的事件,并越來(lái)越多地幫助決定下一步該做什么。攝像頭、車輛、工業(yè)系統(tǒng)和醫(yī)療平臺(tái)越來(lái)越多地要求在本地而非完全在云端實(shí)現(xiàn)這些能力。
在設(shè)備上運(yùn)行這些模型具有明顯優(yōu)勢(shì)。本地推理可以降低延遲,改善隱私保護(hù),并減少對(duì)網(wǎng)絡(luò)連接和云推理成本的依賴。但這也打破了第一代邊緣加速器背后的許多假設(shè)。
內(nèi)存而非算力成為瓶頸
乍一看,在邊緣運(yùn)行視覺(jué)大語(yǔ)言模型似乎是一個(gè)簡(jiǎn)單的擴(kuò)展問(wèn)題:采用現(xiàn)有的NPU或GPU,增加更多計(jì)算和內(nèi)存。但實(shí)際上,團(tuán)隊(duì)很快發(fā)現(xiàn)瓶頸往往是內(nèi)存流量和利用率,而不是理論算術(shù)吞吐量。
第一個(gè)問(wèn)題是模型規(guī)模。現(xiàn)代基于Transformer的系統(tǒng)以數(shù)十億參數(shù)來(lái)衡量,多模態(tài)系統(tǒng)還增加了視覺(jué)前端,將圖像或視頻轉(zhuǎn)換為Token供下游推理使用。結(jié)果是龐大的權(quán)重占用、大量激活值以及不斷增長(zhǎng)的鍵值狀態(tài),所有這些都增加了內(nèi)存容量和內(nèi)存帶寬壓力。
第二個(gè)問(wèn)題是注意力機(jī)制。底層的縮放點(diǎn)積注意力機(jī)制隨上下文大約呈二次方增長(zhǎng),這意味著更長(zhǎng)的提示、更豐富的多模態(tài)上下文和更大的Token數(shù)量會(huì)迅速壓垮邊緣內(nèi)存子系統(tǒng)。即使峰值計(jì)算在紙面上看起來(lái)足夠,許多系統(tǒng)也會(huì)因?yàn)閿?shù)據(jù)移動(dòng)成為實(shí)際限制而停滯。
第三個(gè)問(wèn)題是工作負(fù)載的不規(guī)則性。視覺(jué)大語(yǔ)言模型不僅僅是附加了圖像的Transformer。它們結(jié)合了視覺(jué)編碼器、Transformer層、前饋塊、歸一化、向量操作和輸出頭,所有這些都具有不同的形狀和重用模式。在對(duì)現(xiàn)代多模態(tài)圖的內(nèi)部評(píng)估中,在孤立基準(zhǔn)測(cè)試中看起來(lái)高效的模型,一旦啟用更長(zhǎng)的上下文和完整的視覺(jué)管道,往往會(huì)顯示出較差的利用率。
三層優(yōu)化方法
Expedera的視覺(jué)大語(yǔ)言模型研究中一個(gè)更有用的結(jié)論是,邊緣部署必須在三個(gè)層面進(jìn)行優(yōu)化:模型架構(gòu)、系統(tǒng)級(jí)調(diào)度和專用硬件支持。這種框架很重要,因?yàn)樗鼘⒂懻搹膯涡酒鉀Q方案思維轉(zhuǎn)向軟硬件協(xié)同設(shè)計(jì)。
在模型層面,團(tuán)隊(duì)可以考慮混合或非Transformer設(shè)計(jì)、蒸餾變體以及以較低成本保留關(guān)鍵能力的具身智能體模型等替代方案。在軟件層面,量化、FlashAttention等分塊方法以及推測(cè)解碼有助于減少內(nèi)存壓力并改善延遲。但如果底層架構(gòu)仍然假設(shè)規(guī)則的層行為和逐層執(zhí)行,這些技術(shù)只能起到有限作用。
這就是專用硬件支持變得重要的地方。正確的加速器不僅需要根據(jù)峰值吞吐量進(jìn)行評(píng)估,還要根據(jù)它在真實(shí)多模態(tài)圖上維持利用率的能力以及控制外部?jī)?nèi)存流量的能力進(jìn)行評(píng)估。
傳統(tǒng)NPU的局限性
當(dāng)今現(xiàn)場(chǎng)的許多NPU都是圍繞以CNN為主的邊緣視覺(jué)現(xiàn)實(shí)而設(shè)計(jì)的。隱含地,它們假設(shè)相對(duì)規(guī)則的層形狀、可預(yù)測(cè)的分塊行為以及權(quán)重、激活值和片上內(nèi)存之間的可管理平衡。
這些假設(shè)在視覺(jué)大語(yǔ)言模型工作負(fù)載上崩潰了。嚴(yán)格的逐層執(zhí)行往往會(huì)更頻繁地將激活值溢出到外部?jī)?nèi)存,當(dāng)圖在視覺(jué)編碼、注意力、前饋和向量密集型操作之間交替時(shí),固定的執(zhí)行模式效率較低。隨著上下文窗口增長(zhǎng)和多模態(tài)融合變得更加豐富,鍵值狀態(tài)和激活值移動(dòng)成為功耗和延遲的過(guò)大貢獻(xiàn)者。
這也是為什么峰值TOPS正在成為邊緣性能交付的較弱代理指標(biāo)。如果一個(gè)設(shè)計(jì)在合成基準(zhǔn)測(cè)試上看起來(lái)很強(qiáng),但如果它無(wú)法在工作負(fù)載從一個(gè)階段轉(zhuǎn)移到另一個(gè)階段時(shí)保持局部性和利用率,它在實(shí)際視覺(jué)大語(yǔ)言模型圖上的表現(xiàn)可能仍然很差。
基于數(shù)據(jù)包的架構(gòu)
對(duì)這個(gè)問(wèn)題的一個(gè)回應(yīng)是重新思考硬件中的執(zhí)行單元。Expedera的Origin架構(gòu)采用了這種方法,將其描述為基于數(shù)據(jù)包的AI處理架構(gòu)。
數(shù)據(jù)包是神經(jīng)網(wǎng)絡(luò)的小型、依賴感知片段,它們垂直穿過(guò)圖,而不是強(qiáng)制系統(tǒng)一次處理一個(gè)完整的層。這些數(shù)據(jù)包可以通過(guò)專門的處理資源進(jìn)行路由,以低上下文切換開(kāi)銷重新排序,并在不再需要其激活值時(shí)退出。
這種抽象的變化有幾個(gè)含義。首先,它可以提高持續(xù)利用率,因?yàn)橛布惶蕾囉诿恳粚佣计ヅ淅硐氲膱?zhí)行形狀。其次,它可以通過(guò)允許更早地消耗和退出中間數(shù)據(jù)來(lái)減少昂貴的外部?jī)?nèi)存移動(dòng)。第三,數(shù)據(jù)包化不會(huì)改變模型的底層數(shù)學(xué),因此它被定位為執(zhí)行策略而不是網(wǎng)絡(luò)精度或模型語(yǔ)義的改變。
視覺(jué)大語(yǔ)言模型作為壓力測(cè)試
視覺(jué)大語(yǔ)言模型是任何加速器的良好壓力測(cè)試,因?yàn)樗鼈儗⒍喾N計(jì)算特性組合到單一推理路徑中。典型的管道從視覺(jué)編碼開(kāi)始,進(jìn)入具有注意力和前饋層的多模態(tài)推理,并以輸出生成或動(dòng)作選擇結(jié)束。
這些階段對(duì)硬件的要求并不相同。視覺(jué)前端重用了邊緣視覺(jué)中熟悉的模式,但推理路徑引入了與大語(yǔ)言模型相關(guān)的序列密集型、緩存密集型行為。輸出和融合階段通常依賴于向量和支持操作,這些操作在僅針對(duì)密集矩陣數(shù)學(xué)調(diào)優(yōu)的硬件上服務(wù)不足。
基于數(shù)據(jù)包的架構(gòu)非常適合這種異構(gòu)性,因?yàn)樗梢酝ㄟ^(guò)專門的前饋、注意力和向量塊路由工作,而不是強(qiáng)制每個(gè)階段使用相同的執(zhí)行模型。更廣泛地說(shuō),它反映了一個(gè)可能超越任何一個(gè)供應(yīng)商的設(shè)計(jì)原則:以與現(xiàn)代多模態(tài)圖實(shí)際執(zhí)行方式相匹配的粒度表示工作。
評(píng)估標(biāo)準(zhǔn)需要演進(jìn)
對(duì)于SoC架構(gòu)師和軟件團(tuán)隊(duì)來(lái)說(shuō),可以得出幾個(gè)結(jié)論。首先是評(píng)估標(biāo)準(zhǔn)需要演進(jìn)。峰值TOPS和TOPS/W仍然有用,但它們應(yīng)該由特定工作負(fù)載的度量來(lái)補(bǔ)充,例如持續(xù)利用率、外部?jī)?nèi)存事務(wù)以及真實(shí)視覺(jué)大語(yǔ)言模型圖上的尾部延遲。
其次是硬件靈活性比以往任何時(shí)候都更重要。架構(gòu)應(yīng)該針對(duì)包括傳統(tǒng)CNN、基于Transformer的大語(yǔ)言模型、擴(kuò)散管道和更新的多模態(tài)模型在內(nèi)的組合進(jìn)行測(cè)試,因?yàn)檫吘壆a(chǎn)品在其生命周期內(nèi)將越來(lái)越需要支持所有這些。
第三是硬件和軟件不能再被視為獨(dú)立的交付物。例如,Expedera的堆棧包括編譯器、估算器、調(diào)度器和量化器,以及核心NPU架構(gòu),強(qiáng)化了更廣泛的教訓(xùn),即高效的視覺(jué)大語(yǔ)言模型部署依賴于端到端的協(xié)同設(shè)計(jì)。
工作負(fù)載優(yōu)先的思維方式
視覺(jué)大語(yǔ)言模型將繼續(xù)向邊緣移動(dòng),因?yàn)楫a(chǎn)品價(jià)值太強(qiáng)大而無(wú)法忽視。能夠理解所見(jiàn)內(nèi)容、對(duì)本地上下文進(jìn)行推理并在不將所有內(nèi)容發(fā)送到云端的情況下做出響應(yīng)的設(shè)備將提供更好的延遲、更強(qiáng)的隱私保護(hù),并且通常具有更低的運(yùn)營(yíng)成本。
因此,核心硬件問(wèn)題不再是在給定的功耗和面積預(yù)算內(nèi)可以容納多少TOPS。而是架構(gòu)是否圍繞真實(shí)的多模態(tài)工作負(fù)載行為構(gòu)建,特別是內(nèi)存移動(dòng)、激活值生命周期、不規(guī)則圖下的利用率以及有效調(diào)度所有這些所需的軟件。
像Expedera基于數(shù)據(jù)包的Origin NPU這樣的架構(gòu)指向了一個(gè)可能的答案:以現(xiàn)代神經(jīng)網(wǎng)絡(luò)實(shí)際執(zhí)行的方式表示工作,然后圍繞這一現(xiàn)實(shí)構(gòu)建計(jì)算、內(nèi)存和軟件。對(duì)于構(gòu)建下一代邊緣芯片的團(tuán)隊(duì)來(lái)說(shuō),這種工作負(fù)載優(yōu)先的思維方式可能比任何單一的峰值性能數(shù)字更重要。
Q&A
Q1:視覺(jué)大語(yǔ)言模型在邊緣設(shè)備部署時(shí)面臨的主要瓶頸是什么?
A:主要瓶頸是內(nèi)存流量和利用率,而不是理論算術(shù)吞吐量。具體包括三個(gè)問(wèn)題:一是模型規(guī)模龐大,權(quán)重占用、激活值和鍵值狀態(tài)都增加了內(nèi)存壓力;二是注意力機(jī)制隨上下文呈二次方增長(zhǎng),會(huì)壓垮邊緣內(nèi)存子系統(tǒng);三是工作負(fù)載不規(guī)則,結(jié)合了視覺(jué)編碼器、Transformer層、前饋塊等不同形狀和重用模式的組件,導(dǎo)致利用率較差。
Q2:為什么峰值TOPS不再是衡量邊緣AI硬件性能的充分指標(biāo)?
A:因?yàn)橐曈X(jué)大語(yǔ)言模型的工作負(fù)載特性已經(jīng)改變。傳統(tǒng)NPU假設(shè)規(guī)則的層形狀和逐層執(zhí)行,但視覺(jué)大語(yǔ)言模型在視覺(jué)編碼、注意力、前饋和向量操作之間交替,工作負(fù)載不規(guī)則。一個(gè)在合成基準(zhǔn)測(cè)試上峰值TOPS很高的設(shè)計(jì),如果無(wú)法在工作負(fù)載轉(zhuǎn)換時(shí)保持局部性和利用率,在實(shí)際多模態(tài)圖上的表現(xiàn)可能很差。評(píng)估標(biāo)準(zhǔn)應(yīng)該包括持續(xù)利用率、外部?jī)?nèi)存事務(wù)和尾部延遲等指標(biāo)。
Q3:Expedera的基于數(shù)據(jù)包的架構(gòu)有什么特點(diǎn)?
A:這種架構(gòu)將神經(jīng)網(wǎng)絡(luò)分解為小型、依賴感知的數(shù)據(jù)包片段,讓它們垂直穿過(guò)圖,而不是逐層處理。數(shù)據(jù)包可以通過(guò)專門的前饋、注意力和向量塊進(jìn)行路由,以低開(kāi)銷重新排序,并在激活值不再需要時(shí)退出。這樣可以提高持續(xù)利用率,減少外部?jī)?nèi)存移動(dòng),同時(shí)不改變模型的底層數(shù)學(xué)。它反映了以現(xiàn)代多模態(tài)圖實(shí)際執(zhí)行方式來(lái)表示工作的設(shè)計(jì)原則。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.