出品 | 網易智能
作者 | 小小
編輯 | 王鳳枝
全球近四千萬軟件工程師,一年薪水三萬億美元。AI讓他們產出增加到九萬億。
6月1日,中國臺北。英偉達CEO黃仁勛發表演講,他開場說這里有“世界上最豐富的供應鏈生態系統”。但沒等暖場結束,他就切入了真正的正題:有用的AI來了。
他算的賬來自軟件領域。全球約三千萬到四千萬專業開發者,薪資價值約三萬億美元,而AI正在把這部分人力的產出推向數倍增長。黃仁勛想證明的不是AI會簡單替代程序員,而是當單位人力產出大幅提升,企業會更愿意擴大開發能力。
由此,他拋出了整場演講的關鍵判斷:Token正在成為收入和利潤單位。AI公司要生產更多Token,就需要更多AI工廠;而AI工廠的效率,取決于芯片、網絡、存儲、電力、冷卻和軟件的整體協同。
這背后的計算模式也在變化。過去的AI是模型,你問它答;現在的AI是Agent,它有模型作為大腦,有編排系統作為身體,還能調用軟件工具、管理記憶、執行任務。為了運行這種系統,英偉達推出Vera Rubin,把GPU、Vera CPU、NVLink、BlueField、安全、存儲和網絡整合成面向Agent的多機架計算平臺。
在企業側,英偉達推出Agent工具包和Nemotron 3 Ultra,希望讓公司能基于開放模型、訓練數據、編排系統和工具鏈構建自己的“數字員工”。在個人端,它與微軟合作,四十年來首次重塑PC,推出RTX Spark,讓本地電腦也能運行個人Agent。
演講最后,黃仁勛把這套邏輯延伸到物理世界:自動駕駛、人形機器人和物理AI也會成為Agentic AI的重要場景。
這場演講真正想說的是:Agent正在重新定義計算,Token正在重新定義商業模型,而英偉達想成為從云端AI工廠到個人電腦、機器人和汽車的全棧基礎設施公司。
![]()
以下為黃仁勛演講全文:
很高興見到大家。回家真好!
我帶了父母回來,請用掌聲歡迎我的爸爸媽媽。為我們的暖場巨星鼓掌,女士們先生們,看看他們多可愛,臺灣的超級巨星。
今天來了這么多朋友,我們也正向其他70個國家和地區轉播。各地觀眾都在同步參與,臺灣也有70個不同的會議正在同時收看這場主題演講。
我們有太多事情要告訴各位,有太多合作伙伴要感謝。英偉達在臺灣已經形成了令人難以置信的生態系統。通常人們想到生態系統,會想到軟件堆疊、開發人員,也就是英偉達在運算系統上建立的生態。但英偉達的生態系統跨越所有上游供應商,遍布臺灣的供應鏈,一切從這里開始。下游則延伸至所有數據中心,最終到達用戶手中。
今天,我們要談談這幾乎整個生態系統。這里有如此多的公司,其中不乏我最喜歡的合作伙伴。臺灣擁有世界上最豐富、最棒的供應鏈生態系統,真的令人驚嘆。謝謝大家。
今年我們與企業共同成長,成績斐然。事實上,昨晚有人告訴我,臺灣地區每年的GDP幾乎將成長10%,實在難以置信。
我們有很多事要說。開始吧!
01說AI會減少就業,完全是一派胡言
兩年前我在這里的時候,談到了人工智能如何改變世界,從生成式AI到后續的幾波浪潮。下一波是Agentic AI。而今天可以說,一個巨大且有用的AI,已經到來了。
![]()
這是什么意思呢?
來看看GitHub。最早的AI應用之一就是軟件編碼,這是世界上最有價值的職業領域之一,擁有巨大的生態系統。全球大約有三千萬到四千萬專業軟件開發人員,還有數百萬學生和愛好者,總共大約4000萬人以編寫程序為生。
數據很能說明問題。2023年,代碼提交量是3億次;2024年,4億次;2025年,5億次。到了2026年的頭幾個月,這個數字幾乎增加了兩倍。
這代表什么?這3000萬名軟件開發人員,他們的薪資價值約3萬億美元,并支撐起約100萬億美元的全球產業。現在,相當于3萬億的薪水投入,換來了近3倍的產出,也就是約9萬億美元的生產力。
這組數字的差距非同尋常,而這正是AI的潛力所在。
人們總說AI會減少工作,這完全是誤解。因為產出的價值如此驚人,企業自然會想雇用更多軟件工程師。如果產出曲線是平的,那確實可能會減少招聘。但現在有了如此巨大的價值增長,人們只會想要雇用更多的人。這個趨勢很快會在我們的經濟中體現出來。
所以,第一件事是,有用的AI來了。
從產業的角度來看,這意味著對Token的需求將異常龐大。因為一旦你能創造這樣的價值,你就會想生產更多的Token。同時,Token現在是有利可圖的,它們是能產生收入的基本單位。AI公司想要建立更多的生成式AI工廠來生產Token,這就導致了運算需求的暴漲,也正是臺灣運算需求激增的原因所在。這就是你們如此忙碌、生意如此興隆的緣由。
運算模式已經徹底改變了。
02 Agent將成為終極的分布式運算模式
第一個關鍵想法是,有用的AI已經到來,AI現在是利潤的來源,是GDP的組成部分。而新的運算模式,不僅僅是大型語言模型,而是Agent。今天,我們討論的一切幾乎都建立在這個基礎上。
讓我解釋一下什么是Agent。這將是未來的應用程序形態。
它包含代碼和操作系統,應用程序代碼在其中執行。今天,Agent由一個或多個大語言模型,以及一整套工具組成。這套工具能協助處理企業信息,并進行協調,以完成有成效的工作。Agent需要接收輸入,并理解、觀察、推理、行動,使用各種工具,比如電子表格、網頁瀏覽器、數據處理引擎、數據庫引擎等。
這一切由一個協調中樞來精心安排,它根據上下文理解正在發生的事,推理下一步該做什么,制定行動計劃,并調用企業信息。這個協調路徑由特定軟件執行。
![]()
所以,這基本上就是Agent。它和我們人類一樣,會處理短期記憶、工作記憶和長期記憶,因此記憶管理系統極其重要。整個這套系統,就稱為Agent。其中,大型語言模型負責思考,而協調中樞則像操作系統一樣,把所有東西連接在一起。
這就是全新的計算模型。Agent能做許多驚人的事情,這是一個重大突破。大型語言模型在思考、推理、規劃和使用工具方面的能力已大幅融合提升,我們如今擁有了這些能力來管理記憶、進行協調并使用工具,就能做到了不起的事。
讓我舉幾個例子。這是一個提示,AI生成了相應的代碼。這是輸入,這是輸出,很驚人吧?我們使用的是云端代碼。
另一個例子:輸入指令是“創建一個GIF,英偉達的綠點在黑色散點背景上,臺北101大樓變形為GTC,再輸入兩個2026,變形為NVIDIA AI標志,比散射,向右重復”。這就是提示。下一個例子:有人丟了遙控器的電池夾子,于是輸入需求,AI使用工具建立了一份用于3D打印的CAD檔案。有道理嗎?
這就是新的計算模式。過去我們要啟動一個應用程序,點擊、打字;現在,我們只需要向AI解釋我們的意圖,由AI生成代碼或調用工具,產生我們需要的輸出。未來的計算機,就會像這樣運算。
我們為此努力了兩年,現在它已真正到來。其中一項重大突破,就是工具的使用。
![]()
很多人說,AI來了,生成式AI來了,所有軟件公司都要倒閉。我的看法恰恰相反,因為未來會有數不清的Agent。世界將不再受限于人口數量,而這些Agent會使用比以往更多的工具。這其實對軟件公司來說是不可思議的時代。但關鍵在于,軟件必須以一種Agent能夠使用的方式呈現出來。
這是一項重大突破。大家知道英偉達的寶藏是什么,就是我們所有的CUDA函數庫,稱為CUDA-X函數庫。今天,我們能讓這些函數庫為Agent所用,而且它們使用起來比人類更高效。這對CUDA-X函數庫來說,是一個美妙的時刻。
20年前,我們創建了CUDA,為加速運算提供了單一架構,重塑了上千種運算。CUDA-X函數庫幫助開發者在各個科學與工程領域取得突破。它們現在就是Agent的工具庫,用于光刻運算、購物決策最佳化、直接稀疏求解器等,涵蓋了結構化與非結構化數據、AI訓練、可微分物理、基因組學等諸多領域。這些算法本身就很優美,讓我們為數學鼓掌,數學是美麗的,運算模式也是。
03 Vera Rubin:為Agent而生
讓我們回到Agent這個主題。它是終極的分解式、分布式運算模式。有非常多不同的計算機在同時運算,來處理這個Agent。Agent包含模型、協調中樞、工具、技能和一個運行時環境,所有這些都在數據中心的不同位置執行。
你可以把模型想象成大腦,協調中樞是身體,它在一個車間式的環境里使用工具。每個步驟都在計算機的不同部分運算。你會看到,當大型語言模型進行思考、上下文處理、觀察環境、推理、計劃并行動時,整個機架的Grace Blackwell NVLink系統都會被啟動。每當它使用工具時,就會用到CPU,那可能是C編譯器、Python、JavaScript,也可能是加速運算。
今天的Agent還算是相對簡單的工具使用者,但明天,它們將變得極其復雜。這就是我展示CUDA-X函數庫的原因,Agent將會非常需要它們。它們能解決世界上一些最重要的問題。我們所有的CUDA-X函數庫,現在都將附帶“技能”,相當于一本AI可以學習的操作手冊。對Agent而言,使用這些函數庫的能力將變得難以置信。
在運行中,工具運行在CPU和GPU上,大語言模型也是如此。安全程序運行在獨立的安全處理器上,還有DPU,也就是英偉達的BlueField。而這一切的協調,都在CPU上執行,整個協調中樞都在CPU上統籌工作。
其中一個最棘手的部分就是記憶體。你可以想象工作中的記憶體,也就是我們說的緩存。要記住什么,如何壓縮,如何擷取結構化或非結構化數據,數據之間的關聯是什么……這整個過程極其復雜。AI的記憶體系統,正在導致存儲系統的徹底革新。
你可以看到,運算的每一個層面,都在這種稱為Agent的新應用模式下變得全然不同,應用程序執行一大堆軟件的方式也徹底改變了。這就是為什么我們需要分解式、分布式的異構計算架構。
這正是新一代Vera Rubin的用武之地。Vera是一個CPU,而Rubin雖然始于GPU,但又遠不止于此。Vera Rubin是一個從端到端的整體系統,它擁有GPU、由Vera CPU來統籌,并通過NVLink 72互聯。我要告訴你們更多關于這個系統的細節,它還包括革命性的存儲、CX9網絡,以及名為Doka的軟件堆疊,還內建了安全處理器,確保數據在靜態、傳輸和使用中都全程加密。因為AI模型如此珍貴,整個系統都遵循機密運算的標準。
這其中的每一個系統,本身都是一次徹底革命。Vera Rubin是我們公司歷史上最具雄心的項目,整個公司4000名工程師都在為此努力,更不用說在座各位的參與。Vera Rubin不只是一個芯片,它的內涵要豐富得多。
![]()
多年前,英偉達曾是一家GPU公司,但這些年來,我們已經進化成一家系統公司。你現在看到的是史上最復雜的系統之一。但最終,我們的客戶和合作伙伴想要的不是買一臺計算機,而是建立AI工廠。
這也是英偉達自身再次轉型的原因。你們可以看到,我們的技術如今貫穿在整個基礎設施的各個層面,我們的合作伙伴都是基礎設施規模級的,涵蓋發電機、冷卻系統、電網供應商。最終,我們是在嘗試建立一個完整的堆疊,就像我們過去構建GPU,構建Grace Blackwell NVLink 72機架一樣。現在我們正在構建一個完整的系統堆疊,讓客戶能以此建立驚人的AI基礎設施。
全世界都在競相打造AI工廠,這是人類歷史上最大規模的基礎設施建設。AI工廠復雜得令人難以置信,從芯片、機架、網絡、電源到冷卻系統,每一層都必須從頭開始協同設計,因為在這里,運算能力直接等于收入。
![]()
英偉達的DSX就是為此而生的藍圖,它為最高效率和獲利能力的AI工廠提供了構建和運營的參考設計。從DSX SIM開始,合作伙伴可以借助Omniverse藍圖,在第一個機架落地前,就設計并驗證一個英偉達的AI工廠。他們能在數字孿生里規劃布局、模擬電源和冷卻、設計網絡,并驗證每一項整合測試。
一旦投入運營,DSX OS就會接手,負責操作、監控并修復基礎設施,把已安裝的系統變成可信賴的、多租戶的、有彈性的AI就緒容量。現在很多AI工廠會過度配置高達40%的電源,而我們的DSX Max LPs技術能讓運營商在相同的電力預算下,安全地部署更多GPU,從而增加數十億的年收入。突破性的45°C溫熱液冷技術,使用更少的水和能源,把更多能源導向真正產生營收的運算上。動態電源分配技術可以在機架間引導電力,回收被擱置的瓦數,將電力送到需要的地方,并平滑化峰值電流。
貫穿整個工廠,AI Agent的工作團隊會持續協調、平衡冷卻和電源,以滿足工作負載需求。DSX AI工廠還是一個能與電網靈活協作的資產。它能實時讀取電網信號,動態調整工廠電力,在電網需要緩解時提供支持。在這十年結束前,將有100GW的AI工廠上線。由英偉達DSX驅動的AI工廠,能以最高效率、最低成本生產Token,還能讓電網更強大。
04運算就是收入,選擇錯的架構等于燒錢
過去我向你們展示的生態系統,是英偉達的運算層和軟件堆疊融入第三方平臺,去服務終端市場。那是運算生態。
而現在,我要講的是AI工廠生態。我的上游是在座的各位,下游則是這個生態系統。英偉達不只是在打造GPU或系統,我們正在幫助客戶構建這些極其復雜的AI基礎設施。每一個工廠的規模從起初的200億到300億美元,正發展到500億、600億美元,很快將達到每千兆瓦800億到1000億美元的投資。如此巨大的資本,必須一次建成、一次成功。資本成本高得驚人,復雜程度也一樣。
![]()
如你們所見,我們設計一個芯片,再設計計算機,然后模擬整個系統。如今,一切都是在Omniverse中搭建起來的。我為此研究了很久,這就像是夢想成真。我們現在可以在數字世界、在仿真器中,建造這些只要世界有需要、規模就能達成的巨大系統,并在真正動工前完成驗證。我們把這一切稱為DSX。
如果說RTX是我們的GPU,DGX是我們的系統,那么DSX本質上就是我們為之工作的基礎設施。這就是我們的生態系統,它讓我們能與小型公司合作,并幫助它們成長為世界級的AI云服務商。例如CoreWeave,現在價值五六百、甚至七百億美元,成長驚人。還有最近合作的Mebius,成長速度也令人難以置信。這些云平臺都有著優秀的客戶,比如軟件編碼公司Cursor、圖像生成的Black Forest Labs、世界基礎模型公司World Labs、領先的金融AI公司Revolut,以及Shopify。還有Nscale,客戶包括英國電信和Google。Google正在使用我們的一家AI云端公司Thinking Machines,還有Frontier Labs,非常令人興奮。韓國的Neighborhood Cloud服務著韓國銀行、現代等公司。印度的Yotta、新加坡和印尼的公司,每一家都在服務區域乃至全球的客戶。
AI將會無處不在,每家公司都將由它驅動,每個地區都將構建它。
在臺灣,我們有GMI。請給他們掌聲,這是令人難以置信的公司,代表著不可思議的機遇。
但它們都需要幾樣東西。當然,它們需要最底層的運算堆疊,這正是英偉達的成名領域,我們所有的硬件、軟件、函數庫,以及連接全球第三方生態系統的能力,讓任何人都能建立AI云。但AI云極其復雜,運算技術只是其中一部分,資產與金融層面同樣關鍵。
這就是英偉達能成為世界級AI基礎設施公司的原因。擅長幫助客戶建立并部署AI工廠至關重要,因為運算就是收入,就是利潤,無法產生收入就意味著虧損。當AI基礎設施上線時,它可能很快見效,也可能需要一段時間;吞吐量可能很高,也可能很低;彈性與可靠性更是千差萬別。而它的使用壽命長短,因為這代表著500億到1000億美元的資產,所以性能曲線非常重要。
這正是英偉達和偉大合作伙伴們協作的原因,因為我們提供了完全整合的能力。我們不只提供一張幻燈片,我們構建了整個基礎設施,把每樣東西連接在一起,并自我構建了數十億的規模來確保一切運轉良好。因此,我們拿到第一個Token的時間更短,訓練就緒的時間更快。
其次,我們每瓦產生的Token數量是世界級的。原因在于我們整合一切,從頭開始協同設計,并模擬整個系統,就像我剛才展示的Vera Rubin機架一樣。一切都是按序設計,以提供驚人的吞吐量。如果你的數據中心擁有一千兆瓦的電力,那就只有這么多,每個Token都有利潤,都是收入。這意味著,每瓦效能就等于你的收入。僅僅因為某個芯片便宜而選擇錯誤的架構,毫無意義,你需要確保每瓦運算帶來的收入。瓦數就代表你能買得越多,賺得越多。
第三點,也是至關重要的一點,是可靠性。如果你有機會看到這些數據中心,有數百萬條電纜和無數移動部件,要讓所有計算能力和諧運作、保持高可靠性,是非常困難的。我們已經在大規模運營上深耕了很久,這些經驗至關重要,直接關系到系統平均故障間隔時間的差異。
最后,軟件的演變決定著系統的使用壽命。從幾年前的Hopper時代到現在,AI已經完全改變。我們經歷了CNN,然后是Transformer,再到專家混合模型,如今是Agent系統。每隔幾個月,軟件行業就會出現新技術。如果你的架構不夠靈活,生態系統不夠豐富,資產的生命周期曲線就不可能長。由于全球開發者都在使用英偉達的CUDA,它的使用壽命、生態系統和有用資產將持續得更久。這本質上就是成本差異。你可以把運算看作收入,但收入的另一面是成本。資產壽命越長,總擁有成本就越低,這就是差異所在。
歸根結底就是一句話:買得越多,省得越多。現在,你們所有人都在親身經歷這一點。需求如此之高,你們的所有工廠都在全速運轉,臺灣的每一位員工都在努力工作。因為每個人都意識到,有用的、能盈利的AI已經到來,對運算的需求高得驚人。需求就是我們的制約,所以,讓我們一起超級努力,幫助全世界建立起無處不在的AI工廠。
05 Vera Rubin全面投產
我站在你們面前,非常開心。Vera Rubin現已全面投產。我們為Vera Rubin打造的供應鏈,規模是Grace Blackwell的兩倍。而且現在組裝一個Grace Blackwell機架需要兩小時,而Vera Rubin只需要五分鐘。不僅容量更大,吞吐量也快了很多。我們需要這一切來滿足需求。這個生態系統非同尋常,數百萬平方英尺的廠房已經就緒,為Grace Blackwell和Vera Rubin做準備。我要感謝你們所有人。Vera Rubin現已全面投入生產。
過去,大型語言模型生成答案。現在,AI Agent能夠執行任務。但處理生成式AI是完全不同的問題。Agent需要觀察、推理、計劃和使用工具,他們要處理大量的上下文、工作記憶和長期記憶,還會衍生出子Agent專家。英偉達的Vera Rubin正是一個多機架集群規模的系統,專為處理Agent式AI程序而設計,現已全面投產。整個制造業供應鏈的自動化與協調,堪稱奇跡,見證了我們一路的旅程。
![]()
從我們推出第一臺AI超級計算機DGX-1開始,在過去十年,我們將每個芯片和系統都推向了極限。從Pascal和第一代NVLink,到Grace Blackwell,第一臺機架級AI超級計算機,再到如今的Vera Rubin,第一臺為Agentic時代而生的多機架集群級超級計算機。
一切從臺積電開始。構成Vera Rubin的七顆新芯片需要經過數百道工序。3納米制程,CoWoS-L封裝,來自SK海力士和三星的HBM高帶寬記憶體。Vera Rubin運算板上集成了數萬億個晶體管和超過18,000個元件。Vera Rubin NVLink 72負責處理提示、上下文理解、推理與規劃。接著是全新的模塊化運算托盤,采用全新PCB中板精簡設計,通過超級芯片連接X9超級網卡和BlueField-4 DPU,全程無纜線設計,彈性面向AI工廠規模。18個運算托盤、9個熱處理器、可抽換式NVLink交換機、新的高效率液冷歧管,匯流排承載超過5000安培電流,相當于20輛全力加速的電動汽車的動力總和。超過130萬個元件組成了這第三代MGX機架設計。
祝賀微星,帶來了Vera Rubin NVLink 72工程機架。祝賀戴爾和CoreWeave,以及他們的Vera Rubin NVLink 72工程機架。
接下來是Vera CPU機架,在單一液冷機架中集成256個CPU,負責模型協調和記憶體數據調度,由富士康和廣達推出。Grok 3 LPU初具雛形,256個Grok 3 LPU橫跨16個托架,擁有每秒40PB的SRAM帶寬和超低延遲,能夠以最高吞吐量生成Token,延遲最低。
Vera BlueField-4 ST是AI保存記憶的地方,通過BlueField實現存儲處理加速、記憶體和存儲的連接以及片上安全。還有英偉達Spectrum-X以太網光子學技術,這是全球首款共封裝光學以太網交換機,由臺積電合作制造,在磷化銦上實現了芯片級封裝和超高功率激光模塊。
Vera Rubin,由五個互連的機架規模系統組成的超級計算機,為AI Agent而生。全臺灣150家供應鏈合作伙伴,數百萬平方英尺的廠房,數百個據點,將芯片、系統與數據中心推進到功率與規模的極限。這就是我們所說的極限協同設計。我們與臺灣一起做到了這一點。我們一起為AI時代重塑了運算。臺灣從一開始就和我們在一起,今天也在這里,把Vera Rubin帶給全世界。謝謝臺灣。
![]()
女士們先生們,Vera Rubin不只是為AI而生,它是為運行Agent而生的。Agent是計算機科學最新的突破,花了多年時間才讓其潛力得以發揮并變得有用。而Vera Rubin,作為世界上最先進的運算計算機,正是其得以立足的根基。
這是Vera Rubin NVLink 72,這是Grok LPU,將在下次GTC詳談。這是Vera CPU機架,256顆CPU,全液冷。這是Vera BlueField存儲處理與安全系統。還有我們Mellanox的網絡,世界上第一個共封裝光學產品。
當我們構建Hopper時,預訓練是最重要的應用。到了Grace Blackwell,很多人說,預訓練很棒,但推理很簡單。但事實上,推理就等于金錢,而模型又極其復雜,要在極短的反應時間內實現高吞吐量,極其困難。這正是NVLink 72的意義。
今天,英偉達的Token成本是全球最低的,不是低10%,而是以數量級計算的因子。這全都歸功于我們的極限協同設計和對運算模式的深刻理解,我們因此才能創造出NVLink 72。
現在,Vera Rubin更進一步,它是在Agent系統中進行推理。看看它,沒有電纜、沒有軟管、沒有風扇。上次我給你們看的時候,到處都是電纜。現在有了PCB中板連接兩邊,原來需要兩小時的工作,現在只需五分鐘。Vera Rubin的可靠性和彈性將非同尋常。
這是我們的Vera CPU托盤,有史以來最先進的CPU。這是存儲托盤。這是我們全新的LPU,Grok系統設計專為極低延遲推理。這是Vera Rubin NVLink交換機托盤,革命性的設計。這是我們的以太網擴展交換機。為Grace Blackwell打造的這兩個系統,讓今天的英偉達成為了最大的網絡公司之一,我為網絡團隊感到驕傲。
06史上第一款“不是為人設計”的CPU
現在,我們來談談CPU。Vera CPU,是為AI時代打造的CPU。
至今所有的CPU都是為人而造的。我們是使用者,生活在以秒為單位的世界,在云端按小時租賃CPU,所以希望核心越多越好。但Agent不同,Agent很沒有耐心。它們生活在納秒級的世界里。當它調用工具或訪問數據庫時,需要響應越快越好。Agent等待的每一刻,都會阻礙它進入下一步。所以,我們必須讓CPU的互動延遲盡可能低。因此,我們創造了Vera CPU。
![]()
在我們的系統中,它被用于三種方式。第一,用于思考。在Vera Rubin機架內,有兩顆CPU,一顆負責編排、管理GPU和KV緩存,處理所有運行軟件;同時還有BlueField負責安全和隔離。
第二,用于統籌。Vera Compute負責運行AI的協調中樞,進行模型工具的使用編排,訪問數據庫和數據。服務器就在此。
第三,是Vera BlueField,用于構建世界上最快、有史以來最快的存儲系統。這之所以如此重要,是因為Agent正在以難以置信的速度訪問記憶體。這些存儲服務器和CPU現在是數據中心中成本最高昂的部分,也是關鍵路徑。AI工廠的經濟就是Token,而Token就在這里被創造出來,所以你必須制造盡可能多的Token,絕不能讓它成為瓶頸。
這對Vera CPU架構提出了極高要求,一個從零開始的全新架構。我們稱之為Vera,這是專為Agent打造的CPU。
有四個要點。第一,是每時鐘周期的指令數,我們需要極低的延遲和極高的單線程效能。Vera的每時鐘指令數是全球最高的,能在一個周期內讀取、解碼并執行10條指令。
第二和第三,都是帶寬。數據移入移出CPU的帶寬必須是世界級的。因為Agent系統的本質是分解和分布式的,網絡就成了關鍵。因此,CPU核心之間、CPU與存儲之間、CPU與GPU之間的數據移動都必須盡可能地快。Vera是第一款用極限帶寬連接所有CPU核心的芯片,沒有Chiplet的跨芯片邊界損耗,橫截面帶寬極高。它還是首款采用PCIe Gen 6的產品,也是首款使用LPDDR5X的產品,內存帶寬是外界最高性能產品的2到3倍。
第四,是能效。必須極度節能,因為我們想在有限的電力下塞進盡可能多的CPU。因為Token的生成就是賺錢的方式,而昂貴的GPU在等待時成本太高,所以CPU必須同樣高效。
這四項屬性,即單線程效能、每核心帶寬、芯片內外總帶寬和能源效率,定義了Vera。與最高性能的x86相比,它的實際單線程效能提升是前所未見的。這就是英偉達的Vera。
Agentic AI改變了CPU的角色。CPU現在是指揮家,GPU是樂團。傳統CPU的時代追求最大化每個插槽的核心數并進行虛擬化以按時租賃。但在Agent時代,CPU已成為GPU利用率的瓶頸,直接影響Token的吞吐量、延遲和用戶體驗。
NVIDIA Vera正是為Agentic循環而打造的CPU,結合了定制化數據中心CPU核心與可擴展的一致性架構,來達到效能與帶寬的適當平衡。核心是NVIDIA Olympus Core,專為工具調用和沙盒代碼執行等現代工作負載而打造。每個核心都針對吞吐量進行了調整,擁有神經分支預測器、十寬譯碼引擎,以及大型亂序執行引擎。快速的核心只有在數據準時、正確地到達時才有意義。Vera是首款能在不損失帶寬的情況下,用LPDDR5X內存同時修正多個錯誤的CPU。它還能將峰值內存延遲相較于x86降低40%,保持核心飽和工作。
第二代可擴展連貫性架構將全部88個Olympus核心統一在單一網格上,不分割Chiplet,使得核心間通訊速度比傳統CPU快50%。通過NVLink芯片到芯片直接連接,可將多個Vera插座縱向擴展,實現巨大的CPU間帶寬。在Agentic沙盒性能上,Vera是x86的1.8倍。
評論已經開始出現,反響非常好。
記住,Grace和Vera也是最受歡迎的、合格的CPU。因為每一個數據中心、云服務商、企業都與英偉達在AI上合作,整個軟件堆疊都已為Grace優化。每個公司也將為Vera取得資格認證。Vera將是優化得最好的Agentic CPU,這得益于我們在轉換過程中付出的巨大努力。事實上,從外部x86 CPU過渡到Grace Blackwell曾是最大的風險,但我們以驚人的執行力完成了。現在,Grace已經是Grace Blackwell的代名詞,無處不在,每家公司的軟件和安全堆疊都為它進行了優化。現在,Vera來了,我對此非常興奮。
看一些效能數據。加速著名的領域特定語言SQL,Vera讓它跑快了三倍,不是10%,不是25%,而是三倍。在紐約證券交易所實時串流處理這類應用上,Vera CPU的運行速度是六倍。這都歸功于其帶寬和單線程指令執行能力。當談及GPU時,在真實工作負載上談論數倍的提升很罕見,而這和CPU有關。我為團隊感到驕傲,我們有非凡的發展藍圖。
真正令人興奮的是,每個人都在支持Vera。這是一個全新的市場。過去我們為人制造CPU,現在我們需要為Agent制造CPU。Agentic系統的屬性不同,CPU怎么能一樣呢?Agent數量會比人多得多,而且它們很沒耐心。所以,NVIDIA Vera CPU將開啟一個比過去更大的市場。
07每家公司都將擁有自己的“超級Agent員工”
這就是我們的心得,這是下一個十年的應用程序和運算模式:Agent,包含協調中樞、大型語言模型。每家企業都會運行它,都將成為Agent公司。每家公司都在問我們,如何安全地執行Agent?如何為自己的工作負載構建Agent?
為此,我們推出了英偉達的企業AI Agent工具包。公司構建Agent有四項需求:第一,需要模型,越聰明、越便宜、越快越好。第二,需要一個協調中樞。第三,模型需要使用工具和相關的技能,我之前展示的CUDA-X函數庫就是極佳的工具。最后,需要一個運行環境,一個能承載一切的操作系統。
![]()
這個工具包包括了可修改的開放模型。其中,OpenShell是一個高度安全的工具包,能讓Agent在內部運行,保護其安全,落實安全政策,保護隱私和權限。它是開源的,Red Hat、Canonical、Microsoft等企業都會采用。這個運行環境完全針對英偉達的AI平臺優化,因此你可以在任何云、本地部署甚至設備上運行它。
在工具和模型方面,我們有開放的Claude、Hermes等協調中樞。這些Agent可以運行在任何地方。
我最喜歡的Agent用例之一是芯片設計師。我們與Cadence合作,共同構建了用于設計芯片的超級Agent。數十萬個英偉達芯片為AI工廠提供動力,而設計這些芯片和系統是最困難的工程挑戰之一。在數字領域,一個錯誤就能讓芯片延遲數月,這意味著數千名工程師和數十億小時的運算被浪費。
Cadence和英偉達的設計驗證Agent由Codex協調流程,使用Nemotron模型并由OpenShell保護。它能調用專家子Agent,自動執行RTL生成、測試平臺建立、回歸測試和調試。它使用Cadence的仿真和形式化驗證工具,在代碼中自動揭示和修正錯誤。曾經需要數周的工作,現在只需數小時,驗證周期快了40多倍。英偉達有數千名芯片設計師,我們還將“聘請”數十萬個Cadence超級Agent一起工作,以加速發展。這也解釋了為何我們如此努力地在CUDA上加速Cadence的所有工具,因為Agent沒有耐心,想要立刻得到答案。
![]()
而這一切,都需要從一個偉大的模型開始。為此,我們宣布推出Nemotron 3 Ultra,我們的下一個開放模型。它不僅提供模型,還提供所有用于訓練的數據。因為我們有一個合作伙伴聯盟,大家攜手貢獻數據。Nemotron是世界上最大的長程推理、工具使用模型之一。由于我們偉大的合作伙伴關系,模型、訓練腳本和數據都完全可用。開放模型的最好形態,就是讓你可以拿走一切,添加到其中,使其成為你自己的。
Nemotron 3 Ultra使用了狀態空間模型與混合專家等混合架構,速度快了五倍,讓你能以同樣的成本思考更長時間。同時,它便宜了30%。前沿智慧,五倍速度,便宜30%,完全開放。我們完全致力于此,并已在研發Nemotron 4。
整個工具包,即模型、協調中樞、工具和技能、運行環境,就是每家企業創建自己Agent的方式,就像Cadence那樣。我們正與CrowdStrike、SAP、ServiceNow、Palantir等許多公司合作。人們總說Agent會擾亂市場,事實恰恰相反,Agent將為我的合作伙伴和朋友們創造有史以來最大的機遇。我們稱之為英偉達的企業AI Agent工具包,簡稱NeMo。
08聯手微軟打造RTX Spark,重塑AI PC
首先,Vera Rubin已全面投產,包含兩顆為Agent新時代打造的Vera CPU。其次,我們推出了英偉達的企業AI工具包,讓每個企業和軟件公司都能構建Agent。
我與臺灣許多朋友和合作伙伴的關系,在很多方面,正是現代計算機工業的起點。40年過去了,英偉達也33歲了。
個人電腦產業始于Windows 1、2和Apple 1、2。當Windows 95出現時,它將PC從企業工具變成了個人化的消費電子設備,每個人都應擁有一臺。那個運算平臺做對了幾件了不起的事:架構被恰當地抽象化,系統、芯片組、操作系統、可動態加載的驅動程序、多媒體API,這些開放的元素共同造就了PC的普及。
40年后,微軟與英偉達合作,計劃重塑PC。我們為此緊密合作了三年,才完全重塑了PC的運作方式,為這一刻做好準備。未來的個人計算機,將擁有一個能理解你、與你對話、幫你做研究的自主Agent。
![]()
新的操作系統是舊操作系統加上大型語言模型。大型語言模型在很多方面是現代版的DirectX,負責理解提示、視覺、生成影音,作為個人計算機的智能延伸。而現代的應用程序,就是Agent。
讓我們看看它能做什么。這一切始于一個火花,一個為AI時代重塑PC的想法。在Agent的世界里,個人AI應是本地連接、沙盒化以保證安全、并持續執行任務的。芯片和操作系統必須進化。
為此,我們推出了RTX Spark。它凝聚了我們33年的所學,提煉成一顆芯片:Blackwell RTX GPU,擁有6144個CUDA核心,1 Petaflop的AI性能,并搭配與聯發科合作定制的20核Grace CPU,通過NVLink融為一體,擁有128GB統一內存。它采用臺積電3納米工藝,包含700億個晶體管。
我們與微軟緊密合作,為Agent重塑了個人計算。對創作和游戲而言,這都是新的曙光。比如這款新的007游戲,我很期待去玩。
女士們先生們,這就是搭載RTX Spark的筆記本電腦。這是我們與聯發科合作打造的N1X芯片。這顆美麗的芯片耗費了我們33年才打造完成,因為它能100%運行英偉達的整個軟件堆疊。你想做數字生物學、地震處理、天體物理學,任何與CUDA相關的領域,都沒問題。所有AI,所有計算機圖形,所有Windows上運行過的應用程序,都能在這臺機器上很好地運行。更重要的是,它現在還能執行Agent。
![]()
想象一下,你可以在家里的RTX Spark計算機上,本地運行一個Nemotron 3 Ultra模型,或連接到云端的Claude等模型,然后讓它做出驚人的事情。例如,設計一棟房子。你的Agent可以連接到云端的模型來理解你的草圖、風格,然后使用你筆記本上的工具開始工作。它會打開Rhino進行建模,優化成本與舒適性,生成內部布局,自動偵測并修正錯誤。批準后,它會導出到Blender,調整材質、渲染,甚至使用生成式AI生成逼真的多視角效果圖。曾經需要多個專業軟件和工作流的復雜過程,現在由你的Agent在本地RTX Spark上引導和簡化。
開發者對此非常興奮。Adobe也已為RTX Spark重新設計了Photoshop和Premiere的核心架構,速度提升兩倍,并且通過MCP服務器使其對Agent友好,能與筆記本上的Agent互動。
但這還不是全部。微軟正在重塑所有PC。我們宣布推出三款革命性的Windows機器,涵蓋臺式機、筆記本電腦和工作站,全部100%兼容Windows,100% CUDA,100% NVIDIA AI Tensor Core。這是40年來首次完全重新設計的PC產品線。
這臺臺式機可以24小時不間斷運行你的個人Agent,連接你家里的所有設備,成為你的個人AI。它會隨著Nemotron模型的更新而越來越聰明,幫你預訂旅行,處理各種事務。而DGX工作站,擁有768GB內存,可以在你的辦公桌上運行萬億參數模型,為開發者提供所需的一切運算力。
想想看,15到20年前,我們手里的“電話”不再主要用來打電話。現在,PC也在發生同樣的變化。十年后的個人電腦將與今天的完全不同。完全可以想象,未來每個家庭都將擁有一臺AI超級計算機,運行你所有的Agent和助手,無時無刻為你服務。這種重塑,其重要性不亞于智能手機的誕生。所以,這是一個全新產品線的開始。我們為此制定了發展藍圖,每一代都會有對應的臺式機、筆記本和工作站。我感到無比榮幸,全球PC業界都加入了我們,共同重塑PC。謝謝大家。
09 80%的汽車廠商已加入英偉達生態
大家都知道,生成式AI就像一個數字機器人。Agentic AI已經啟程,它將運行在各種計算機上:人類機器人、自動駕駛汽車、衛星、農業和制造業設備,甚至是未來的基站。將有數十億、數千億的Agent系統在世界各地運行。
這其中最大的問題是數據。我們過去用人類書寫的語言訓練模型,但為了構建物理AI,我們需要從機器人的第一人稱視角獲取數據。我們從遠程操作的人類示范開始,結合強化學習,再使用Omniverse進行仿真,最終通過世界基礎模型,從第三人稱視角生成第一人稱數據。
![]()
今天,我們宣布推出Cosmos 3,前沿的物理AI。在語言模型方面有很多人在研究,但在物理AI方面,我們絕對是世界領先。Cosmos 3是基礎模型,無論你想創造哪種與物理世界交互的機器人,它都是你的伴侶。它能理解、推理、生成、在循環中仿真,甚至成為策略本身。它建立在全新的混合Transformer架構上,能處理像素、動作、聲音和語言流。開發者可以對它進行后訓練,使其成為世界模型、仿真器或世界行動模型,用于感知、推理、規劃并產生行動。Cosmos 3也是一個完全開放的模型系統,我們開放模型、數據甚至訓練方法,讓你能將其轉化為自己的專有模型。
![]()
模型本身雖然是AI堆疊中最容易理解的部分,但整個堆疊非常復雜。對于物理AI和自動駕駛汽車而言,同樣如此。我們宣布推出Alpamayo 2,這是一個為自動駕駛汽車打造的開放模型。全球約80%的汽車制造商正基于NVIDIA Hyperion構建汽車,約97%的移動服務與我們連接。當我們在Hyperion運行時上部署Alpamayo和Halos操作系統時,就能連接全球所有這些服務。Alpamayo是一輛會推理的汽車,能在行駛中不斷觀察、思考和交互。
對于人形機器人,英偉達的Isaac GR00T是我們的平臺,包含模型、數據生成、仿真和運行時環境。就像Agent系統一樣,它是完全整合的。今天,我們發布NVIDIA Isaac GR00T參考人形機器人。它是一個完全整合的平臺,擁有25個自由度的身體和每只手31個自由度,由Sharpa制造。它運行新的Thor芯片和我們整個軟件堆疊,專為研究人員設計,讓他們能立刻開始研究,無需從零搭建復雜的管道。
結語:Agentic AI時代,從臺灣開始
運算機產業在過去六個月里,一切都變了。因為Agent的推理能力和前沿模型的融合,AI現在可以做有用的工作。這種“模型-協調中樞-工具-技能-運行時”的運算模式將不斷重復,貫穿云端、本地、PC和機器人。
Vera Rubin已全面投產,它是為運行Agent而生的、完整的分布式處理系統。英偉達已真正成為一家AI基礎設施公司。我們為Agent制造了革命性的Vera CPU。英偉達和微軟共同開創了全新的PC產品線。這一切,都標志著Agentic AI時代的開始。
感謝各位的合作與友誼,沒有你們,我們無法取得這些成就。為你們的努力感到驕傲。下一年,我們要更上一層樓。
歡迎來到Computex。祝Computex順利舉行。感謝這精彩的一年,感謝各位的友誼與支持。謝謝,保重。
