<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4 震撼發布!實現全球開源領先

      0
      分享至


      就在前幾天,DeepSeek V4真的來了!

      那個曾經以一己之力打破閉源模型霸權的DeepSeek,帶著DeepSeek-V4系列預覽版,向全球開發者正式宣告——

      百萬級上下文(1M Context)的平民化時代,以及開源Agent能力、世界知識和推理性能上的新巔峰,已經到來。

      DeepSeek V4,再度實現國內與開源領域的領先。

      V4的技術報告,已經同步發布。


      論文地址:

      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      01

      DeepSeek-V4-Pro

      性能比肩頂級閉源模型

      DeepSeek-V4 系列包含兩個版本:擁有1.6T總參數、49B激活參數的性能怪獸DeepSeek-V4-Pro,以及專為高效率、經濟性設計的284B總參數、13B激活參數的DeepSeek-V4-Flash



      可以說,DeepSeek-V4-Pro已經達到了開源模型的新巔峰,對標全球頂尖閉源水準。


      首先,V4-Pro在Agent能力上實現了跨越式突破,其Agentic Coding水平穩居開源界首位。

      實測反饋顯示,其編碼體驗已超越Sonnet 4.5,交付質量直追Opus 4.6(非思考模式),目前已成為公司內部Agent編程的首選模型。

      其次,它具備深厚的世界知識儲備。

      在知識測評維度,V4-Pro顯著領先同類開源產品,與閉源標桿Gemini-Pro-3.1的差距已縮減至極小范圍。

      另外,它還有頂尖的邏輯推理表現。

      在數學、STEM及高難度競賽代碼等硬核領域,V4-Pro的表現不僅冠絕開源社區,更具備了挑戰世界最強閉源模型的實戰競爭力。


      支撐這兩個模型傲視群雄的,是其底層技術的「三大神技」:

      • 混合注意力機制(CSA + HCA)

      DeepSeek-V4 并沒有盲目增加硬件投入,而是開創性地設計了混合注意力架構。

      壓縮稀疏注意力(CSA)對KV緩存進行token維度的壓縮并結合DSA稀疏注意力;重壓縮注意力(HCA)則進行更極致的壓縮以維持稠密計算。

      這種「長短結合」的策略,讓模型在處理百萬字上下文時,計算量和顯存需求大幅降低。

      • 流形約束超連接(mHC)

      為了提升信號傳播的穩定性并增強模型表達力,V4引入了mHC結構,升級了傳統的殘差連接。這讓模型在深層網絡中依然能保持卓越的建模能力。

      • Muon 優化器

      引入全新的Muon優化器,讓訓練過程不僅收斂更快,且更加穩定。

      正是這些結構創新,讓DeepSeek-V4在推理效率上實現了質的飛躍。

      在100萬token上下文的極端場景下,DeepSeek-V4-Pro的單token推理計算量僅為前代的 27%,KV緩存占用更是縮減到了驚人的10%

      02

      DeepSeek-V4-Flash

      極致效能與性價比的完美平衡

      相比于Pro版本,Flash版則是更快捷高效的經濟之選。

      盡管在世界知識的深度上略遜于Pro版本,但DeepSeek-V4-Flash保留了與之接近的邏輯推理水平。

      受益于更精簡的參數規模與激活機制,它能為用戶提供響應更快、成本更低的API接入方案。

      在處理基礎 Agent 任務時,V4-Flash的表現與Pro版不相上下,但在應對極端復雜任務時仍存在進階空間。

      03

      架構革新

      重塑長上下文效率

      DeepSeek-V4引入了革命性的注意力機制,通過在Token維度進行高效壓縮,并結合 DSA稀疏注意力(DeepSeek Sparse Attention) 技術,實現了全球頂尖的長文本處理能力。

      這種創新大幅削減了對計算資源與顯存的依賴。

      即日起,1M(100萬 tokens)超長上下文將成為DeepSeek官方服務的標準配置。


      DeepSeek-V4和DeepSeek-V3.2的計算量和顯存容量隨上下文長度的變化

      04

      Agent能力深度優化

      DeepSeek-V4 針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流 Agent生態進行了深度適配。

      在代碼編寫與自動化文檔生成等場景下,其產出效率顯著提升。


      V4-Pro在特定Agent框架下自動生成的PPT頁面實例

      05

      API全面升級,舊版模型倒計時

      對于開發者而言,好消息是:API已經同步上線!

      只需簡單修改 model_name 即可接入這兩款新旗艦:

      • 追求性能:deepseek-v4-pro

      • 追求效率:deepseek-v4-flash

      特別提醒:原有的 deepseek-chat 和 deepseek-reasoner 模型名將作為V4的過渡別名(分別指向 V4-Flash 的非思考與思考模式),但這兩個舊名稱將于2026年7月24日正式停用。

      論文解讀

      06

      兩種壓縮,一套組合拳

      V4-Pro中,CSA的壓縮率為4,每4個token的KV緩存合并成一個條目。

      壓縮之后再通過Lightning Indexer對壓縮后的KV條目打分,每個query token只選top-1024個條目做注意力計算。索引計算用FP4精度,超長上下文下開銷極低。

      HCA走另一條路。壓縮率拉到128,比CSA激進得多,但不做稀疏選擇,所有壓縮后的KV條目都參與計算。極致壓縮換全局視野。



      兩種機制交替堆疊,CSA精細檢索,HCA全局感知,再加上每層128 token的滑動窗口捕捉局部依賴,三條路徑協同。


      算一筆賬。

      以常規BF16 GQA8(頭維度128)作為基線,V4在100萬token下的KV緩存只有基線的約2%。KV條目還采用混合精度存儲,RoPE維度BF16,其余FP8,體積比純BF16再砍一半。

      推理端則把壓縮KV和滑動窗口KV分開管理,支持磁盤級緩存存儲,避免共享前綴的重復prefill。

      07

      mHC,6.7%的代價換來的穩定性

      標準HC擴展殘差流寬度來增強信息傳遞,但多層堆疊時數值會炸。

      mHC的做法是把殘差映射矩陣約束在雙隨機矩陣流形(Birkhoff多面體)上,確保譜范數不超過1,信號深層傳播不發散。投影通過Sinkhorn-Knopp算法迭代20次實現。

      工程代價可控,擴展因子只有4,經過融合kernel和選擇性重計算優化后,額外墻鐘時間僅6.7%。

      08

      訓練萬億參數的「土辦法」

      Muon的核心是對梯度動量做Newton-Schulz正交化,V4用10次混合迭代,前8次快速收斂,后2次精確穩定。

      但優化器只是一半的故事。V4報告披露了兩個訓練穩定性技巧。

      Anticipatory Routing,把路由索引的計算和主干網絡的更新解耦,用歷史參數提前算好路由并緩存。系統在檢測到loss spike時自動觸發,日常開銷可忽略。

      SwiGLU Clamping,把SwiGLU線性分量鉗制在[-10, 10],門控上界鉗制在10。簡單粗暴但有效。


      MoE工程上,V4開源了MegaMoE,把通信和計算融合進單個pipeline kernel,通用場景加速1.5到1.73倍,延遲敏感場景最高1.96倍。

      09

      專家分訓,蒸餾合一

      V4用On-Policy Distillation(OPD)替代了V3.2的混合RL。先獨立訓練數學、代碼、Agent等領域專家,再用一個學生模型對十幾個專家做全詞表logit蒸餾。

      工程上的關鍵突破是,不緩存教師logits(顯存放不下),只緩存最后一層隱藏狀態,訓練時按需重建logits,用TileLang專用kernel加速KL散度計算。

      V4還引入了Generative Reward Model(GRM),讓actor網絡同時充當獎勵模型,評判和生成能力聯合優化,不再依賴傳統標量獎勵模型。

      后訓練階段同步做了FP4量化感知訓練,對MoE專家權重和CSA索引器做FP4量化,且FP4到FP8反量化無損,整個流程復用現有FP8框架。

      10

      DeepSeek

      再度證實開源的力量

      從V3的橫空出世到V4的效率革命,DeepSeek始終堅持將最頂級的技術通過開源分享給社區。

      DeepSeek-V4的上線,不僅是技術參數的跳躍,更是對「百萬長上下文」和「高性能 Agent」這兩大未來趨勢的有力回應。

      它證明了通過架構創新,我們可以在不犧牲性能的前提下,極大降低大模型的門檻。

      現在,你可以在官方App或chat.deepseek.com立即開啟1M上下文的全新體驗。

      這不僅僅是一個對話框,這是一個能裝下整部百科全書、能理解萬行代碼邏輯的「第二大腦」。

      參考資料:

      https://huggingface.co/collections/deepseek-ai/deepseek-v4

      https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

      https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

      THE END

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      臺軍突發墜機 2人死亡,臺退役中將張延廷:41年老機 又沒彈射座椅

      臺軍突發墜機 2人死亡,臺退役中將張延廷:41年老機 又沒彈射座椅

      鳳凰衛視
      2026-06-02 16:25:03
      常書杰:被北大勸退僅2年,竟712分考入清華

      常書杰:被北大勸退僅2年,竟712分考入清華

      馬蹄燙嘴說美食
      2026-06-01 17:24:52
      兩個烏克蘭姑娘,在廣州找到了第二個家

      兩個烏克蘭姑娘,在廣州找到了第二個家

      搗蛋窩
      2026-06-02 13:25:06
      42死395傷!湯山血案:妒忌我生意好,老鄉竟投毒毒殺早點攤眾人

      42死395傷!湯山血案:妒忌我生意好,老鄉竟投毒毒殺早點攤眾人

      莫地方
      2026-06-02 00:09:06
      菜籽油再次成為關注對象!醫生發現:吃菜籽油時,一定要注意6點

      菜籽油再次成為關注對象!醫生發現:吃菜籽油時,一定要注意6點

      華庭講美食
      2026-06-02 17:10:30
      降價2萬!上汽大眾官宣:全新SUV,價格下調

      降價2萬!上汽大眾官宣:全新SUV,價格下調

      科技堡壘
      2026-05-31 09:34:47
      天價門檻勸退豪門!1.5億歐死守底線,奧斯梅恩轉會陷觀望僵局!

      天價門檻勸退豪門!1.5億歐死守底線,奧斯梅恩轉會陷觀望僵局!

      田先生籃球
      2026-06-01 20:05:36
      快停下!5 種運動最容易長血栓,很多人天天在練

      快停下!5 種運動最容易長血栓,很多人天天在練

      貓大夫醫學科普
      2026-06-02 06:57:44
      看球賽的美女,身材真好

      看球賽的美女,身材真好

      藍色海洋009
      2026-05-25 20:36:25
      中國海關出手!禁止進口印度大米,給出的理由,讓印度人難以接受

      中國海關出手!禁止進口印度大米,給出的理由,讓印度人難以接受

      聊歷史的阿稼
      2026-04-23 18:02:20
      《007》邦德竟是00后!玩家感慨自己老了

      《007》邦德竟是00后!玩家感慨自己老了

      游民星空
      2026-06-02 08:11:05
      尼克松訪華喝酒后,當著所有人說了句大實話,基辛格嚇得臉都白了

      尼克松訪華喝酒后,當著所有人說了句大實話,基辛格嚇得臉都白了

      歷史圖鑒
      2026-05-27 16:36:31
      你無意中發現了不得的事?網友:大保健里遇見嫂子

      你無意中發現了不得的事?網友:大保健里遇見嫂子

      夜深愛雜談
      2026-05-28 07:59:33
      總決賽G4!CCTV5直播改時間!王博拒被橫掃,少用孫銘徽

      總決賽G4!CCTV5直播改時間!王博拒被橫掃,少用孫銘徽

      老吳說體育
      2026-06-02 11:10:02
      老菜農透露:6月買菜,就選這4種!基本不打農藥,鮮嫩營養又便宜

      老菜農透露:6月買菜,就選這4種!基本不打農藥,鮮嫩營養又便宜

      秀廚娘
      2026-06-02 11:59:01
      伊朗把濃縮鈾“快遞”到中國,特朗普氣得拍桌:這招太陰了!

      伊朗把濃縮鈾“快遞”到中國,特朗普氣得拍桌:這招太陰了!

      浪子的煙火人間
      2026-05-30 10:12:09
      美國人發現,美國近三十年來最大外交失誤,可能就是阻止中國統一

      美國人發現,美國近三十年來最大外交失誤,可能就是阻止中國統一

      流史歲月
      2026-05-31 12:00:13
      威廉笑了,哈里急了!結婚8周年紀念日大翻車,徹底淪為國際笑話

      威廉笑了,哈里急了!結婚8周年紀念日大翻車,徹底淪為國際笑話

      白露文娛志
      2026-06-01 15:52:14
      CBA總決賽還沒結束!上海已提前開賣冠軍衫:廣廈被直接無視了?

      CBA總決賽還沒結束!上海已提前開賣冠軍衫:廣廈被直接無視了?

      籃球快餐車
      2026-06-02 18:14:36
      斬獲20w star!Claude Code最強插件,AI編程必備!

      斬獲20w star!Claude Code最強插件,AI編程必備!

      新浪財經
      2026-06-02 11:56:54
      2026-06-02 21:04:49
      互聯網思維 incentive-icons
      互聯網思維
      每天推送精選互聯網圈深度文章
      6105文章數 87234關注度
      往期回顧 全部

      科技要聞

      燒掉千億后,美團、阿里、京東誰先止血?

      頭條要聞

      菲防長稱中方未展現長期誠意 外交部:完全沒感恩之心

      頭條要聞

      菲防長稱中方未展現長期誠意 外交部:完全沒感恩之心

      體育要聞

      1米74的業余聯賽替補,在英超踢中衛

      娛樂要聞

      奚夢瑤何猷君補辦婚禮超幸福

      財經要聞

      智元和宇樹的“暗戰”愈演愈烈

      汽車要聞

      星途神秘新車輪廓曝光 又一款性能SUV要來了?

      態度原創

      家居
      本地
      教育
      藝術
      軍事航空

      家居要聞

      流線型輪廓 包容多元身形

      本地新聞

      用剪紙的方式,打開江蘇揚州

      教育要聞

      事關中考命題,南京一些老師被“關起來了”?

      藝術要聞

      周杰倫花 1.36 億拍下這幅畫

      軍事要聞

      伊朗媒體新發布最高領袖照片

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久热中文字幕在线观看| 夜夜嗨AV| 国产jizzjizz视频| 欧美激情一区二区| 亚洲3p| 亚洲免费成人免费视频| 亚洲av成人三区国产精品| 一区777| 精品国产乱码久久久久久乱码| 国精一二二产品无人区免费应用 | 黄频网站| 精品视频在线观看免费观看| 国产菊爆视频在线观看| 98精品国产高清在线xxxx| av一区二区三区| 国产美女久久精品香蕉| 红猫大本营在线观看入口| 91国语精品自产拍在线观看| 中国一区二区三区| 亚洲熟妇自偷自拍另欧美| 先锋资源内射| 蜜桃成人永久免费av大| 在线观看日本一区二区| 国产精品SM捆绑调教视频| 午夜综合网| 人妻熟妇精品免费观看| 亚洲中文字幕无码一区日日添 | 日无码视频| 一本久道久久综合多人| 欧美乱妇高清无乱码免费| 国产国语对白AA片| 中文字幕人妻系列人妻?无码| 中文字幕第一页在线| 少妇高潮水多太爽了动态图| 美女在线视频一区二区三区| 青青草国产自产一区二区| 超级黄色a毛片视频| 欧美午夜不卡| 亚洲 一区二区 在线| 无码av中文字幕久久专区| 中文字幕无码乱码人妻系列蜜桃|