網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V4背后，梁文鋒的轉(zhuǎn)身

2026-04-26 09:13:15　來(lái)源: 豹變

四川舉報(bào)

分享至

「核心提示」
國(guó)產(chǎn)架構(gòu)與外部融資同時(shí)啟動(dòng)，DeepSeek的驚險(xiǎn)一躍。

作者 | 張經(jīng)緯

編輯 | 邢昀

2026年4月，DeepSeek幾乎同時(shí)公布了兩條大新聞：一是公司啟動(dòng)首次外部融資，目標(biāo)估值從100億美元迅速抬升至200億到300億美元，騰訊、阿里正洽談入局；二是其新一代旗艦?zāi)Ｐ蚔4發(fā)布，全面適配華為昇騰950PR芯片，從英偉達(dá)的CUDA生態(tài)轉(zhuǎn)向華為的CANN框架。

一內(nèi)一外兩種變化，背后是DeepSeek的全面戰(zhàn)略轉(zhuǎn)向，也是AI公司競(jìng)爭(zhēng)進(jìn)入深水區(qū)的標(biāo)志。

那個(gè)純靠自身的量化投資輸血、以“技術(shù)理想主義”自居的DeepSeek，正在完成自己的“成人禮”。

1、國(guó)產(chǎn)替代和推理躍進(jìn)，V4的新故事

2026年4月24日，DeepSeek V4發(fā)布。

這不是一次常規(guī)的模型迭代。新模型將總參數(shù)推至1.6萬(wàn)億，首次將百萬(wàn)token上下文打成標(biāo)配，并實(shí)現(xiàn)了百萬(wàn)上下文下每token的算力消耗僅為V3.2的27%，KV緩存占用只有10%。

模型輸出質(zhì)量上，V4同時(shí)支持三檔推理強(qiáng)度，并針對(duì)Agentic Coding做了專項(xiàng)優(yōu)化。內(nèi)部評(píng)測(cè)顯示，其交付質(zhì)量已接近Claude Opus 4.6的非思考模式。

不過V4最受矚目的，是首次在官方技術(shù)報(bào)告中，把國(guó)產(chǎn)芯片和英偉達(dá)GPU寫進(jìn)了同一份硬件驗(yàn)證清單。

V4適配的華為昇騰950PR推理芯片于2026年3月量產(chǎn)，單卡算力較英偉達(dá)對(duì)華特供版H20提升2.87倍。到目前為止，阿里巴巴、字節(jié)跳動(dòng)、騰訊等國(guó)內(nèi)科技巨頭已向華為下單數(shù)十萬(wàn)顆昇騰芯片。

從成本角度看，這是一次理性的商業(yè)選擇。昇騰950PR的采購(gòu)價(jià)格約為英偉達(dá)H200的三分之一到四分之一，絕對(duì)算力則是H200的一半，這意味著性價(jià)比。

雖然和英偉達(dá)的前沿芯片相比，國(guó)產(chǎn)芯片有顯著的算力差距。不過在低精度推理場(chǎng)景下，華為昇騰950PR的SIMD/SIMT新同構(gòu)設(shè)計(jì)、低精度數(shù)據(jù)格式支持和自研HBM，能展現(xiàn)出超越通用GPU的效率。不僅更便宜，而且更高效。

現(xiàn)在也正好是大模型正從“訓(xùn)練為王”逐漸轉(zhuǎn)向“推理決勝”的時(shí)代。2026年3月的GTC大會(huì)上，黃仁勛宣布推理的拐點(diǎn)已經(jīng)到來(lái)，需求還在不斷增長(zhǎng)。他指出過去兩年AI計(jì)算需求激增了1萬(wàn)倍，行業(yè)重心正在從一次性、高成本的模型訓(xùn)練，轉(zhuǎn)向持續(xù)性的推理服務(wù)。

事實(shí)上，黃仁勛本人也曾公開表達(dá)對(duì)中國(guó)芯片的憂慮。4月15日，他在彭博社播客訪談中罕見發(fā)飆，當(dāng)眾反駁“芯片是濃縮鈾，不該出口給中國(guó)”的說(shuō)法。他警告，過度限制無(wú)法阻止中國(guó)進(jìn)步，反而會(huì)逼中國(guó)建立完整的自主生態(tài)。

跳出英偉達(dá)架構(gòu)是一條高風(fēng)險(xiǎn)、高收益的新路。風(fēng)險(xiǎn)在于，CANN不是一個(gè)非常成熟的架構(gòu)，第三方庫(kù)支持、調(diào)試工具鏈仍不及CUDA，對(duì)于個(gè)人開發(fā)者和小團(tuán)隊(duì)而言遷移門檻依然存在。

但如果V4在華為芯片上跑出有競(jìng)爭(zhēng)力的性能，它將是全球第一個(gè)不依賴英偉達(dá)的前沿AI模型，這意味著中國(guó)AI產(chǎn)業(yè)將擁有完全自主的算力底座，不再受制于華盛頓的出口管制。

這也意味著中國(guó)的AI企業(yè)們會(huì)直接坐在金山上。根據(jù)OpenRouter的數(shù)據(jù)， 2026年3月30日-4月5日，中國(guó)AI模型的周調(diào)用量突破12.96萬(wàn)億Token，是同期美國(guó)的4.3倍，國(guó)產(chǎn)化無(wú)疑有著巨大的市場(chǎng)前景。

2、向資本重新伸出的手

不過，追求國(guó)產(chǎn)架構(gòu)性價(jià)比的另一面，是DeepSeek的資金壓力。

這家一度站在中國(guó)AI賽道頂峰的公司，長(zhǎng)期主要靠創(chuàng)始人梁文鋒和背后的量化基金幻方量化支持。梁文鋒直接和間接持有DeepSeek 84.29%的股份，擁有幾乎100%的表決權(quán)，這讓DeepSeek在AI創(chuàng)業(yè)公司中顯得格外另類。當(dāng)智譜、MiniMax、月之暗面在2023-2024年瘋狂融資時(shí)，DeepSeek像一個(gè)隱士般潛心研發(fā)，直至2025年R1的橫空出世。

也是在這一年，梁文鋒拒絕了來(lái)自騰訊和阿里巴巴等科技巨頭的合作機(jī)會(huì)，擔(dān)心外部投資者會(huì)干預(yù)公司決策。而且，梁文鋒本人也極少出現(xiàn)在公眾視野中，除了幾篇AI研究的論文。

但他的態(tài)度不久前發(fā)生了180度大轉(zhuǎn)彎。2026年4月，DeepSeek啟動(dòng)首輪外部融資，募資至少3億美元，目標(biāo)估值超200億美元，市場(chǎng)傳聞甚至飆至300億美元以上。

AI正在變得越來(lái)越燒錢，也變得越來(lái)越值錢，這是全球性共識(shí)。

OpenAI 2025年虧損80億美元，2026年預(yù)計(jì)虧損250億美元。2026年3月OpenAI完成最新一輪融資，募集資金1220億美元，投后估值8520億美元。其最大競(jìng)爭(zhēng)對(duì)手Anthropic于2026年2月完成300億美元G輪融資，投后估值3800億美元。由于年化收入從2025年底的90億美元暴漲至2026年4月的300億美元，Anthropic在一些二級(jí)市場(chǎng)的隱含估值已超1萬(wàn)億美元。

除了算力采購(gòu)，燒錢的還包括人才競(jìng)爭(zhēng)。脈脈高聘《2026春招人才供需報(bào)告》顯示，2026年1至2月，AI崗位數(shù)量同比增長(zhǎng)約12倍，崗位占比升至26.23%，平均月薪超6萬(wàn)元。

薪資上漲促進(jìn)了人才流動(dòng)，這給很多AI大廠帶來(lái)了薪資壓力。據(jù)媒體報(bào)道，過去一年間，字節(jié)跳動(dòng)Seed團(tuán)隊(duì)有近70名技術(shù)人才離職，轉(zhuǎn)而加入國(guó)內(nèi)頭部互聯(lián)網(wǎng)企業(yè)、大模型公司及國(guó)際科技巨頭。為抵御人才流失，字節(jié)跳動(dòng)為Seed團(tuán)隊(duì)大規(guī)模發(fā)放專項(xiàng)期權(quán)，提高待遇。在字節(jié)內(nèi)部，活水流動(dòng)到Seed部門是新風(fēng)向，面試流程也相比其他部門更為復(fù)雜。

字節(jié)被報(bào)道2025年凈利潤(rùn)同比下滑超過70%，核心原因是在三、四季度加碼了人工智能領(lǐng)域的資源投入。隨后抖音副總裁李亮澄清稱，凈利潤(rùn)下降主要是優(yōu)先股和期權(quán)成本變動(dòng)等會(huì)計(jì)因素帶來(lái)的。雖然緩解了市場(chǎng)上對(duì)于字節(jié)凈利潤(rùn)下滑的擔(dān)憂，但也顯示出公司在人才，尤其是AI人才激勵(lì)上的大手筆。

AI公司人才的頻繁流動(dòng)，也同時(shí)給DeepSeek帶來(lái)了壓力。

去年底至今，DeepSeek有多位核心員工離職。2025年11月，羅福莉加入小米MiMo大模型團(tuán)隊(duì)，她曾是DeepSeek-V2核心開發(fā)者、被冠以“95后天才少女”之名；2025年底2026年初，王炳宣加入騰訊混元大模型團(tuán)隊(duì)，他是DeepSeek第一代大語(yǔ)言模型的核心作者；2026年1月阮翀加入元戎啟行，他是DeepSeek多模態(tài)領(lǐng)域核心貢獻(xiàn)者；2026年4月，R1核心研究員、DeepSeek-Coder系列第一作者郭達(dá)雅被報(bào)道加入字節(jié)Seed團(tuán)隊(duì)。

有說(shuō)法稱，梁文鋒最近尋求融資是在給員工做期權(quán)定價(jià)，以留住人才。

無(wú)論是出于保有技術(shù)人才還是做算力儲(chǔ)備，AI廠商都不可能暫停這種“軍備競(jìng)賽”。在這當(dāng)中，DeepSeek還有一些自身的課題要解決。和很多收費(fèi)服務(wù)的廠商不同，DeepSeek在C端推行token平權(quán)，專注免費(fèi)模式，主要靠B端API調(diào)用商業(yè)化。

這無(wú)疑讓DeepSeek更加需要引入資本市場(chǎng)的力量。

3、被支持，也被期待

DeepSeek作為國(guó)產(chǎn)大模型始終被寄予厚望。自2025年1月R1模型橫空出世以來(lái)，它以極低的訓(xùn)練成本達(dá)到OpenAI頂尖模型的性能，一度引發(fā)全球科技股震蕩，被視作中國(guó)AI的標(biāo)桿。

一年來(lái)，DeepSeek受到了很多不同形式的支持。比如R1上線后，國(guó)家超算互聯(lián)網(wǎng)平臺(tái)第一時(shí)間上線DeepSeek，提供一鍵推理和定制化訓(xùn)練服務(wù)；體制內(nèi)曾掀起“學(xué)習(xí)使用DeepSeek”的熱潮；華為昇騰、寒武紀(jì)、沐曦等十余家國(guó)產(chǎn)芯片廠商，以及華為云、天翼云、騰訊云、阿里云等九大國(guó)內(nèi)云巨頭，也都及時(shí)推出適配DeepSeek的算力方案或服務(wù)。

“被支持”也意味著“被期待”。人們也同樣期待DeepSeek能在算力自主上蹚出一條路。V4全面擁抱華為昇騰，某種程度上是對(duì)這種期待的回應(yīng)。

同樣備受期待的還有模型本身的性能。

V4發(fā)布前，很多人期望DeepSeek的新模型能在多模態(tài)上有所進(jìn)步。然而，V4僅支持文字輸入，暫不支持原生多模態(tài)功能。相比之下，Gemini 3.1 Pro已實(shí)現(xiàn)"全模態(tài)”（文本+圖片+音頻+視頻），GPT-5.4支持文本、圖片、音頻、視頻全鏈路，國(guó)內(nèi)主要大模型也基本支持文本+圖片的信息輸入。

DeepSeek的融資與轉(zhuǎn)向，同樣折射出中國(guó)AI創(chuàng)業(yè)公司的某種困境。在技術(shù)迭代以月為單位、資本開支以百億為單位的軍備競(jìng)賽中，“中小廠”的研發(fā)窗口正在急劇收窄。智譜和MiniMax已先后赴港上市，月之暗面正以180億美元估值完成新一輪融資。當(dāng)大廠們揮霍著源源不斷的彈藥，創(chuàng)業(yè)公司們只能選擇求助資本市場(chǎng)。

對(duì)DeepSeek自己來(lái)說(shuō)，新階段也意味著新的問題。引入過多外部融資是否會(huì)掣肘DeepSeek的決策？芯片國(guó)產(chǎn)化是否意味著，在一定階段中美大模型技術(shù)的切割甚至差距拉大？這些都是未知數(shù)。

但DeepSeek仍有其獨(dú)特優(yōu)勢(shì)。它的開源策略和低成本訓(xùn)練方法論，已在全球開發(fā)者社區(qū)建立了品牌認(rèn)知；它在MoE架構(gòu)、條件記憶機(jī)制（Engram）、流形約束超連接（mHC）等底層技術(shù)上的創(chuàng)新，證明了其不依賴算力堆砌的研發(fā)能力。如果V4能在國(guó)產(chǎn)芯片上跑出有競(jìng)爭(zhēng)力的性能，它將證明一件事：中國(guó)AI公司可以在被制裁的環(huán)境下，用更少的錢、更自主的供應(yīng)鏈，做出世界一流的產(chǎn)品。

當(dāng)理想主義撞上現(xiàn)實(shí)的算力賬單，DeepSeek正在經(jīng)歷驚險(xiǎn)一躍。這場(chǎng)跳躍如果成功，超越的將是整個(gè)AI產(chǎn)業(yè)的舊秩序。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.