網易首頁 > 網易號 > 正文申請入駐

大模型告別做題家時代

2026-06-07 08:55:08　來源: 鈦媒體APP

北京舉報

分享至

文 | 浪潮不癲

梁文鋒是個很有意思的人。他不熱衷融資、不搞團建、不社交，公司不到200人，下午六七點下班，在中國科技圈簡直是一股清流。

昨天看了晚點的稿子，寫DeepSeek在V4發布前夕的狀態，有很多讓浪哥印象深刻、且深有同感的細節。

比如，deepseek不加班，因為梁文鋒認為，一個人每天能高質量輸出的時間，很難超過 6~8 小時，加班疲勞會讓判斷力下降，反而浪費算力資源；再比如，梁文峰在工作中只做少數事情，但要做得細致、做到極致。

依然讓人心生敬佩。

但看稿子也能感覺到，deepseek現在到了一個微妙的轉折點了：核心研究員陸續出走，期權價值不明，Agent方向的產品經理剛開始招，編程工具還沒影。

這家曾經靠極致效率和開源碾壓全場的公司發現，僅僅專注提升大語言模型的智能上限，已經不夠了。

這不怪deepseek，而是行業已經轉向。

過去兩年，大模型領域的做事邏輯特別像高考，跑分就是分數線，Benchmark就是考場，誰的分數高誰就是狀元。

但現在，OpenAI在搞Agent，Anthropic在搞Claude Code，Google在搞多模態，所有頭部玩家都在回答同一個問題：模型怎么真正幫人把活干完？

這就像一個高考狀元發現，用人單位的面試官翻了翻你的成績單，點點頭說"不錯"，然后問你：“能不能獨立完成一個項目？能不能做好團隊協作？遇到沒見過的問題你怎么辦？”

大模型告別做題家時代了。

職場的要求不一樣了

要理解新的競爭到底比什么，有一個現成的鮮活案例。

3月31日，Anthropic的明星產品Claude Code，鬧出了代碼泄露的大烏龍，變成了真正open的AI了。

吃瓜群眾扒完代碼之后，發現Claude比大家想象的還更厲害，專業分析有很多，就不細說了，劃重點就是一句話：Claude真正的競爭力，遠不止模型本身。

模型當然還是核心，沒有Claude強大的推理能力，什么系統都白搭。但光有模型，就像光有一個智商160的天才，你把他丟到一個陌生的工地上，沒有圖紙、沒有工具、沒有安全規范，他照樣干不成活。

Claude Code那51萬行代碼干的事情，就是給這個做題家配置上打工人需要的能力。簡單看幾個例子就明白——

省錢的能力。每次調用API都是真金白銀，Claude Code把System Prompt切成“不變的部分”和“經常變的部分”，不變的部分緩存起來反復用，變的部分才重新生成。這個Benchmark不會考，但降本有多重要，打工人都知道。

知道什么時候該問人的能力。Claude Code搞了一套四層遞進的安全機制——配置白名單、工具自檢、一個專門判斷“這條命令危不危險”的小模型、最后才是彈窗問用戶。這就像一個靠譜的新員工，拿不準的事不會悶頭干，但也不會事事都去問領導，絕大多數情況自己就處理了。這個Benchmark當然也不會考，但它直接決定了用戶敢不敢把真實的代碼倉庫交給AI。

記性好的能力。對話一長，模型就會“忘事”。Claude Code的方案不是硬塞一個向量數據庫，而是把對話歷史壓縮成一份結構化的摘要——目標是什么、做了哪些決策、代碼改了哪里——存在本地文件里。簡單，但有效。就像每個人每天都寫工作文檔，第二天大家翻一翻就能接著干。

這些東西沒有一項是“模型更聰明、考分更好”就能解決的，它們解決的是另一個層面的問題：怎么讓一個聰明的模型在真實世界里穩定、高效、安全、可持續地干活。

這也意味著，大模型同學走出學校、進入職場，別人對你的要求就變了。

好馬也要配好鞍

科技圈向來擅長發明各種黑話，這么大的轉折點，黑話肯定少不了。

最新很火的一個，就是跟這有關的，叫Harness Engineering。

Harness這個詞，本來是馬具的意思——套在馬身上，不是為了束縛它，而是為了讓馬的力量按照你要的方向釋放出來。

用在AI這兒，意思就是：模型是那匹馬，Harness是那套韁繩、馬鞍和方向盤。

這個概念怎么出圈，浪哥特意去考古一下，發現有兩個關鍵節點。

第一個是2026年2月5日，在工程界的江湖地位很高的一位老兄，Terraform的作者Mitchell Hashimoto，寫了篇文章講自己從拒絕到擁抱AI的心路歷程，其中提了一條核心原則：

任何時候你發現Agent犯了錯，就花時間設計一個方案，確保它永遠不再犯同樣的錯。

聽著像廢話對吧？但你仔細品品，它的潛臺詞是：競爭力不在模型里，在你怎么馴服模型的那套系統里。 模型會犯錯，這是天性；但你的系統能不能把每一次犯錯變成永久性的改進，這是手藝。

第二個關鍵節點更早一些。1月5日，Google DeepMind的工程師Philipp Schmid發了一篇博客，甩出一句引起行業大討論的話：

“The Harness is the Dataset.（Harness本身就是數據集）”

這話的殺傷力在哪？

說白了就是：好的Harness能記錄下模型在真實任務中的完整軌跡——它看到了什么信息、做了什么判斷、在哪一步翻了車、最后怎么修好的。這些軌跡，反過來就是訓練下一代模型最有價值的燃料。

也就是說，誰先把Harness跑通，誰就率先啟動了一個數據飛輪——系統越好，數據越好，模型越好，系統又更好。

大模型和它周圍的駕馭系統，不再是兩件事，而是一個共生體。

歡迎來到真實的世界

所謂AI一日，人間一年。回頭看大模型短短這幾年，其實走過了三個階段：

2022到2024年，大家琢磨的是怎么問——Prompt Engineering，寫好提示詞，把模型的能力哄出來。

2025年，進化到給什么上下文——Context Engineering，把對的信息在對的時候塞給模型。

到了2026年，競爭升級到怎么搭整套系統——Harness Engineering，從工具調用、記憶管理、成本控制到安全防護，全盤考慮。

競爭顆粒度在一步步變大：從一句話，到一段信息，到一整套系統。

這趨勢已經是共識了。

幾個月前，MiniMax創始人閆俊杰在羅永浩的播客訪談里，反復講一個判斷：模型能力正在趨同。中國公司用美國1/50的資源，就能做到95%的性能。5%的差距當然存在，但它已經不是決定勝負的變量了。

這幾天，MiniMax交出上市后的首份財報，閆俊杰給了幾個新的判斷：編程領域會開始出現L4–L5級別的智能，從“工具”走向“同事級”協作；辦公領域接下來一年，會復刻去年編程領域的進步速度；多模特會走向“直出可交付”的中長內容，甚至出現接近實時輸出的形態。

每一個都指向更系統的能力，更全面的要求，更可靠的執行，而不再是簡單的模型參數和跑分。

回到deepseek。

晚點稿子里，有一段話特別重要：即將發布的 V4，大概率仍是開源最強模型，但很難是碾壓級的強。因為現在不同場景的不同開發者和用戶對 “強” 的標準和體感已越來越多元。

有個很好的參照例子，就是跟V4同樣預計在4月發布的騰訊混元新模型。按照以往的劇本，這又該是一輪“誰的分數高”的跑分大戰，混元的分數，估計也會被deepseek摁地上摩擦。

有意思的是，在告別做題家的新語境下，混元的壓力反而沒那么大了，因為比的不再是兩張考卷的分數，而是兩套系統在真實場景里，誰更能把活干完。之前晚點說，姚順雨上任后，明確要求混元團隊“不以打榜為導向”——也是意識到考試分數已經沒那么重要的，更重要的是，做一個更適配騰訊的大模型。

但對deepseek來說，這也意味著一個學霸，不能再繼續呆在象牙塔里埋頭研究了，你得走到更大的系統里，去適應新的游戲規則了——

你聰明當然好，但能不能用好工具、能不能跟同事做好協作、能不能在復雜系統里找到自己的位置、犯了錯能不能自我修正……這些在考場里根本不考的東西，反而決定了你能否成事，職業生涯能否走得更遠。

歡迎來到這個真實的世界，deepseek同學，祝你好運。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.