網易首頁 > 網易號 > 正文申請入駐

DeepSeek塞進蘋果本兒，分幣不花實現“龍蝦自由”

2026-05-10 15:59:03　來源: 字母榜

北京舉報

分享至

在agent時代最貴的是什么？是token。

一些重度agent使用者，一個月用掉幾億token，賬單小幾萬塊錢也是常有的事。

然而現在開始，有這么一個開發者他開源了一個本地方案，一臺蘋果筆記本就能部署，也就是說，你從此實現了“龍蝦自由”，跑再多任務，也不會再為token付出一分錢了。最關鍵的是，他用的還是DeeSeek V4 Falsh。

幾天前，antirez在GitHub上發布了一個項目，叫ds4。

這是一個專門為DeepSeek V4 Flash寫的推理引擎。一共幾千行C代碼，可以讓DeepSeek V4 Flash這個模型在128G內存的蘋果電腦上跑起來。

開發者antirez，本名Salvatore Sanfilippo，是意大利程序員，同時他也是開源數據庫Redis的原作者。Redis后來成為全球互聯網基礎設施里最常用的內存數據庫之一。

往好的方面去想，DeepSeek影響力足夠大，吸引到了圈內頂流的程序員，但是壞的方面是，DeepSeek這回真的免費了。

任何開發者都可以用ds4，去把DeepSeek V4 Flash裝進自己的MacBook Pro里，本地跑代碼、本地讀上下文、本地做agent任務，而這一切的一切，不需要給DeepSeek付1分錢。

雖然DeepSeek V4 Flash本身開源，可FP16精度的原始模型要吃掉284G內存，顯存需求更是高達160G。

因此，想運行它，你至少得有兩張英偉達A100 80GB、一條512GB DDR5 ECC內存，以及一個4TB NVMe SSD。總成本50萬人民幣。

而現在，一臺3萬塊錢的MacBook Pro就能跑。

那antirez為什么偏偏選中DeepSeek V4 Flash呢？

原因是DeepSeek最適合被“塞進本地電腦”。

它有284B總參數，足夠大；但每次推理只激活13B參數，又不像傳統大模型那樣沉重。

它支持100萬token上下文，適合編程助手這種長任務；同時KV cache壓縮得足夠狠，給本地內存和SSD留下了操作空間。

DeepSeek V4 Flash剛好站在了這樣一個神奇的平衡點上，既大到值得折騰，又小到能被塞進蘋果筆記本里。

YC的CEO Garry Tan在X上轉了這條消息，只打了一行字：正在下載……100萬token上下文窗口，可用的編程助手能力，全在一臺128GB的MacBook Pro上，太瘋狂了。

ds4究竟是什么？

先說結論，ds4不是一個模型，它是一臺“專用發動機”。DeepSeek V4 Flash是車，蘋果電腦是路，ds4負責把這輛原本更適合跑在云端的大車，改到本地機器上能跑、能接API、還能被coding agent調用。

過去大家想在自己電腦上跑大模型，普遍用的都是llama.cpp這個工具。它的好處是什么模型都能跑，Llama、Qwen、DeepSeek全都支持。

可問題就是，什么都能跑，就意味著什么都跑不到最快。為了照顧所有模型，llama.cpp必須做很多妥協，性能上不可能做到極致。

antirez的想法正好相反，他才不管別的模型死活，他就專門伺候DeepSeek V4 Flash這一個，把它優化到極限。

他一共做了3件事。

第一件事，是不對稱的2-bit量化。

DeepSeek V4 Flash的架構是MoE（Mixture of Experts），284B總參數里，每次推理只激活13B，這13B是路由挑出來的若干個專家子網絡。

就像一個工具箱里有284把工具，每次只拿出13把來用。這284B里面，有一大堆“備選專家”占了90%以上的空間，但它們不是每次都用，只是候補。

antirez的做法是，只對這批routed experts做激進的2-bit量化，up和gate矩陣用IQ2_XXS，down矩陣用Q2_K，而模型里所有關鍵路徑上的組件，包括shared experts、projections、routing網絡，全部保持原始精度不動。

也就是說，antirez把這些“候補專家”狠狠壓縮，壓到只剩原來1/4的大小，但那些每次都要用的核心組件，一點都不動，保持原樣。

這是一種不對稱的壓縮策略，砍掉體積大頭，保住質量命脈。

第二件事，是把KV Cache搬到SSD上。

DeepSeek V4 Flash支持100萬token的上下文，這相當于你可以把一整本小說扔給它，它能全記住。

但這么長的上下文，意味著AI在工作時要不停地回頭翻看前面的內容。為了讓這個“回頭翻看”的動作不至于慢到卡死，AI需要把這些內容暫存在一個叫“緩存”的地方，方便隨時調用。

以前的做法是把這個緩存放在內存里。內存速度快，AI每次生成一個字都要頻繁查這個緩存，所以必須放內存。

但問題是，如果讓128GB內存的MacBook Pro跑DeepSeek-V4 Flash，光緩存就能把內存吃光，模型本身都沒地方放了。

所以antirez的做法是直接把緩存扔到硬盤（SSD）上。ds4把一部分KV狀態做成可落盤、可恢復的緩存，讓長提示詞和agent反復續寫時，不必每次從頭處理。

這聽起來有點離譜，因為硬盤比內存慢多了。

然而現代Mac SSD足夠快，適合做KV緩存持久化和恢復。加上DeepSeek V4 Flash本身對緩存做過壓縮，讀寫量不大，所以硬盤完全頂得住。

結果就是內存省出來了，100萬token的超長對話真的在一臺MacBook上跑起來了。

不過這不等于128GB MacBook可以毫無壓力地把100萬token全部拉滿。

按照ds4自己的說明，2-bit模型本身已經要占掉大約80GB級別的內存，真正日常使用時，100k到300k上下文會更現實一點。

第三件事，是純Metal原生路徑。

antirez把所有優化都押在蘋果電腦的GPU上。

因此他專門為蘋果芯片寫了一套代碼，讓DeepSeek V4 Flash能在蘋果電腦上跑得飛快。

至于CPU，并不是這個項目的重點。README里也寫得很直白，CPU模式目前還不穩定，甚至可能觸發系統崩潰。antirez進一步表示，如果有人真想走這條路，后續大概還得靠社區來補救。

在M3 Max 128GB的MacBook Pro上，實測速度是每秒能生成26個字左右。M3 Ultra 512GB的Mac Studio上能跑到每秒36個字。

不算快，但寫代碼、調試這些日常工作完全夠用。

更有意思的是，antirez是獨自一人通過GPT-5.5完成的整個這個項目。

利好DeepSeek

根據外媒報道，DeepSeek目前正在尋求高達73.5億美元的融資，梁文鋒現在就處在這個關鍵的轉折點上，用商業敘事取代DeepSeek過往的技術敘事。

那投資人看什么？不只是看模型跑分，不只是看API調用量，更看生態位和不可替代性。

一個海外知名開發大佬，愿意為你的模型寫專用引擎，這本身就說明DeepSeek在海外有著一定的生態地位。

過去一年，中國開源模型的出海敘事里，主流衡量標準是benchmark，MMLU、HumanEval、SWE-bench，一串又一串的數字。

但有人愿意圍繞你做二次工程，才代表你的模型被認可了。Anthropic用千問做實驗，Cursor蒸餾Kimi，這種認可比分數更值錢。

antirez不是AI圈里那種什么新模型都要試一遍的博主

他選一個模型，然后還要花幾周的時間去寫專用推理引擎、做特制量化、搭HTTP服務層、做agent集成測試，顯然是他認為DeepSeek值得。

這就變相等于，一個有信譽的第三方，在用自己的時間和名聲給DeepSeek-V4背書。

說到國產模型出海，目前我能想到的路有兩條。

一條是API被調用。你提供服務，別人付費使用，你是service provider，客戶是consumer。

這條路很直接，也很現實，別人可以隨時切換，你無時無刻都得對抗你的競品，從性能到價格。

另一條是模型被改造。有人把你的權重拿走，做量化、做蒸餾、做專用runtime、做本地部署、做agent工具鏈。在這條路里，你的模型成了材料。

材料和服務的區別在于，材料會被嵌入到別人的工具鏈里，然后就很難被換掉了。

舉個例子，某個開發者把ds4集成到自己的coding agent里，寫了一堆配置文件、調試腳本、自動化流程。他的團隊成員也都習慣了這套工具，公司的代碼庫里到處都是基于DeepSeek本地推理的調用。

這時候如果要換成別的模型，就不是“改個API key”那么簡單了，而是要重新適配引擎、重寫腳本、重新培訓團隊習慣。成本太高，大概率就不換了。

這就是“被嵌入”的粘性。

ds4把DeepSeek V4 Flash嵌進了Metal原生本地推理這個場景。截至發稿，Hugging Face上antirez那個deepseek-v4-gguf倉庫，就已經有25000次下載了。

每一次下載，都意味著有人在自己的機器上跑起了DeepSeek，粘性也就這么一點一點的建立起來了。

更值得注意的是連鎖效應。

Hacker News上有這樣一條高贊評論，他說如果以后針對精確的GPU加模型組合構建超優化推理引擎會怎樣？GPU越來越貴，抽象層去掉得越多，優化空間就越大。

這個方向一旦被驗證，意味著每一代有分量的開源模型發布時，都會有人跳出來給它做專屬引擎、專屬量化、專屬agent接入。

相當于是每一代模型都應該有一個自己的“antirez”，開發出一個自己的“ds4”。

DeepSeek V4 Flash正好踩在了這個起點上。

如果這套邏輯成立，那么后續每個V4 Flash的小版本迭代，都會天然地被嵌入到這個“一代模型配一個專用引擎”的循環里。

梁文鋒成了第一個吃螃蟹的人。

DeepSeek也從一個模型品牌，變成海外開發者手里的基礎設施材料。

對于現階段的DeepSeek來說，這種“升維”非常重要。

焉知非福

講完了利好，必須講另一面。

目前來看，DeepSeek的核心商業化路徑是API。開發者調用，按token付費，薄利多銷。

這是DeepSeek最擅長的打法。

但ds4這種項目，本質上是在“勸退”一部分API用戶。

你可以這么來理解，一個獨立開發者或者小團隊，過去用Claude Code或者DeepSeek的API跑coding agent。coding agent是高token消耗場景，長上下文、多輪對話、頻繁工具調用、反復重試。

按token計費的話，一個重度agent的開發者每個月可能要花幾千塊錢的token費用。

然而現在他面前出現了另一個選項。

花幾萬塊錢買一臺128GB的MacBook Pro，然后跑ds4。

前期投入一次，之后推理沒有邊際成本，數據不出本地，延遲完全可控。

外網論壇上有個開發者分享了他的方法：日常寫代碼、改bug這些簡單任務，全扔給本地的ds4跑，不花錢。只有遇到復雜的架構設計問題，才切換到云端的DeepSeek V4-Pro或者Claude Opus。

高token消耗的部分被本地化了，只有少量高價值調用還留在云端。

相當于一分錢沒有給到DeepSeek，卻在絕大多數時間都在使用DeepSeek。

同時，antirez采用的量化方法也是有“坑”的。

即使是不對稱量化策略，只壓MoE專家不壓關鍵路徑，也不可能完全沒有質量損失。

外網論壇上已經有人發出了測試結果，ds4本地量化版本在超2000行代碼的文件里偶爾丟失變量作用域，幻覺略多，MoE路由層對量化噪聲尤其敏感。

這就引出了另一個更麻煩的問題，叫做體驗解釋權。

就像DeepSeek服務器崩了，我不知道是為什么崩的，我只會覺得是DeepSeek不行。

用戶調用DeepSeek官方API，如果效果不好，他大概率會認為是DeepSeek自己的問題。但用戶在本地跑ds4時，面對的是2-bit量化、Metal runtime、SSD KV cache、上下文截斷、agent配置等一整套變量。

這里面任何一個環節出問題，最后往往被歸因到“DeepSeek不行”。

別人幫你擴散模型，但他并不會幫你去維護口碑，主要是人家也沒這義務。

更深一層看，“成為材料”和“成為平臺”是完全不同的兩件事，梁文鋒更想要的是后者，可是ds4卻讓DeepSeek成為了前者。

材料只會被嵌入別人的工具鏈，不能為DeepSeek提供商業閉環，只有平臺才掌握分發、計費、賬戶、數據、開發者關系和升級節奏。

DeepSeek如果只是提供權重，被antirez、Cursor、各種本地agent和第三方runtime拿去改造，它當然獲得了名聲。不過真正能留住用戶的人，可能是那些工具鏈的開發者。

這就是開源模型的悖論。

模型越成功，越容易成為別人的底層能力；但底層能力如果沒有抓住開發者的入口，就有可能被上層產品吃掉大部分商業價值。

所以ds4對DeepSeek不是簡單的好消息，也不是壞消息。

可以肯定的是，對于DeepSeek來說，他們又有故事可以講給投資人聽了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

對標Anthropic？5個月暴漲13倍的智譜AI憑什么

秦朔朋友圈 2026-06-03 00:06:57
2 跟貼 2
失守63000美元！比特幣自高點腰斬 “加密寒冬”全面籠罩

財聯社 2026-06-04 09:46:10
0 跟貼 0

突然，全線跳水！超28萬人爆倉

每日經濟新聞 2026-06-04 12:28:33
0 跟貼 0

早報｜曝蘋果Vision Pro系列被砍/多地高考將查驗智能眼鏡/DeepSeek首輪融資規模約500億元

愛范兒 2026-06-04 08:38:47
0 跟貼 0
淘寶百億補貼購蘋果17新機，機身盒碼對不上疑似翻新后封機？求助人：店內展示機充電口有數字，我買的沒有，售后檢測說確實不一樣

河南都市頻道 2026-06-02 17:57:48
167 跟貼 167

一文看懂AI Agent的13大概念：涵蓋Harness、Scaffold、Tool和Skill等

智東西 2026-06-03 20:11:32
0 跟貼 0

打工25年后，我成了我老板的老板

愛范兒 2026-04-22 10:24:03
11 跟貼 11
阿里把AI Agent拉進工作群了！跨部門對接、找素材、做設計，@一下就行

智東西 2026-06-03 18:51:52
9 跟貼 9

庫克接班人特努斯：從工程師到蘋果接班人

量子位 2026-04-22 08:00:02
0 跟貼 0
女子選中的龍蝦，怕被掉包偷掰下蝦腿，上菜時竟發現驚天秘密

月亮姐侃生活 2026-06-02 17:10:39
0 跟貼 0
全新Siri來了！WWDC26終極前瞻：蘋果AI迎來關鍵時刻

雷科技 2026-06-03 17:06:01
4 跟貼 4
女子買兩年蘋果數據線，過質保期還求免費換，商家竟真答應了

搞笑小搗蛋 2026-06-03 10:13:59
4 跟貼 4
曝DeepSeek融資即將完成：梁文鋒200億，騰訊100億，寧德時代50億

智東西 2026-06-03 16:18:37
63 跟貼 63
蘋果首款智能眼鏡2027年發布庫克收官之作：要顛覆眼鏡行業

快科技 2026-06-03 11:03:30
0 跟貼 0
蘋果折疊全新曝料！感覺這初代的體驗還是比不上安卓呀

數科先驅 2026-06-03 16:05:34
0 跟貼 0
微軟Build大會一文看盡：9款自研模型、Windows版龍蝦、“夢中情機”，黃仁勛猛夸

智東西 2026-06-03 18:15:32
0 跟貼 0
鈦鍋憑什么賣這么貴？3款純鈦炒鍋對比評測！

春光研究院 2026-06-02 16:24:15
4 跟貼 4
內存正在毀掉一切，所有的AI都要算力

愛范兒 2026-05-13 09:43:34
0 跟貼 0
估值4000億、騰訊與寧德時代入局？DeepSeek被曝開啟中國AI最大規模融資

財聯社 2026-06-03 19:14:23
59 跟貼 59
蘋果偷偷換工藝，Ultra 3 表殼上竟然有細密紋理！

愛范兒 2025-11-19 13:45:55
33 跟貼 33
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
AI正在嘗試“遞歸構建”！谷歌CEO給爆火的RSI潑了盆冷水

雷科技 2026-06-04 10:45:56
0 跟貼 0
龍哥抓內鬼

曉小說 2026-06-04 07:56:45
2 跟貼 2
英偉達CEO黃仁勛：Token就是資產、已經成為獲利的營收單位

每日經濟新聞 2026-06-02 06:05:39
13 跟貼 13
青殼秒變紅殼，這操作直接把海鮮的，鮮氣焊死！

菊花搞笑 2026-06-01 17:29:09
0 跟貼 0
巨無霸龍蝦剝殼，里面的蟹黃都這么大，這是真實存在的嘛！

幽默達人館 2026-06-03 15:49:01
1 跟貼 1
OpenClaw終于拿下Windows！全球龍蝦黨狂歡

新智元 2026-06-04 09:35:59
1 跟貼 1
日本餐廳的招牌菜，看著有些許殘忍，但依舊很多人嘗試！

栗子生活醬 2026-06-03 14:56:36
0 跟貼 0
掛龍蝦釣龍魚的方法

咪咖事界 2026-06-02 13:02:18
1 跟貼 1
淘寶百億補貼購蘋果17新機，求助人：發貨序列號和訂單里面顯示的不一致，按百億補貼官方規定序列號必須一致

河南都市頻道 2026-06-02 15:43:09
0 跟貼 0
珊姐家弟弟帶著20多斤小龍蝦去安徽丈母娘家，讓她們實現龍蝦自由

兩面包夾芋頭 2026-05-31 02:45:26
0 跟貼 0
淘寶百億補貼購蘋果17新機，機身盒碼對不上，疑似翻新后封機？顧客5月初購買，客服卻說購買日期1月？

河南都市頻道 2026-06-02 17:57:46
0 跟貼 0
淘寶百億補貼官方購蘋果17新機，機身盒碼對不上消費者質疑是翻新機，蘋果400客服：可能有異常，建議去購買門店要說法

河南都市頻道 2026-06-02 16:58:15
0 跟貼 0
VLMgineer讓大模型自己「發明工具」，從設計到使用全自動

機器之心Pro 2026-03-20 14:15:17
0 跟貼 0
淘寶百億補貼購蘋果17新機，機身盒碼對不上，疑似翻新后封機？求助人：用紫光燈打上封條碼不清晰

河南都市頻道 2026-06-02 17:57:43
4 跟貼 4
蘋果首款折疊屏手機本月量產頂配版或突破2萬元將成蘋果有史以來最貴iPhone

快科技 2026-06-03 11:03:49
0 跟貼 0
教你手搓蘋果手機！

落紙生花創意手工 2026-06-01 14:43:38
5 跟貼 5
淘寶百億補貼購蘋果17新機，機身盒碼對不上，消費者質疑是翻新機。“平臺打算賠償20元，覺得是在侮辱我”

河南都市頻道 2026-06-02 15:43:18
0 跟貼 0
安卓也能給蘋果 Airdrop，實測 Pixel 9 Pro 傳照片

愛范兒 2026-04-02 21:57:11
0 跟貼 0
蘋果也要漲價？那得看你的誠意趕不趕得上安卓了

數科先驅 2026-06-02 17:32:54
0 跟貼 0

字母榜

讓未來不止于大。

2513文章數 8064關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

親子

游戲

家居

軍事航空

手機 / 數碼

房產 / 家居

DeepSeek塞進蘋果本兒，分幣不花實現“龍蝦自由”

歷史最大IPO！馬斯克下周沖擊萬億富豪

男子帶20萬練功券約見女主播 發生關系后騙走對方1萬

男子帶20萬練功券約見女主播 發生關系后騙走對方1萬

王俊杰11前板成第一尖刀 媒體人：獨一檔

奚夢瑤頭紗上的古董發卡也是四太的

SpaceX發行價135美元 6月12日上市交易

北京現代5月銷量強勢反彈:國內17065輛 出口環比翻倍

態度原創

違規干細胞抗衰美容，為何肆無忌憚

?閃閃小葵花，成長正當時? 「尋找閃亮小主角」闖關合集上線！小手勇闖趣味關卡，留住玩耍美好時光！

《幸福工廠》更新1.2上線 好評開放世界工廠建設

220平對味兒家 空間情緒宅

美眾議院要求特朗普停止對伊動武并撤軍

男子帶20萬練功券約見女主播發生關系后騙走對方1萬

男子帶20萬練功券約見女主播發生關系后騙走對方1萬

王俊杰11前板成第一尖刀媒體人：獨一檔

北京現代5月銷量強勢反彈:國內17065輛出口環比翻倍

《幸福工廠》更新1.2上線好評開放世界工廠建設

220平對味兒家空間情緒宅