網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

用AI干活為什么總是"越用越貴還越笨"？清華這波開源可能治了病根

2026-05-31 14:05:03　來源: 豆腐腦觀察局

廣西舉報

分享至

你有沒有這種感覺——用AI干活，剛開始很爽，越用越不對勁。

讓它幫你寫方案，它把上周另一個項目的風(fēng)格混進來了。讓它整理數(shù)據(jù)，它忘了你之前說過要用什么格式，又從頭問一遍。最崩潰的是月底一看賬單——Token燒了幾百塊，效果還不如自己干。

這不是你的問題，是現(xiàn)在幾乎所有AI Agent的通病。

清華THUNLP實驗室、面壁智能和OpenBMB這幾天開源了一個叫PilotDeck的東西，在開發(fā)者圈已經(jīng)傳瘋了。

不是因為又搞了個炫酷的演示，而是因為它試圖解決上面這三個最讓人頭疼的底層問題。

小龍蝦涼了嗎？不，是它暴露了真問題

2026年初，OpenClaw（小龍蝦）火遍全網(wǎng)，GitHub星標24萬，國內(nèi)大廠幾乎一夜之間集體"養(yǎng)蝦"——騰訊出了QClaw和WorkBuddy，字節(jié)出了ArkClaw，阿里出了Qoder，智譜出了AutoClaw，階躍出了StepClaw。

但半年過去了，身邊最早折騰小龍蝦的朋友，很多已經(jīng)不用了。

不是小龍蝦不好，是它完成了一個重要的歷史使命——讓所有人知道AI不只是聊天機器人，它能動手干活——但沒來得及解決"長期干活"的問題。

問題出在哪？三個字：記不住。

OpenClaw的記憶是會話級的。對話結(jié)束，記憶清零。你教了它三遍怎么排版PPT，第四遍它還是一臉懵。項目做多了，記憶還串臺——A項目的配色跑到B項目里，C項目的數(shù)據(jù)邏輯混進D項目。

更別提Token賬單了。有人用小龍蝦跑了一周，Token花費比打車還貴。評論區(qū)一句大實話："OpenClaw普通人根本燒不起Token"。

PilotDeck不是又一只蝦，思路完全不一樣

PilotDeck沒有在OpenClaw的框架上修修補補，而是換了一個底層邏輯：以"項目"為最小單元來組織Agent。

這聽起來沒什么，但你想一想——你真實工作中的基本單位是什么？不是某一次對話，也不是某個Agent，而是一個個項目。

你在做小紅書運營，那是一個項目。你在寫季度報告，那是另一個項目。你在搞代碼重構(gòu)，那又是第三個項目。

每個項目有自己的上下文、自己的風(fēng)格、自己的進度。它們不該共享同一團亂糟糟的記憶。

PilotDeck給每個項目建了一個獨立的"工作艙"（WorkSpace），里面有專屬文件系統(tǒng)、專屬記憶、專屬技能。你同時開5個項目，5個艙互不干擾，記憶不會串臺。

小紅書運營艙的記憶里存的是"種草文風(fēng)格、emoji偏好、發(fā)布節(jié)奏"；數(shù)據(jù)報告艙的記憶里存的是"表格格式、數(shù)據(jù)來源、老板習(xí)慣"。各有各的，清清楚楚。

這跟Cursor的Workspace或者Claude Cowork的Projects有什么區(qū)別？后者的隔離本質(zhì)上是"文件夾+規(guī)則"，記憶看不見改不了，技能不會越用越進化，成本分不清哪個項目花了多少。

PilotDeck是把項目當(dāng)成了一個完整的智能體生存環(huán)境，不是把文件夾換了個名字。

最實在的：Token省70%，效果沒掉

這是我最想說的部分，因為跟每個人的錢包有關(guān)。

AI Agent有個公開的秘密——用起來爽，賬單嚇人。很多人的應(yīng)對辦法是手動切模型，簡單問題用便宜的，復(fù)雜問題換貴的。但這個切換本身就很煩，而且頻繁切換會打斷KV-cache，每次換模型相當(dāng)于重新"讀檔"，效率反而下降。

PilotDeck的路由方案跟別人不一樣——它是在子Agent層面切，不是按每次請求切。

什么意思？一個復(fù)雜任務(wù)拆成多個子任務(wù)后，整個子Agent分配給一個模型跑到底，內(nèi)部的上下文緩存是連續(xù)的。省的不只是Token錢，還有來回切換的性能損耗。

調(diào)度規(guī)則也很靈活，不是寫死的"貴模型做難題、便宜模型做簡單題"。

你可以自己定義路由策略，甚至用自然語言告訴它"代碼相關(guān)走Claude Opus，文本處理走便宜模型"。

實測數(shù)據(jù)（來源：新智元）：

程序員人格測試應(yīng)用：不開路由10.97美元，開路由1.42美元，省75%

小紅書內(nèi)容生成：不開路由12.58美元，開路由2.83美元，省70%

復(fù)雜任務(wù)（播客多語言+金融分析+代碼文檔）：主Sonnet 4.6配子MiniMax-M2.7花3.15美元、得分70.6，單體Sonnet 4.6花18.36美元、得分69.1——1/6的價格，效果還略好一點。

而且每個WorkSpace獨立算賬，"寫自媒體文章花了80，郵件花了120，日報花了300"，每一分錢都有去處。

還可以接本地部署的模型做子Agent，敏感數(shù)據(jù)不出本機。

云端負責(zé)思考，本地負責(zé)執(zhí)行，省錢和隱私一起解決。

打開AI的腦子改一改

PilotDeck的Memory面板讓我覺得最有意思。

每條記憶標著時間戳、來源路徑和類型。Project Memory記項目核心定義和進度，Collaboration Feedback記你的偏好。

記錯了，點進去改。記憶沖突了，直接刪掉錯的那條。不用重啟對話，不用重新喂一遍偏好。

這解決了一個很煩的問題——AI越用越"不聽話"。

之前用別的Agent，你糾正它一次偏好，它記住了，但下次換個會話又忘了。或者更糟糕，它自作主張記了一堆沒用的信息，上下文越來越長，推理越來越慢。

PilotDeck還有個很浪漫的功能叫Dream——空閑時段，AI在后臺自動回顧整理自己的記憶，就像人類睡覺時整理白天的記憶一樣。

如果Dream整理出錯了，還能一鍵回滾。

用人話說：以前的Agent是勤快但健忘的實習(xí)生，PilotDeck是想做個越干越默契的老搭檔。

但它也不是萬能的

說實話，PilotDeck目前也有短板。

上手門檻比那些"開箱即用"的大廠產(chǎn)品高。你需要自己部署、配置模型、理解WorkSpace的組織邏輯。對于純小白來說，字節(jié)ArkClaw那種"打開網(wǎng)頁就能用"的體驗還是更友好。

評論區(qū)也有人質(zhì)疑："沒覺得比WorkBuddy好，大廠穩(wěn)定性會更強。"

這話不是沒道理——清華是學(xué)校，面壁智能是創(chuàng)業(yè)公司，在7×24小時穩(wěn)定運行、企業(yè)級支持這些方面，跟騰訊阿里比確實有差距。

而且，整個Agent賽道2026年已經(jīng)卷成了"百蝦大戰(zhàn)"。騰訊同時鋪了WorkBuddy（辦公）和CodeBuddy（編程）兩條線，字節(jié)的UI-TARS走了純視覺GUI路線完全不依賴OpenClaw框架，阿里有Qoder和CoPaw雙產(chǎn)品——這些大廠產(chǎn)品的工程化成熟度，不是開源項目短期內(nèi)能比的。

PilotDeck的優(yōu)勢在架構(gòu)理念——項目級隔離、白盒記憶、智能路由——這些是底層思路的差異。但理念先進不等于產(chǎn)品好用，最終還要看迭代速度和社區(qū)生態(tài)能不能跟上。

真正值得關(guān)心的事

從更大的視角看，PilotDeck解決的那三個問題——記憶隔離、Token成本、白盒可控——恰好是AI Agent從"極客玩具"變成"生產(chǎn)力工具"必須跨越的門檻。

國投證券3月的行業(yè)周報顯示，字節(jié)、阿里、騰訊、智譜等頭部廠商已密集發(fā)布Claw類Agent產(chǎn)品。

中國Token日均調(diào)用量從2024年初到2026年3月激增約1400倍，規(guī)模突破140萬億。

當(dāng)Token變成AI時代的"水電煤"，誰能把成本打下來、把可靠性提上去，誰就是下一個階段的贏家。

PilotDeck是開源的，代碼全放在GitHub上。

不管你用不用它，它提出的三個問題值得每個用AI干活的人想想：

你的AI記得住你的偏好嗎？你的Token錢花得明白嗎？你能打開AI的腦子改改它記錯的東西嗎？

如果答案都是否，那不管用的是小龍蝦還是什么別的，你可能只是在用一種更貴的方式加班而已。

聲明：取材網(wǎng)絡(luò)，謹慎辨別

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.