網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

李飛飛、Jeff Dean押注！不卷大模型，專練越用越聰明的AI

2026-06-01 09:07:07　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導(dǎo)讀】卷更大的模型，不再是唯一答案。新問題是模型能不能在真實場景中越用越聰明。一家叫Trajectory的公司押注這一趨勢，要把Cursor的成功秘密做成AI新基建。

5月27日，一家叫Trajectory的公司，正式從隱身模式走入公眾視野。

據(jù)WIRED報道，它剛剛完成1500萬美元種子輪，投后估值1.15億美元。領(lǐng)投方是Conviction，Bessemer Venture Partners、Radical VC、BoxGroup跟投。

真正炸裂的，是它背后的個人投資者名單：Google DeepMind首席科學(xué)家Jeff Dean，「AI教母」World Labs CEO李飛飛，兩位AI大佬赫然在列。

他們押注的不是模型，而是模型之外的那一層。

早在去年12月的NeurIPS 2025大會上，強化學(xué)習(xí)之父、圖靈獎得主Rich Sutton，就把同一個判斷，擺在了整個AI學(xué)術(shù)界面前。

而這家公司的三位創(chuàng)始人，背景也都不簡單。

CEO Ronak Malde，前Windsurf的AI研究員。去年Google用約24億美元拿下Windsurf核心人才和資產(chǎn)授權(quán)時，他是進入DeepMind的極少數(shù)團隊核心之一。

另外兩位聯(lián)創(chuàng)也都來自一線AI研發(fā)場景。

Arjun Karanam，前Apple AI研究員，參與過Vision Pro相關(guān)工作；Michael Elabd，前Google DeepMind機器人部門成員。

Trajectory三位創(chuàng)始人：Michael Elabd（左）、Arjun Karanam （中）Ronak Malde （右）

此外，其11人的研發(fā)團隊中還匯聚了來自O(shè)penAI、Meta超級智能實驗室（Superintelligence Labs）等頂尖機構(gòu)的AI人才。

Trajectory不是大模型公司。它要干的一件事，是把Cursor悶聲做了很久的那件事：讓AI從用戶的真實使用里持續(xù)變聰明，做成所有公司都能用的AI基礎(chǔ)設(shè)施。

Cursor的進化秘密

藏在反饋閉環(huán)里

要理解Jeff Dean和李飛飛，為什么會押注Trajectory這樣一家初創(chuàng)公司，必須先搞懂一個概念：反饋閉環(huán)。

過去兩年，AI編程產(chǎn)品幾乎是所有AI應(yīng)用里進化最快的賽道。

Cursor、Copilot、Windsurf、Claude Code……殺得難解難分。模型一周一個版本，產(chǎn)品體驗隔幾天就上一個臺階。

它們憑什么進化得這么快？

Malde的答案很簡單：這些AI編程工具都在偷偷做同一件事，使用真實使用數(shù)據(jù)做post-training（后訓(xùn)練），定期把模型再練一遍。

「今天最強的AI，仍然是靜態(tài)的。」Malde說，「你昨天用的那個模型，今天還會犯同樣的錯。」這句話點破了當(dāng)前大模型應(yīng)用的根本痛點。

舉個例子。

OpenAI、Anthropic、Google每隔幾個月推一個新版本。但你的客服AI、銷售AI、法律AI，并不會因為你昨晚處理了一千個工單，今天就更懂你的業(yè)務(wù)：它仍然是那個出廠設(shè)置的模型。

Cursor的出現(xiàn)，打破了這個魔咒。

它從用戶每一次接受補全、每一次修改、每一次撤回里，提取信號，做成訓(xùn)練數(shù)據(jù)，再回爐模型。每一次產(chǎn)品發(fā)版，背后都是一輪真實用戶行為驅(qū)動的后訓(xùn)練。

Trajectory想做的，正是把這套打法標(biāo)準(zhǔn)化，從AI編程搬進客服、銷售、法律。這些行業(yè)有個共同點：什么算「成功」，遠比代碼模糊得多，也更難被數(shù)據(jù)定義。

但這也最難。代碼能不能跑，機器一目了然。一通客服電話有沒有解決問題，一份法律文書有沒有踩中判例，機器靠什么判斷？

Trajectory的解法是另起爐灶：不碰OpenAI、Anthropic的現(xiàn)成模型，而從開源模型出發(fā)，照著客戶的產(chǎn)品目標(biāo)做定向后訓(xùn)練。

這一步繞不開。OpenAI、Anthropic的模型再強，權(quán)重都攥在它們自己手里，你最多調(diào)調(diào)接口、喂點提示，動不了模型的筋骨。

而Trajectory要做的事，是拿真實使用數(shù)據(jù)反復(fù)回爐、改寫模型本身，因此必須從一個你能完全掌控的開源模型開始。

這種模型被反復(fù)回爐，個頭不大，只盯著一類窄任務(wù)。但Trajectory押注的是，恰恰是在客戶最在意的那些場景里，它能跑贏OpenAI、Anthropic那些什么都會的大模型。

不過這只是公司的說法，目前還沒有公開benchmark細節(jié)。

每砸一單都變成訓(xùn)練數(shù)據(jù)

據(jù)Trajectory官網(wǎng)顯示，它已經(jīng)簽下一批早期客戶，每一家都是AI原生賽道里的明星公司。

Clay，做GTM（go-to-market，市場進入）和銷售線索智能化；Decagon，做企業(yè)AI客服；Harvey，做法律AI。

Clay的CEO Kareem Amin說，他們正在測試一個會從用戶身上變得越來越聰明的模型，已經(jīng)看到它從自己錯誤里學(xué)習(xí)的實例。「持續(xù)學(xué)習(xí)是Clay路線圖上的重要研究方向，Trajectory正在為我們搭建探索這一方向的基礎(chǔ)設(shè)施。」

Decagon的研究工程師Cyrus Asgari關(guān)心的是后訓(xùn)練模型的可引導(dǎo)性。同一個AI客服，部署到不同企業(yè)客戶那里，「正確的模型行為」是不一樣的。Trajectory要解決的，正是怎么嚴格度量這種可引導(dǎo)性，又用什么訓(xùn)練手段真正提升它。

Harvey的聯(lián)創(chuàng)Gabe Pereyra把這件事上升到一個新的視角：「法律專業(yè)知識活在人類知識的長尾上，是被判例、判斷和實踐不斷重塑的，固定的數(shù)據(jù)集捕捉不了它。」

也就是說，通用大模型搞不定法律這樣的場景，因為這些行業(yè)知識每天都在長。

那Trajectory具體怎么做？

以Decagon為例：每當(dāng)AI客服處理不了一個請求，比如一位想退貨的客戶被轉(zhuǎn)給人工，這次「失敗」就會被Trajectory記錄、結(jié)構(gòu)化，進入下一輪后訓(xùn)練。

每砸一次單，都成了下一版模型的訓(xùn)練數(shù)據(jù)。這樣的回爐，最快一周一次。

技術(shù)層面，Trajectory的開發(fā)者文檔顯示，它的SDK把智能體行為軌跡（agent traces）和產(chǎn)品遙測數(shù)據(jù)（product telemetry）轉(zhuǎn)成一種標(biāo)準(zhǔn)化的格式，它為這種格式起的名字，正是「Trajectory」。

這個格式，就是Trajectory做所有事的最小單元。模型訓(xùn)練、效果評估、持續(xù)學(xué)習(xí)都用它。

Trajectory SDK支持從LangSmith等可觀測性平臺直接接入數(shù)據(jù)，企業(yè)現(xiàn)有的產(chǎn)品日志稍加改造就能用起來。https://docs.trajectory.ai/introduction

一段完整的多輪對話被拆成四層結(jié)構(gòu)：Trajectory（整段對話）→Step（每一輪的累積快照）→Turn（一次用戶與智能體的來回）→Message（一條消息）。

每一個Step都被設(shè)計成「自包含的訓(xùn)練樣本」：給定這段完整上下文，智能體接下來做了什么。

數(shù)據(jù)進了管線，下一個問題是合規(guī)。

哪些數(shù)據(jù)能進訓(xùn)練？模型更新前要不要批？出問題能不能查？

Trajectory把決定權(quán)全部留給客戶：SOC 2認證打底，客戶自己圈定哪些數(shù)據(jù)進訓(xùn)練，每一次模型更新都要先過客戶自己的評估和審批。

可以看出，Trajectory賣的是一整套「讓模型越用越聰明」的基礎(chǔ)設(shè)施，這正是企業(yè)AI落地最缺的一塊。

大模型持續(xù)學(xué)習(xí)的管線已經(jīng)鋪開

Trajectory還沒有真正實現(xiàn)「持續(xù)學(xué)習(xí)」。至少不是學(xué)界定義的那種「實時、在線、每次交互即學(xué)習(xí)」。

這一點WIRED在報道里也點明了：當(dāng)前模型大約每周更新一次，更新之間，仍是靜態(tài)的。

嚴格說，今天的Trajectory更像是「高頻后訓(xùn)練」：把傳統(tǒng)幾個月一次的版本迭代，壓縮到一周一次。

但最難的一步已經(jīng)邁出去了。

幾個月到一周，本身就是數(shù)量級的跨越；更重要的是，Trajectory把這套回爐流程跑通成了一條自動化的管線：數(shù)據(jù)怎么進、模型怎么訓(xùn)、效果怎么評，全部標(biāo)準(zhǔn)化、可復(fù)用。

剩下的，就是把周期持續(xù)壓縮。

聯(lián)創(chuàng)Elabd對這條路的想象，要比現(xiàn)在大得多：

每天可能也不夠，可以是每小時，可以是每次交互。也許每家公司都不止需要一個AI，而是為每個員工都訓(xùn)練一個AI。

當(dāng)然，愿景再大，眼下要啃的還是工程硬骨頭：怎么把企業(yè)產(chǎn)品里的真實使用數(shù)據(jù)，干凈、合規(guī)、可審計地變成訓(xùn)練數(shù)據(jù)。

但方向已經(jīng)清楚。

下一層基礎(chǔ)設(shè)施正在長出來

把視野拉遠一點，Trajectory出現(xiàn)的時間點很微妙。

2024年下半年起，AI賽道的主線就已經(jīng)在悄悄換。從o1把推理時計算推上臺，到Claude的computer use讓模型走進真實操作環(huán)境，卷更大的預(yù)訓(xùn)練，不再是唯一答案。

新的問題已經(jīng)浮出水面：模型能不能在真實使用中持續(xù)變聰明，Trajectory押注的正是這個方向。

而幾乎在同一時間，學(xué)術(shù)界最有分量的人之一，也將判斷指向了同一個方向。

去年12月，NeurIPS 2025大會上，Rich Sutton做了一場特邀演講。

他是公認的「強化學(xué)習(xí)之父」，與Andrew Barto共同開發(fā)了時序差分學(xué)習(xí)（temporal difference learning）和策略梯度（policy gradient），這是當(dāng)代強化學(xué)習(xí)的兩根支柱，從AlphaGo到大模型RLHF（基于人類反饋的強化學(xué)習(xí)）都建于其上。

Andrew Barto

2024年，兩人因「對強化學(xué)習(xí)的奠基性貢獻」共同拿下圖靈獎。

更關(guān)鍵的是，Sutton幾十年來一直在論證一件事：智能來自經(jīng)驗。智能體在與環(huán)境的持續(xù)交互中，從獎勵和反饋里學(xué)習(xí)，沒有終點。這個判斷，正是Trajectory這家公司的底層邏輯。

Rich Sutton在2025年12月3日的NeurIPS大會上做了一場特邀演講，題目為《Oak架構(gòu)：一種來自經(jīng)驗的超級智能愿景》

當(dāng)時，Sutton的核心觀點是，AI作為一個產(chǎn)業(yè)，某種意義上已經(jīng)走偏了。要回到真正的智能，需要能持續(xù)學(xué)習(xí)的智能體，需要世界模型和規(guī)劃，需要可學(xué)習(xí)的高層知識，需要元學(xué)習(xí)。

作為AI學(xué)術(shù)界最有分量的聲音之一，Sutton把持續(xù)學(xué)習(xí)重新放回了通向超級智能的核心位置。

如今，Trajectory走向臺前，Jeff Dean和李飛飛，兩位業(yè)界最懂模型的人，共同押注這家專門做「持續(xù)學(xué)習(xí)平臺」的早期公司。

這意味著這一技術(shù)路線，已經(jīng)被學(xué)術(shù)界、資本界先后確認。

API時代的AI產(chǎn)品，本質(zhì)是「調(diào)用別人的智能」。但企業(yè)用得越深，越容易撞到這條路的天花板：通用模型不可能針對你的客服話術(shù)、銷售腳本、法律判例做出無限定制。

一旦你想真正擁有「屬于自己的智能」，就得在開源模型上做屬于自己的后訓(xùn)練。這件事的工程難度正是當(dāng)前企業(yè)AI落地遭遇的最大瓶頸。模型運維、訓(xùn)練數(shù)據(jù)治理、評估管線、安全合規(guī)、可審計性，每一項都不是調(diào)個API能解決的。

API時代之后，下一層基礎(chǔ)設(shè)施正在長出來。這一次，護城河也許不只在模型本身，更在那套讓模型變聰明的管線。

誰能把它做成標(biāo)準(zhǔn)，誰就可能拿到下半場的入場券。

參考資料：

https://www.wired.com/story/ex-google-apple-ai-researchers-want-to-make-ai-that-gets-smarter-as-you-use-it/%20

https://trajectory.ai/%20

https://www.bloomberg.com/news/articles/2025-07-11/openai-s-3-billion-deal-to-buy-ai-startup-windsurf-falls-apart

編輯：元宇

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.