![]()
發(fā)個(gè)指令,給點(diǎn)權(quán)限,AI就能自己打開游戲庫(kù)庫(kù)玩了。
不懂咋玩?那就截圖識(shí)別。沒法操作?直接現(xiàn)搓腳本。操作一坨?甚至還能上網(wǎng)自己找攻略。
這就是現(xiàn)在跑在你電腦上的 AI Agent 能做到的事兒。
Codex
![]()
世超把市面上的一些 Agent 工具測(cè)了一遍,比如Codex,TRAE,QoderWork,Workbuddy,Marvis等等。
只能說,這玩意兒吹了這么久,大伙兒可能真不用再觀望了。
從左向右依次為:第一行WorkBuddy,TRAE,Marvis;第二行Codex,QoderWork,悟空
![]()
當(dāng)然,一聽 code 啥的,大伙兒可能覺得是為專業(yè)開發(fā)者造的,門檻高,學(xué)起來用起來會(huì)很麻煩。
誒,莫擔(dān)心,大廠們也都悄摸進(jìn)化一輪了。
之前確實(shí)硬核了點(diǎn),一個(gè)兩個(gè)的都照搬 VS Code 那種傳統(tǒng)的編程頁(yè)面,適合開發(fā),但并不適合和 AI 一起開發(fā)。
VS Code頁(yè)面
![]()
既然引入 Agent 了, 那肯定得重新設(shè)計(jì),畢竟它是來干活的,而人是監(jiān)督它的。
所以大家都很默契地改了同一套交互邏輯,把具體的代碼隱去,再把 Agent 干活兒時(shí)的日志顯示出來。
在網(wǎng)頁(yè)里你可以叫它老師,但在 Agent 工具里,你得化身老板,把活兒給攤派明白。
Codex
![]()
咱先來看界面,也很簡(jiǎn)潔,主要三個(gè)部分。
左邊是你手底下掌管的項(xiàng)目,中間是常規(guī)的聊天窗口,右邊就能看到等待驗(yàn)收的東西了 ( 一般等工作開始了才會(huì)有動(dòng)靜 )。
![]()
![]()
![]()
向左滑動(dòng),依次為:Codex,TRAE,WorkBuddy,Qoderwork
能 BB 就不動(dòng)手,咱先去 Agent 工具的 “ 應(yīng)用商店 ” 里逛逛,看看有啥合適的技能包,也就是 Skill,給 Agent 裝上左膀右臂。
能看到,琳瑯滿目啊,畢竟活兒的種類也就那么多,所以但凡有名有姓的基本都能扒拉到現(xiàn)成的方案。
什么數(shù)據(jù)分析,內(nèi)容創(chuàng)作都不在話下,雖然不至于個(gè)個(gè)都好用,但參考參考終歸是能少走點(diǎn)彎路的。
Marvis
![]()
其中做的比較有新意的是騰訊新出的 Marvis,把技能商店做成了類似小紅書的信息流,可以邊刷邊收藏技能。
再加上技能在這些工具里是通用的,所以最近小紅書自己也上線了 Skill 商店,用起來也相當(dāng)方便。
當(dāng)然,就算挑不過來也沒關(guān)系,技能商店里還有幫咱選技能的技能。
Codex 里叫 Skill Installer,WorkBuddy 里叫 Find Skills,算是將懶人式進(jìn)行到底。
左:Codex;右:WorkBuddy
![]()
至于自己造技能倒是不用急,雖然可以通過 AI 一步步引導(dǎo)造出來,但先射箭后畫靶一般都不好使。
好的技能往往是先自己跑通幾遍,再提煉總結(jié),會(huì)更接地氣,也更貼合自己的使用場(chǎng)景。
![]()
![]()
向左滑動(dòng),依次為:WorkBuddy,TRAE
選好技能就可以開始任務(wù)了,這里在開始前需要選一下任務(wù)類型,默認(rèn)的是普通款,但一般 Plan 模式更好使。
這點(diǎn)還挺重要的,因?yàn)楹芏鄷r(shí)候結(jié)果不理想不是 Agent 太笨了,而是咱自己也不知道想要什么。
這個(gè) Plan 就是在任務(wù)開始前先規(guī)劃一下,明確任務(wù)的條條框框。
有什么不妥就直接改了,不用等到最后才發(fā)現(xiàn)方向跑偏了。
Codex
![]()
簡(jiǎn)單說一下咱要做什么,就能敲回車下發(fā)指令了。
為了看具體流程,咱挑 3 個(gè)幸運(yùn)兒來展示一下,OpenAI 的 Codex,字節(jié)的 TRAE 和 騰訊的 WorkBuddy,國(guó)內(nèi)外的都拉出來溜溜。
任務(wù)就原地 TP,讓它們仨銳評(píng)它們仨。
此時(shí)就能發(fā)現(xiàn) Plan 的好處了,比如執(zhí)行任務(wù)前,Codex 和 TRAE 都向我二次確認(rèn)了下 WorkBuddy 具體是哪一個(gè),因?yàn)閲?guó)外有同名的應(yīng)用,容易混淆。
TRAE
![]()
當(dāng)然,由于都是默認(rèn)的模型,速度有快有慢,但就報(bào)告結(jié)果來看,確實(shí)各有 “ 特點(diǎn) ” 吶。
WorkBuddy
![]()
先說 WorkBuddy,給到一個(gè)老實(shí)人,上來也沒問我報(bào)告是個(gè)啥形式,吭哧吭哧就是干。
最后給的網(wǎng)頁(yè),就效果來看,還是不錯(cuò)的,排版和內(nèi)容雖然 AI 味道重了點(diǎn),但花里胡哨的符合咱銳評(píng)的主基調(diào)。
而且調(diào)研后的結(jié)論相當(dāng)?shù)驼{(diào),把自己放在了靠后的位置,噴起自己毫不手軟,實(shí)誠(chéng)這一塊兒到位了。
TRAE
![]()
再來看 TRAE ,給到一個(gè)人上人,活兒干的比較細(xì)致,不管是前期的彈出式的表單規(guī)劃,還是中間的調(diào)研,思路都很清晰,子 Agent 的調(diào)用也是相當(dāng)熟練了。
核心結(jié)論里,雖然把自己排到了老大,但考量了 6 個(gè)維度,總分是加權(quán)出來的,也算是有理有據(jù)了。
Codex
![]()
最后的 Codex,基本就是目前這個(gè)領(lǐng)域的標(biāo)桿了,報(bào)告里先來一手信源分析,就跟大伙兒拉開了點(diǎn)距離,下面的評(píng)價(jià)也能明顯感覺到更深入一些,結(jié)合了官方產(chǎn)品文檔的內(nèi)容。
模型好確實(shí)有優(yōu)勢(shì),但考慮到國(guó)內(nèi)用起來不方便,暫且給到一個(gè)半夯吧。
接下來,任務(wù)繼續(xù),讓他們把各自的報(bào)告生成一份可視化的落地頁(yè)。
你可能會(huì)說這活兒在網(wǎng)頁(yè)里也能做,而且還更快。
Gemini
![]()
倒也沒錯(cuò),但不同的點(diǎn)在于,這里你不需要把代碼再?gòu)?fù)制粘貼到本地了,而且最重要的,Agent 會(huì)自己調(diào)用工具,去檢查成品有沒有 BUG。
比如同樣的任務(wù),交給網(wǎng)頁(yè)的 Gemini,這家伙甩給我?guī)装傩写a,我粘到本地打開,發(fā)現(xiàn)一片空白。。。
而這些 Agent 會(huì)在交付之前就避免這種情況。
WorkBuddy
![]()
WorkBuddy 是自己調(diào)用了 3 次預(yù)覽,做了 2 次優(yōu)化,才把網(wǎng)頁(yè)交給我。
TRAE
![]()
TRAE 直接一些,直接打開了內(nèi)置的瀏覽器,通過不同角度的截圖識(shí)別,打不開就刷新重試,直到確認(rèn)渲染效果符合預(yù)期。
Codex 也一樣, 權(quán)限不夠,老是截不著網(wǎng)頁(yè),試了 N 次才確認(rèn)好效果。
所以落地頁(yè)的效果倒是其次,重點(diǎn)是這套任務(wù)執(zhí)行的邏輯,是跟網(wǎng)頁(yè)端應(yīng)付交差完全不同的打法。
特別是截圖反饋的工具調(diào)用,相當(dāng)于給電腦安了個(gè)賽博義眼。
而像 Codex 這種更進(jìn)一步,有 Computer Use 功能,可以全局截圖反饋,然后操作。相當(dāng)于你電腦上的軟件,它都能打開,等模型能力更猛了,代打幾局 LOL 也不是不可能。
Codex
![]()
當(dāng)然,除了技能 skill,這些 Agent 工具還能接入其他應(yīng)用,像是 GitHub,郵箱,網(wǎng)盤等。
更妙的是接入一些通訊軟件,像微信,飛書,這也是龍蝦當(dāng)初火起來的一大原因。
接入后就能雙向鏈接,甭管是從 Agent 往飛書發(fā)文檔,還是從微信命令 Agent 往工位上下載資料,都沒問題。
WorkBuddy
![]()
像是之前遠(yuǎn)程軟件的升級(jí)版,加了個(gè) Agent 當(dāng)管家,幫你 24 小時(shí)盯著自己的電腦,隨叫隨到。
或者有一些定時(shí)的任務(wù),也能找到 “ 自動(dòng)化 ” 這種類型的入口,讓它接管每天枯燥重復(fù)的流程性任務(wù)。
![]()
![]()
![]()
![]()
向左滑動(dòng),依次為:Codex,TRAE,WorkBuddy,Marvis
說了這么多,其實(shí)無論是什么手段,裝什么插件,本質(zhì)上都是在約束,控制著 Agent 朝咱預(yù)定的方向產(chǎn)出東西。
有大佬精心優(yōu)化的工作流,有廠商調(diào)教好的記憶系統(tǒng),也有方便實(shí)用的技能包。
用專業(yè)點(diǎn)的話說這些都是 “ Harness ”,原意是給馬套上馬具,放這兒也是非常貼切了。
![]()
無論馬具下面的模型是哪一匹,這些 Agent 工具都得隨套隨用。
就用起來的體感而言,Codex 是比較夯的,模型給力,額度還偶爾重制,雖然需要一點(diǎn)手段,但比起 Claude 要簡(jiǎn)單得多,適合想體驗(yàn)頂尖性能的折騰黨。
要是不想麻煩,直接用國(guó)內(nèi)大廠的方案也行,嫌默認(rèn)的模型笨,就去買點(diǎn) DeepSeek 的 API 接上,也是妥妥的性價(jià)比平替。
至于平替里面選哪一個(gè)就取決于你的使用場(chǎng)景了,微信和 WorkBuddy 搭伙方便,飛書和 TRAE 集成更深,釘釘那邊就是 Qoder 以及咱沒測(cè)到的悟空了,不過邏輯都是一樣的。
![]()
但話說回來,Agent 工具也是有缺點(diǎn)的,就是上的手段越多,花費(fèi)的模型 Token 也越多,動(dòng)不動(dòng)幾十分鐘的長(zhǎng)線任務(wù),賬單會(huì)變得賊拉長(zhǎng)。
所以有什么便宜管飽的模型套餐,大伙兒就各顯神通吧。。。
而要是不太繁瑣的活兒,這些 Agent 工具也有免費(fèi)的額度,白嫖一下嘗嘗咸淡總是不虧的。
撰文:風(fēng)華
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
Codex, TRAE, WorkBuddy, Marvis,QoderWork,悟空
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.