<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      這才是AI Coding絕招,Agent Harness 到底是什么?

      0
      分享至

      核心痛點(diǎn):為什么 LLM 的那一套評(píng)估標(biāo)準(zhǔn)在 Agent 身上失效了?Agent Harness 的技術(shù)解藥:如何建立“數(shù)字靶場(chǎng)”?1. 沙盒化環(huán)境(Sandbox Environment)與高保真模擬2. 工具對(duì)齊機(jī)制(Tool Alignment Protocol)與“特權(quán)逃逸”3. “過(guò)程性”評(píng)分系統(tǒng)(Procedural Scoring)深度影響力分析:Agent Harness 將把 AI 帶向何方?1. 終結(jié) AI 炒作,推動(dòng)“企業(yè)級(jí)對(duì)齊”2. 算法優(yōu)化的新指路明燈:從靜態(tài)題庫(kù)到交互能力3. 開(kāi)源 vs. 閉源的新戰(zhàn)線四、 總結(jié):效率革命的底座

      前沿

      Agent Harness(通常指代 AI Agent 的自動(dòng)化評(píng)估/基準(zhǔn)測(cè)試框架,有時(shí)也特定指代近期在開(kāi)源社區(qū)火爆的某個(gè)具體實(shí)現(xiàn),如 Salesforce 推出的類似概念或開(kāi)源社區(qū)自發(fā)形成的通用測(cè)試集)之所以火爆,是因?yàn)樗鉀Q了 AI Agent 從“玩具”走向“工具”的核心瓶頸:無(wú)法量化、無(wú)法對(duì)齊、無(wú)法確信。



      文 | 思聰網(wǎng) 科技評(píng)論組

      2026年,AI 行業(yè)完成了從大語(yǔ)言模型(LLM)到自治 Agent(智能體)的范式轉(zhuǎn)移。如果說(shuō) LLM 是一個(gè)博學(xué)的“大腦”,那么 Agent 就是擁有了手腳、能夠規(guī)劃、使用工具并解決復(fù)雜問(wèn)題的“數(shù)字員工”。

      然而,在市場(chǎng)瘋狂炒作 Agent 能夠替代初級(jí)程序員、數(shù)據(jù)分析師的同時(shí),一個(gè)尷尬的“房間里的大象”始終存在:我們根本不知道它們到底有多好,或者有多壞。

      Agent Harness 的出現(xiàn),正是為了終結(jié)這種“盲人摸象”的局面。它不是一個(gè)單一的產(chǎn)品,而是近期在開(kāi)源社區(qū)和頂級(jí)大廠(如 Salesforce、Google、OpenAI)中極其火爆的技術(shù)概念——一種面向 Agent 的自動(dòng)化、高保真、具備工具對(duì)齊能力的基準(zhǔn)測(cè)試與評(píng)估框架。

      Agent Harness 為什么會(huì)成為當(dāng)前 AI 發(fā)展的“命門”?它又是如何實(shí)現(xiàn)對(duì) Agent 的量化評(píng)估的?本文將深入其技術(shù)底層進(jìn)行剖析。

      過(guò)去五年,我們?cè)u(píng)估 AI 靠的是 GSM8K(數(shù)學(xué))、MMLU(綜合知識(shí))、HumanEval(代碼生成)。這些是靜態(tài)的“考試卷”,LLM 只需要給出答案即可。

      但 Agent 不同,Agent 是動(dòng)態(tài)的過(guò)程。傳統(tǒng)的評(píng)估標(biāo)準(zhǔn)在 Agent 身上出現(xiàn)了嚴(yán)重的“排異反應(yīng)”:

      1. 靜態(tài) vs. 動(dòng)態(tài)交互: LLM 是一次性的輸入輸出。Agent 需要在環(huán)境(如操作系統(tǒng)、數(shù)據(jù)庫(kù)、網(wǎng)頁(yè))中執(zhí)行多步操作。靜態(tài)題庫(kù)無(wú)法模擬環(huán)境對(duì) Agent 操作的反饋。
      2. 成功 vs. 過(guò)程: 傳統(tǒng)評(píng)估只看最終代碼是否正確。Agent 評(píng)估必須關(guān)注過(guò)程:它是否使用了正確的工具?是否陷入了死循環(huán)?是否在第一步失敗后展現(xiàn)了反思(Self-Reflection)能力?
      3. 對(duì)齊悖論(The Alignment Paradox): 這是最硬核的技術(shù)瓶頸。Agent 執(zhí)行任務(wù)通常涉及隱私或高風(fēng)險(xiǎn)操作(例如:操作真實(shí)的 AWS 賬戶或刪除本地文件)。現(xiàn)有的 LLM 通常會(huì)被安全指引(Guardrails)限制執(zhí)行這些操作。如果 Agent 被限制使用工具,你就無(wú)法評(píng)估它使用工具的能力。

      Agent Harness 的火爆,在于它提出了一套創(chuàng)新的技術(shù)架構(gòu),用于解決上述痛點(diǎn)。盡管不同的具體實(shí)現(xiàn)(如針對(duì)軟件工程的 SWE-bench,或更通用的 AgentBench)有所差異,但它們都包含以下核心技術(shù)組件:

      Agent Harness 不會(huì)讓 Agent 在真實(shí)的互聯(lián)網(wǎng)環(huán)境中“裸奔”,而是建立一套輕量化、容器化的安全沙盒(通常基于 Docker)。

      • 技術(shù)細(xì)節(jié): 框架為每個(gè)測(cè)試用例創(chuàng)建一個(gè)獨(dú)立的、臨時(shí)的 Docker 容器。它不只是模擬命令行,而是模擬一個(gè)完整的 OS 環(huán)境,包含預(yù)裝好的軟件包、預(yù)設(shè)的文件系統(tǒng)狀態(tài)、局域網(wǎng)配置,甚至是受限的互聯(lián)網(wǎng)訪問(wèn)。
      • 意義: 無(wú)論 Agent 怎么折騰(即使是執(zhí)行 rm -rf /),都不會(huì)影響宿主機(jī)。評(píng)估結(jié)束后,容器瞬間銷毀。

      這是 Agent Harness 最“火”的核心發(fā)明。為了解決 LLM 因安全指引而拒絕使用工具的問(wèn)題,Harness 引入了一種“可信協(xié)議”:

      • 技術(shù)細(xì)節(jié): Harness 不是給 LLM 整個(gè)“松綁”,而是提供一組經(jīng)過(guò)特殊封裝的 API 工具(例如:受限的數(shù)據(jù)庫(kù)寫入權(quán)限、模擬的 API Key)。當(dāng) Harness 檢測(cè)到 LLM 需要調(diào)用這些工具來(lái)解決指定的測(cè)試任務(wù)時(shí),它會(huì)動(dòng)態(tài)地賦予 Agent 臨時(shí)的、被 Harness 監(jiān)管的“執(zhí)行特權(quán)”。
      • 隱喻: 這就像給 Agent 一個(gè)“特許通行證”,只在靶場(chǎng)內(nèi)有效,讓它能夠安全地完成任務(wù),從而展現(xiàn)其實(shí)際能力。

      Agent Harness 放棄了簡(jiǎn)單的“對(duì)/錯(cuò)”二元評(píng)分,轉(zhuǎn)向一種基于軌跡(Trace)的多維度評(píng)估。

      • 技術(shù)細(xì)節(jié): 框架不僅記錄最終結(jié)果,還完整記錄 Agent 的所有思考鏈(Thought)、執(zhí)行的操作(Act)和環(huán)境反饋(Observation)。
      • 評(píng)估指標(biāo): 成功率(SR): 最終任務(wù)是否完成。 效率(Eff): 完成任務(wù)用了多少步操作,消耗了多少 Token。 工具調(diào)用準(zhǔn)確性: 是否正確理解了工具的 API 參數(shù),調(diào)用順序是否符合邏輯。 反思能力(Self-Correction): 當(dāng)環(huán)境返回錯(cuò)誤(如代碼編譯失敗)時(shí),Agent 是否能讀取錯(cuò)誤信息并自動(dòng)修改代碼。

      Agent Harness 的火爆不是偶然,它是 AI 從推理時(shí)代進(jìn)入執(zhí)行時(shí)代的必然產(chǎn)物。它對(duì)行業(yè)的影響是深遠(yuǎn)且決定性的。

      在沒(méi)有量化評(píng)估之前,所有關(guān)于 Agent 替代人類的言論都是炒作。Agent Harness 給了企業(yè)一個(gè)明確的、可驗(yàn)證的標(biāo)準(zhǔn)。

      • 影響: 以后企業(yè)在部署 Agent 時(shí),會(huì)要求類似“SWE-bench 成功率 > 50%”的技術(shù)指標(biāo)。只有邁過(guò)這個(gè)門檻,Agent 才能被視為生產(chǎn)力工具,而非演示文檔里的“魔法”。

      以前 LLM 的優(yōu)化方向是背更多的知識(shí)、寫更符合 HumanEval 的代碼。現(xiàn)在,為了在 Harness 評(píng)估中拿高分,算法團(tuán)隊(duì)必須優(yōu)化 LLM 的“多步規(guī)劃”和“根據(jù)環(huán)境反饋?zhàn)晕倚拚钡哪芰Α?/p>

      • 影響: 這將誕生一類全新的 LLM 模型,它們不擅長(zhǎng)寫詩(shī),但極度擅長(zhǎng)調(diào)用 API 和調(diào)試 Bug。

      Agent Harness 本身正成為衡量大廠開(kāi)源誠(chéng)意的試金石。例如,Salesforce 開(kāi)源其 Agent Harness 框架,不僅是為了確立技術(shù)領(lǐng)導(dǎo)地位,更是為了建立一套有利于其生態(tài)的“Agent 行業(yè)標(biāo)準(zhǔn)”。

      • 影響: 未來(lái),誰(shuí)掌握了 Agent Harness 的評(píng)估標(biāo)準(zhǔn)制定權(quán),誰(shuí)就掌握了 AI Agent 生態(tài)的話語(yǔ)權(quán)。

      Agent Harness 的出現(xiàn)標(biāo)志著 AI 發(fā)展步入了理性成熟期。如果說(shuō) Agent 是試圖探索數(shù)字世界的哥倫布,那么 Agent Harness 就是確保船只不僅能遠(yuǎn)航,還能安全返回并帶回精確海圖的六分儀與航海日志。

      對(duì)于中國(guó)科技企業(yè)而言,不僅要跟進(jìn) Agent 本身的開(kāi)發(fā),更要深度參與甚至主導(dǎo) Agent Harness 等評(píng)估框架的建設(shè)。在這一輪以“執(zhí)行力”為核心的 AI 競(jìng)爭(zhēng)中,只有那套能量化效率、對(duì)齊安全、確信產(chǎn)出的框架,才是真正決定勝負(fù)的“隱形高地”。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      已達(dá)協(xié)議!43歲西班牙名帥接掌利物浦 率黑馬17輪不敗+獲英超第6

      已達(dá)協(xié)議!43歲西班牙名帥接掌利物浦 率黑馬17輪不敗+獲英超第6

      我愛(ài)英超
      2026-06-02 17:43:34
      25萬(wàn)億!國(guó)家啟動(dòng)史無(wú)前例超級(jí)大基建,信號(hào)強(qiáng)烈

      25萬(wàn)億!國(guó)家啟動(dòng)史無(wú)前例超級(jí)大基建,信號(hào)強(qiáng)烈

      前瞻網(wǎng)
      2026-06-02 10:49:44
      血壓飆升!上海父親曬聊天記錄,“巨嬰”兒子強(qiáng)行索要2萬(wàn)旅游費(fèi)

      血壓飆升!上海父親曬聊天記錄,“巨嬰”兒子強(qiáng)行索要2萬(wàn)旅游費(fèi)

      火山詩(shī)話
      2026-06-02 14:27:07
      為什么說(shuō)閑魚是中國(guó)最大的黑市?網(wǎng)友:我直接給跪了!

      為什么說(shuō)閑魚是中國(guó)最大的黑市?網(wǎng)友:我直接給跪了!

      另子維愛(ài)讀史
      2026-06-02 10:51:07
      疑打井糾紛,小學(xué)教師殺害33歲鄰居,涉嫌故意傷害罪被立案,死者留下兩未成年兒子;教體局:警方正偵辦

      疑打井糾紛,小學(xué)教師殺害33歲鄰居,涉嫌故意傷害罪被立案,死者留下兩未成年兒子;教體局:警方正偵辦

      大風(fēng)新聞
      2026-06-02 17:38:34
      驚人相似!戰(zhàn)爭(zhēng)打響,民意反轉(zhuǎn)!俄烏戰(zhàn)爭(zhēng)和美伊戰(zhàn)爭(zhēng)用了同一劇本?

      驚人相似!戰(zhàn)爭(zhēng)打響,民意反轉(zhuǎn)!俄烏戰(zhàn)爭(zhēng)和美伊戰(zhàn)爭(zhēng)用了同一劇本?

      公評(píng)世界
      2026-06-02 17:53:39
      東北華北等地有強(qiáng)對(duì)流?南方地區(qū)將有較強(qiáng)降水

      東北華北等地有強(qiáng)對(duì)流?南方地區(qū)將有較強(qiáng)降水

      中國(guó)氣象局
      2026-06-02 08:08:07
      帶孩子逛山姆是托舉后續(xù):遭網(wǎng)暴后,全家被牽連,丈夫震怒要算賬

      帶孩子逛山姆是托舉后續(xù):遭網(wǎng)暴后,全家被牽連,丈夫震怒要算賬

      奇思妙想草葉君
      2026-06-02 13:17:35
      中國(guó)手機(jī)全面撤離?莫迪開(kāi)始慌了,外媒:更可怕的才剛剛開(kāi)始

      中國(guó)手機(jī)全面撤離?莫迪開(kāi)始慌了,外媒:更可怕的才剛剛開(kāi)始

      混沌錄
      2026-06-01 23:24:08
      娶妻娶賢又娶色,真的絕妻!

      娶妻娶賢又娶色,真的絕妻!

      貴圈真亂
      2026-06-02 12:02:35
      姚明恩師離世!名帥阿德?tīng)柭ナ老砟?9歲:曾率火箭打出22連勝

      姚明恩師離世!名帥阿德?tīng)柭ナ老砟?9歲:曾率火箭打出22連勝

      羅說(shuō)NBA
      2026-06-02 06:54:26
      杭州限狗令正式落地,養(yǎng)狗人月花上千,憑什么讓不養(yǎng)狗的人買單?

      杭州限狗令正式落地,養(yǎng)狗人月花上千,憑什么讓不養(yǎng)狗的人買單?

      奇思妙想草葉君
      2026-06-01 19:40:34
      7年來(lái)首次!上海氣象預(yù)警重要調(diào)整→

      7年來(lái)首次!上海氣象預(yù)警重要調(diào)整→

      上觀新聞
      2026-06-01 22:04:28
      太諷刺了!國(guó)內(nèi)的職場(chǎng)環(huán)境,不像公司,像朝廷,讓人一言難盡…

      太諷刺了!國(guó)內(nèi)的職場(chǎng)環(huán)境,不像公司,像朝廷,讓人一言難盡…

      慧翔百科
      2026-06-02 08:40:47
      驚掉下巴!女生索要9000元換手機(jī),男友轉(zhuǎn)賬附上“以結(jié)婚為目的”

      驚掉下巴!女生索要9000元換手機(jī),男友轉(zhuǎn)賬附上“以結(jié)婚為目的”

      火山詩(shī)話
      2026-06-02 16:32:30
      211院校降為普通本科!

      211院校降為普通本科!

      老呂教你考MBA
      2026-06-02 11:57:50
      涉嫌嚴(yán)重違紀(jì)違法,蔣志剛,被查!

      涉嫌嚴(yán)重違紀(jì)違法,蔣志剛,被查!

      中國(guó)基金報(bào)
      2026-06-02 17:23:04
      倫敦世乒賽奪冠后,王皓宣布:王楚欽為國(guó)乒男隊(duì)隊(duì)長(zhǎng),梁靖崑為副隊(duì)長(zhǎng)

      倫敦世乒賽奪冠后,王皓宣布:王楚欽為國(guó)乒男隊(duì)隊(duì)長(zhǎng),梁靖崑為副隊(duì)長(zhǎng)

      環(huán)球網(wǎng)資訊
      2026-06-02 14:32:33
      12國(guó)掀桌子,全面限制原礦出口,中企沒(méi)有退路,只剩一條路可以走

      12國(guó)掀桌子,全面限制原礦出口,中企沒(méi)有退路,只剩一條路可以走

      影孖看世界
      2026-06-01 23:20:57
      銀行儲(chǔ)戶從鄉(xiāng)下騎車1小時(shí)到縣城 ,持身份證提升限額被要求出示戶口簿,銀行:系內(nèi)部規(guī)定

      銀行儲(chǔ)戶從鄉(xiāng)下騎車1小時(shí)到縣城 ,持身份證提升限額被要求出示戶口簿,銀行:系內(nèi)部規(guī)定

      澎湃新聞
      2026-06-02 14:59:38
      2026-06-02 20:32:49
      科技先生 incentive-icons
      科技先生
      智能設(shè)備、電子商務(wù)、創(chuàng)業(yè)沙龍
      1476文章數(shù) 35965關(guān)注度
      往期回顧 全部

      科技要聞

      燒掉千億后,美團(tuán)、阿里、京東誰(shuí)先止血?

      頭條要聞

      小學(xué)教師疑因打井糾紛殺害鄰居 死者留下兩未成年兒子

      頭條要聞

      小學(xué)教師疑因打井糾紛殺害鄰居 死者留下兩未成年兒子

      體育要聞

      1米74的業(yè)余聯(lián)賽替補(bǔ),在英超踢中衛(wèi)

      娛樂(lè)要聞

      奚夢(mèng)瑤何猷君補(bǔ)辦婚禮超幸福

      財(cái)經(jīng)要聞

      智元和宇樹的“暗戰(zhàn)”愈演愈烈

      汽車要聞

      星途神秘新車輪廓曝光 又一款性能SUV要來(lái)了?

      態(tài)度原創(chuàng)

      數(shù)碼
      游戲
      本地
      旅游
      家居

      數(shù)碼要聞

      華為nova 16系列發(fā)布:2999元起 全系配備后置紅楓原色鏡頭

      網(wǎng)咖男子專注戰(zhàn)斗爆火外網(wǎng) 被店員熱茶濺身毫不介意

      本地新聞

      用剪紙的方式,打開(kāi)江蘇揚(yáng)州

      旅游要聞

      高德與新加坡旅游局戰(zhàn)略合作,飛行街景技術(shù)首次落地海外

      家居要聞

      流線型輪廓 包容多元身形

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久精品国产99久久久古代| 亚洲午夜成人精品电影在线观看 | 欧美最猛黑人xxxx| 农夫在线精品视频导航| 不卡国产一区二区三区| 久久综合激情网| 成人品视频观看在线| 国产精品久久人人做人人爽| 亚洲综合免费观看高清| 日本三级在线播放线观看视频| 亚洲一本大道无码AV天堂| 人妻精品一区二区三区四区| 亚洲男同GAY无套GAYGAY无套| 女高中生强奷系列在线播放| 中文国产不卡一区二区| 亚洲中文字幕无码爆乳av| 精品久久久久久久久久久| 五月丁香综合缴情六月小说| 豆花视频在线吃瓜| 亚洲色偷偷色噜噜狠狠99| 久久精品99国产国产精| 67194熟妇在线观看线路| 洱源县| 免费福利视频一区二区三区高清 | 久久精品国产久精国产果冻传媒| 午夜福利大片| 国产一区二区精品偷系列| 亚洲免费v片| 【_undefined?-?P站免费版?-?永久免费的福利视频平台】https://17630364268551281430832.nx37lbnqvd.com/column/all/show?t=&tags=%E5%90%8E%E5%85%A5%E9%AA%91%E9%A9%AC&page=2&orderBy=createTime&expanded=1 | 人妻少妇精品中文字幕av蜜桃| 无码专区中文字幕视频在线| 秋霞AV鲁丝片一区二区| 欧美日韩国| 铁力市| 欧美日韩国产综合视频在线| 亚洲 小说区 图片区 都市| 国产69久久精品成人看| 天天肏屄| 亚洲老妇女一区二区三区| 九九视频在线观看| 国产91在线|中文|