<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      倒反天罡,AI開始給人類打分!Claude評分標準曝光: 優(yōu)秀人類得7.5分

      0
      分享至


      新智元報道


      【新智元導讀】反轉了反轉了,過去我們給AI跑分,今天Claude開始反手給人類打分!它會通過11個指標來分析你和它的歷史對話,判斷你使用AI的水平高低。在AI眼里,你是高手還是萌新?

      倒反天罡,AI開始給人類打分了!

      搞出這個功能的,還是那個抽象的Anthropic。


      這個功能雖然目前還在灰度測試階段,但已經(jīng)在海外AI圈迅速傳開了。

      AI是怎么給人類打分的?

      想象一下這個畫面:你打開Claude的設置面板,點開一個名為「AI Fluency」的專屬屏幕,點擊生成報告。

      幾秒鐘后,一份關于你AI使用習慣的「體檢報告」就赫然出現(xiàn)在眼前。

      它不僅掃描了你在Chat(日常對話)、Cowork(協(xié)作空間)甚至硬核的Claude Code里的每一次交互,還會根據(jù)一套嚴密的標準進行打分(滿分11分)。

      已經(jīng)有手速快的網(wǎng)友分享出AI給自己的評價了——7.5分。



      更可怕的是,AI的評價可謂是一針見血,直戳痛點。

      這位網(wǎng)友分享了Claude給他的弱點分析:「比如,報告指出我極其頻繁地使用各種Connector,但只要話題涉及體育數(shù)據(jù)、食譜,甚至地圖和地理位置,我就表現(xiàn)得一無所知。」


      甚至,Claude不僅指出了他的問題,還直接上手給出了指導:比如「主動通過情境激發(fā)AI的敏銳辨別力」,以及「在讓我寫第一稿之前,試著對我說——給我一個簡潔的要點摘要,不要任何前言廢話。這樣能讓你的初稿干凈得多」。

      太恐怖了,這哪里是冷冰冰的軟件,簡直是一個拿著教鞭、對你恨鐵不成鋼的賽博導師。


      還有網(wǎng)友激動地發(fā)帖尋找共鳴:「我也看到了!我特地跑來論壇確認我沒瘋!我生成了報告,結果回到筆記本電腦前,服務器報了個錯,功能就消失了!」


      現(xiàn)在,這個驚鴻一瞥的泄露,把人們的胃口吊到了極點。

      大家都在好奇:這11項打分標準,到底是什么?

      近萬份匿名對話揭秘,何為「AI流利度」?

      要搞清楚這11項標準,我們必須把時間線拉回到Anthropic發(fā)布的那份極具前瞻性的硬核研究——《AI流利度指數(shù)報告》。


      在過去,我們總以為「會寫復雜的提示詞」就是懂AI。但Anthropic認為,這種觀念太狹隘了。隨著模型越來越聰明,死記硬背提示詞模板已經(jīng)過時了。

      真正的高手,掌握的是一種被稱為「AI流利度」的軟技能。就像你熟練掌握一門外語一樣,流利度意味著你能自然、高效、無縫地與AI協(xié)作。

      為了量化這種玄學,Anthropic聯(lián)合學術界的Rick Dakan和Joseph Feller教授,提出了著名的「4D AI流利度框架」。


      研究團隊動用了強大的隱私保護分析工具(全程無人工干預,用Claude 4負責行為分類,Claude 3.5 Haiku負責語言檢測),在一個瘋狂的星期里,對9830段真實的、多輪拉扯的匿名人類對話進行了深度掃描。

      他們驚訝地發(fā)現(xiàn):這世上的AI用戶,差距比人和狗都大。

      在24項衡量人機協(xié)作的終極標準中,有13項發(fā)生在屏幕之外(比如你是否對老板隱瞞了工作是AI做的,你是否考慮了AI生成內容的倫理后果等),而剩下的11項,則是可以在聊天框里直接觀測到的絕對指標。


      每種 AI 流暢度行為指標在 9,830 次 Claude.ai 對話中的流行率,按能力從最常見到最不常見排序,并按能力顏色編碼

      這11項指標,就是如今內置在Claude里的「評分卡」的底層邏輯!

      它們主要圍繞三個大維度展開:描述、委托和辨別。


      11面「照妖鏡」,你在哪一步現(xiàn)了原形?

      準備好接受審視了嗎?讓我們逐一拆解這11項核心行為指標。


      維度一:描述——你真的知道自己想要什么嗎?

      很多人的對話框是這樣的:「幫我寫個周報」、「寫一個貪吃蛇代碼」。

      在Claude眼里,這種指令的流利度幾乎為零。真正的高手會在「設定目標」和「構建對話」上花心思。

      1.明確目標

      你是否向AI解釋了你做這件事的最終目的?

      低分玩家:「幫我潤色這段英文?!?/p>

      高分玩家:「我要給硅谷的一家風投機構發(fā)Cold Email爭取融資,請幫我潤色這段英文,確保語氣自信但不過分傲慢?!?/p>

      2.指定格式

      你是否清晰界定了輸出的樣子?

      高分玩家懂得使用:「請用Markdown表格輸出」、「請以3個小標題+每段不超過50字的要點格式呈現(xiàn)」。

      3.提供示例

      Few-shot永遠是王者。

      你是否在讓AI干活前,先喂給它一個你認可的范例?「請模仿以下這篇爆款文章的口吻來寫……」

      4.補充上下文

      AI不是你肚子里的蛔蟲。

      你是否提供了必要的背景信息?比如你的行業(yè)背景、目標受眾特征、甚至是之前踩過的坑。

      維度二:委托——把AI當合伙人,而不是自動售貨機

      在Anthropic的報告中有一個驚人的發(fā)現(xiàn):最常見的AI流利度表現(xiàn)是「增強型」的。

      這意味著人們把AI當成思維的火花碰撞機,而不是直接把活兒全部扔給AI。這類對話所展現(xiàn)的流利度,是那種簡短一來一回對話的兩倍多!

      5.迭代與精煉——最強預測因子!

      這是整份報告中最最最重要的一個指標!高達85.7%的高質量對話中包含這個行為。

      什么叫迭代?就是不要接受AI的第一次回答!

      低分玩家:看到AI寫得爛,罵一句智障,然后開啟一個新對話。

      高分玩家:「你第一點的方向對了,但第二點太學術了。請保留第一點,把第二點換成更接地氣的生活案例,然后再試一次?!?/p>

      6.任務拆解

      你是否試圖讓AI一次性寫出一本10萬字的小說?

      流利度高的用戶懂得把龐大的目標拆解:「我們先討論一下大綱;好的,現(xiàn)在基于大綱寫第一章的前半部分……」

      7.探討方法

      在動手之前,你有沒有問過AI:「你覺得解決這個問題,最好的流程是什么?」

      讓AI先輸出它的思考路徑,你再進行修正。

      維度三:辨別——不要被AI的花言巧語騙了

      隨著大模型越來越聰明,它們的幻覺也編造得越來越逼真。辨別力,是你在這個時代保命的底線。

      8.質疑推理

      當AI給出一個反直覺的結論或復雜的代碼時,你有沒有追問一句:「你得出這個結論的邏輯是什么?」、「請逐行解釋這段代碼為什么這樣寫?」

      9.事實核查

      你是否要求AI為其提供的數(shù)據(jù)給出引用,或者通過提問來驗證其準確性?

      10.識別缺失的上下文

      當AI給出的方案看似完美但脫離實際時,你能否敏銳指出:「你剛才的分析忽略了我們公司目前預算只有1萬塊錢這個事實,請重新評估?!?/p>

      11.評估結果

      明確地對AI的產(chǎn)出進行評價:「你這次使用的比喻非常精準,但結尾的情感升華還不夠,我們需要調整結尾?!?/p>

      最可怕的洞察:精美包裝下的思考降級

      在這份數(shù)萬字的報告中,如果說有什么發(fā)現(xiàn)讓人細思極恐,那絕對是關于「Artifact Paradox」的發(fā)現(xiàn)。


      在涉及artifacts的對話中(樣本量為1,209),相比無artifacts的對話(樣本量為8,621),行為指標的普遍性呈現(xiàn)出以下特征:描述行為和委派行為有所增加,而所有三種辨識行為均有所減少

      我們都知道,Claude最殺手級的功能就是Artifacts(可以隨時生成網(wǎng)頁、代碼、流程圖、互動界面的可視化窗口)。在包含這類高級產(chǎn)出的對話中(占樣本的12.3%),人類與AI的協(xié)作方式發(fā)生了劇烈的突變。

      乍一看,人類似乎變得更專業(yè)了:明確目標的比例暴增14.7%;指定格式的比例暴增14.5%;提供示例的比例暴增13.4%。

      在工作開始前,人類像個精明的項目經(jīng)理,把一切安排得明明白白。

      但是!一旦AI生成了那個看起來精美絕倫、運行絲滑的Artifact成果,人類的腦子就集體罷工了!


      數(shù)據(jù)冷酷地揭示了這一點:在產(chǎn)出這種精美成果的對話中,人類的批判性審查能力出現(xiàn)了斷崖式下跌。

      - 識別缺失上下文的概率下降5.2%

      - 核查事實的概率下降3.7%

      - 質疑AI推理邏輯的概率下降3.1%

      這是為什么?Anthropic的分析師一針見血地指出:因為看起來太像真的了!

      當AI給你一段干巴巴的文字時,你會下意識地挑錯;但當AI直接給你渲染出一個排版精美的PDF,或者一個點擊按鈕還會發(fā)光的App界面時,你潛意識里會覺得:「哇,它連這么復雜的UI都做出來了,它背后的邏輯肯定沒問題。」

      如果東西看起來是完成的,用戶就會把它當成完成的。

      但這恰恰是最危險的時刻!

      Anthropic近期的經(jīng)濟指數(shù)報告表明,任務越復雜,大模型翻車的概率其實越高。在最需要事實核查的復雜代碼和高級圖表面前,人類反而放下了戒備。


      想拿高分?掌握最強殺器——無盡迭代

      既然知道了陷阱,那通關的秘籍是什么?

      核心就是四個字:迭代精煉。


      在用戶進行迭代與優(yōu)化的對話中(樣本量為8,424),相較于未進行迭代與優(yōu)化的對話(樣本量為1,406),所有行為指標的普遍性均有顯著提升

      報告顯示,在會使用「迭代」的用戶對話中,平均會展現(xiàn)出2.67種其他的流利度行為;而不使用迭代的用戶,這個數(shù)字只有可憐的1.33。

      毫不夸張地說,「迭代」是衡量一個人會不會用AI的絕對分水嶺。

      不懂迭代的人,把AI當成搜索框;懂迭代的人,把AI當成初級實習生。

      高能預警!這是一組極其震撼的倍數(shù)對比。

      那些習慣和Claude進行多輪迭代來打磨作品的人,比起不迭代的人,去質疑AI邏輯的概率,飆升了 5.6倍!去識別上下文缺失的概率,飆升了4倍!

      這就是為什么同樣是用Claude,有的人能用它寫出拿下百萬融資的商業(yè)計劃書,有的人卻覺得它連個請假條都寫不好。

      差距不在于AI,而在于你是否愿意在對話框里多聊五塊錢的。

      下次當你覺得AI生成的文章沒有靈魂時,不要點重新生成,而是打下這段話:「你上面這版結構不錯,但語氣太像機器了?,F(xiàn)在,假設你是一個有著10年經(jīng)驗、性格有些幽默毒舌的行業(yè)老炮,請保持原有大綱,把全文重寫一遍,多用短句,并在第三段加一個自嘲的笑話?!?/p>

      當你開始習慣這樣對話時,你的AI流利度分數(shù)絕對會直線飆升。

      從工具到技能,Anthropic在下一盤大棋

      看到這里,你可能會問:Anthropic為什么要費這么大勁,去分析人類的行為,干嘛不直接卷參數(shù)、卷跑分?

      這恰恰是Anthropic區(qū)別于其他AI大廠的最高明之處:他們正在重新定義AI。

      通過《AI流利度報告》,他們告訴人類:AI不是一個你買來就能自動變強的裝備,AI是一門需要你不斷練習的語言和技能。

      把研究成果變成產(chǎn)品中的評分卡,這是一個極其精妙的反饋閉環(huán)。而Claude的評分卡,就是你的Apple Watch。

      通過這種游戲化、數(shù)據(jù)化的方式,Anthropic正在培養(yǎng)全世界最懂AI、素養(yǎng)最高的一批超級用戶。

      這不僅僅是為了產(chǎn)品留存,更是為了更安全的AI未來——因為只有具備高辨別力的人類,才不會被未來那些聰明到可怕的AI所蒙蔽。

      據(jù)透露,Anthropic已經(jīng)成立了Anthropic學院,推出了AI流利度系列課程,甚至開始與PayPal以及全球各大頂尖高校開展合作。

      未來,不同人類使用起AI,區(qū)別將很參差。

      人類,讓AI給你打個分吧

      如今,很多人都在焦慮:AI會不會搶走我的工作?

      但真正的問題或許是:你配得上現(xiàn)在這么強大的AI嗎?

      Claude即將上線的AI流利度評分卡,就像一面照妖鏡。它照出了我們在新技術面前的懶惰,也指明了通往強者的道路。

      雖然目前這個功能何時全量上線、是否對免費用戶開放還是個未知數(shù),但標準已經(jīng)擺在面前了。

      問題來了,按照這11項指標,AI給你打多少分?

      參考資料:

      https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/

      https://www.anthropic.com/research/AI-fluency-index

      編輯:Aeneas David

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最新:烏克蘭在紅軍村六地發(fā)起進攻!收復新謝利夫卡

      最新:烏克蘭在紅軍村六地發(fā)起進攻!收復新謝利夫卡

      項鵬飛
      2026-05-31 21:37:00
      奧斯卡影后出道15年:從現(xiàn)象級爆紅到人間蒸發(fā)

      奧斯卡影后出道15年:從現(xiàn)象級爆紅到人間蒸發(fā)

      追星雷達站
      2026-06-01 01:17:04
      遼寧隊欲哭無淚,張鎮(zhèn)麟福格又要奪冠,球迷建議趙繼偉交易到上海

      遼寧隊欲哭無淚,張鎮(zhèn)麟福格又要奪冠,球迷建議趙繼偉交易到上海

      宗介說體育
      2026-06-01 10:06:27
      在北京的年輕人,怎么流行買地鐵吊環(huán)了?

      在北京的年輕人,怎么流行買地鐵吊環(huán)了?

      不相及研究所
      2026-05-31 22:20:49
      法學博士牛學輝被執(zhí)行死刑,新婚12天殺害妻子,行刑前拒見親人

      法學博士牛學輝被執(zhí)行死刑,新婚12天殺害妻子,行刑前拒見親人

      深夜探案館
      2026-05-30 12:00:12
      丁向群辭任中國人保董事長,此前已晉升正部級

      丁向群辭任中國人保董事長,此前已晉升正部級

      澎湃新聞
      2026-05-31 20:00:08
      馬斯克跨性別女兒拍蕾哈娜廣告,直言不在乎首富父親

      馬斯克跨性別女兒拍蕾哈娜廣告,直言不在乎首富父親

      陳意小可愛
      2026-05-31 22:26:25
      心酸!登哥放下身段!!只求一座冠軍?。?>
    </a>
        <h3>
      <a href=心酸!登哥放下身段!!只求一座冠軍?。?/a> 柚子說球
      2026-05-31 19:58:44
      海參崴軍裝鬧劇:誰在借“紅軍符號”操弄歷史?幕后黑手必須揪出

      海參崴軍裝鬧?。赫l在借“紅軍符號”操弄歷史?幕后黑手必須揪出

      律法刑道
      2026-05-27 15:12:23
      1958年蕭華上將回鄉(xiāng),失散23年終見親妹,相見時哽咽說出一句話

      1958年蕭華上將回鄉(xiāng),失散23年終見親妹,相見時哽咽說出一句話

      磊子講史
      2026-03-06 10:35:20
      未來10年中國最缺人的4個工科專業(yè),畢業(yè)即高薪,不愁沒工作

      未來10年中國最缺人的4個工科專業(yè),畢業(yè)即高薪,不愁沒工作

      狐貍先森講升學規(guī)劃
      2026-05-30 06:30:03
      耿同學的北航博導楊昀:論文不讓國內看,跟肖飛合作,清華本碩沒有一作

      耿同學的北航博導楊昀:論文不讓國內看,跟肖飛合作,清華本碩沒有一作

      小小河
      2026-05-29 22:41:27
      33分慘案!廣廈0-3瀕臨橫掃,王博賽后一句話 徹底沒了叫板的底氣

      33分慘案!廣廈0-3瀕臨橫掃,王博賽后一句話 徹底沒了叫板的底氣

      阿訊說天下
      2026-06-01 09:35:44
      優(yōu)質內容創(chuàng)作者為何青睞上海?他們提到政策支持、行業(yè)生態(tài)與城市氛圍

      優(yōu)質內容創(chuàng)作者為何青睞上海?他們提到政策支持、行業(yè)生態(tài)與城市氛圍

      澎湃新聞
      2026-05-30 16:54:28
      回旋鏢來得太快!PUA導師教人“崩老頭”牟利,學員崩到自己親爹

      回旋鏢來得太快!PUA導師教人“崩老頭”牟利,學員崩到自己親爹

      火山詩話
      2026-06-01 10:02:13
      打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

      打不得也放不得!越南在南海大肆填海造島,中方究竟在顧慮什么?

      領悟看世界
      2026-05-25 01:15:23
      美防長7個字定性中美!他話音剛落,英國外長決定:趕緊去中國!

      美防長7個字定性中美!他話音剛落,英國外長決定:趕緊去中國!

      萬物知識圈
      2026-06-01 09:45:46
      趙今麥九寨溝直播零妝出鏡,素顏太美,山水冥想松弛感直接拉滿

      趙今麥九寨溝直播零妝出鏡,素顏太美,山水冥想松弛感直接拉滿

      觀魚聽雨
      2026-05-29 23:32:40
      她是蝎子,我是自愿背她的青蛙

      她是蝎子,我是自愿背她的青蛙

      山野有晚風
      2026-05-31 01:50:45
      汪涵楊樂樂之間,出了大問題,寵妻人設崩塌?

      汪涵楊樂樂之間,出了大問題,寵妻人設崩塌?

      美芽
      2026-05-31 18:03:34
      2026-06-01 10:43:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領航智能+時代
      15353文章數(shù) 66894關注度
      往期回顧 全部

      科技要聞

      關停三年后,天涯社區(qū)今起開放訪問

      頭條要聞

      牛彈琴:巴黎又亂了火光沖天 馬克龍都看得目瞪口呆

      頭條要聞

      牛彈琴:巴黎又亂了火光沖天 馬克龍都看得目瞪口呆

      體育要聞

      哭過之后,文班亞馬想給波波維奇打電話

      娛樂要聞

      張凌赫活動商場玻璃被擠爆5人受傷

      財經(jīng)要聞

      網(wǎng)紅驅蚊產(chǎn)品,標注化妝品竟含農(nóng)藥成分

      汽車要聞

      賣車賣到手軟 MG4 5月銷量突破15000臺

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      家居
      手機
      公開課

      教育要聞

      定了!2026山東高考模擬志愿填報安排發(fā)布!

      房產(chǎn)要聞

      紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

      家居要聞

      云棲 舒展如流云

      手機要聞

      古爾曼重申蘋果iOS 27聚焦于小修小補,明年iOS 28將更有看點

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 性视频一区| 奇米AV| 亚洲视频在线播放免费视频| 国产无套乱子伦精彩是白视频| 久久久精品国产亚洲AV日韩| 宅男噜噜噜66网站高清| 人妻社区| 国产精品lululu在线观看| 一区二区中文字幕av| 成人福利国产午夜AV免费不卡在线| 亚洲精品久久久久玩吗| 亚洲综合激情六月婷婷在线观看| 特黄aaaaaaa片免费视频| 亚洲欧美在线观看品| 精品二区| 最新国产亚洲swag精品 | 日本久久乱| 亚洲狠狠网站色噜噜| 久热这里有精彩视频免费| 五月综合视频| 日韩久久综合| 中文字幕精品亚洲四区| 中文字幕av日韩有码| 精品自拍视频| 国产丝袜熟女一区二区在线| 国产精品一区二区不卡的视频| 亚洲精品国产综合久久一线| 精品人妻av区乱码| 国产美女久久久亚洲综合| 特黄特色的大片观看免费视频| 精品熟女日韩中文十区| 蜜芽久久人人超碰爱香蕉| 国色天香中文字幕在线视频| 综合色色综合| 蜜臀av人妻国产精品建身房 | 国产区成人精品视频| 狠狠色噜噜狠狠米奇777| 久久99精品久久久久久| 乱人伦中文字幕成人网站在线| 丰满少妇高潮惨叫久久久| 久久这里都是精品一区|