網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

倒反天罡，AI開始給人類打分！Claude評分標準曝光: 優(yōu)秀人類得7.5分

2026-05-30 15:07:01　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】反轉了反轉了，過去我們給AI跑分，今天Claude開始反手給人類打分！它會通過11個指標來分析你和它的歷史對話，判斷你使用AI的水平高低。在AI眼里，你是高手還是萌新？

倒反天罡，AI開始給人類打分了！

搞出這個功能的，還是那個抽象的Anthropic。

這個功能雖然目前還在灰度測試階段，但已經(jīng)在海外AI圈迅速傳開了。

AI是怎么給人類打分的？

想象一下這個畫面：你打開Claude的設置面板，點開一個名為「AI Fluency」的專屬屏幕，點擊生成報告。

幾秒鐘后，一份關于你AI使用習慣的「體檢報告」就赫然出現(xiàn)在眼前。

它不僅掃描了你在Chat（日常對話）、Cowork（協(xié)作空間）甚至硬核的Claude Code里的每一次交互，還會根據(jù)一套嚴密的標準進行打分（滿分11分）。

已經(jīng)有手速快的網(wǎng)友分享出AI給自己的評價了——7.5分。

更可怕的是，AI的評價可謂是一針見血，直戳痛點。

這位網(wǎng)友分享了Claude給他的弱點分析：「比如，報告指出我極其頻繁地使用各種Connector，但只要話題涉及體育數(shù)據(jù)、食譜，甚至地圖和地理位置，我就表現(xiàn)得一無所知。」

甚至，Claude不僅指出了他的問題，還直接上手給出了指導：比如「主動通過情境激發(fā)AI的敏銳辨別力」，以及「在讓我寫第一稿之前，試著對我說——給我一個簡潔的要點摘要，不要任何前言廢話。這樣能讓你的初稿干凈得多」。

太恐怖了，這哪里是冷冰冰的軟件，簡直是一個拿著教鞭、對你恨鐵不成鋼的賽博導師。

還有網(wǎng)友激動地發(fā)帖尋找共鳴：「我也看到了！我特地跑來論壇確認我沒瘋！我生成了報告，結果回到筆記本電腦前，服務器報了個錯，功能就消失了！」

現(xiàn)在，這個驚鴻一瞥的泄露，把人們的胃口吊到了極點。

大家都在好奇：這11項打分標準，到底是什么？

近萬份匿名對話揭秘，何為「AI流利度」？

要搞清楚這11項標準，我們必須把時間線拉回到Anthropic發(fā)布的那份極具前瞻性的硬核研究——《AI流利度指數(shù)報告》。

在過去，我們總以為「會寫復雜的提示詞」就是懂AI。但Anthropic認為，這種觀念太狹隘了。隨著模型越來越聰明，死記硬背提示詞模板已經(jīng)過時了。

真正的高手，掌握的是一種被稱為「AI流利度」的軟技能。就像你熟練掌握一門外語一樣，流利度意味著你能自然、高效、無縫地與AI協(xié)作。

為了量化這種玄學，Anthropic聯(lián)合學術界的Rick Dakan和Joseph Feller教授，提出了著名的「4D AI流利度框架」。

研究團隊動用了強大的隱私保護分析工具（全程無人工干預，用Claude 4負責行為分類，Claude 3.5 Haiku負責語言檢測），在一個瘋狂的星期里，對9830段真實的、多輪拉扯的匿名人類對話進行了深度掃描。

他們驚訝地發(fā)現(xiàn)：這世上的AI用戶，差距比人和狗都大。

在24項衡量人機協(xié)作的終極標準中，有13項發(fā)生在屏幕之外（比如你是否對老板隱瞞了工作是AI做的，你是否考慮了AI生成內容的倫理后果等），而剩下的11項，則是可以在聊天框里直接觀測到的絕對指標。

每種 AI 流暢度行為指標在 9,830 次 Claude.ai 對話中的流行率，按能力從最常見到最不常見排序，并按能力顏色編碼

這11項指標，就是如今內置在Claude里的「評分卡」的底層邏輯！

它們主要圍繞三個大維度展開：描述、委托和辨別。

11面「照妖鏡」，你在哪一步現(xiàn)了原形？

準備好接受審視了嗎？讓我們逐一拆解這11項核心行為指標。

維度一：描述——你真的知道自己想要什么嗎？

很多人的對話框是這樣的：「幫我寫個周報」、「寫一個貪吃蛇代碼」。

在Claude眼里，這種指令的流利度幾乎為零。真正的高手會在「設定目標」和「構建對話」上花心思。

1.明確目標

你是否向AI解釋了你做這件事的最終目的？

低分玩家：「幫我潤色這段英文?！?/p>

高分玩家：「我要給硅谷的一家風投機構發(fā)Cold Email爭取融資，請幫我潤色這段英文，確保語氣自信但不過分傲慢?！?/p>

2.指定格式

你是否清晰界定了輸出的樣子？

高分玩家懂得使用：「請用Markdown表格輸出」、「請以3個小標題+每段不超過50字的要點格式呈現(xiàn)」。

3.提供示例

Few-shot永遠是王者。

你是否在讓AI干活前，先喂給它一個你認可的范例？「請模仿以下這篇爆款文章的口吻來寫……」

4.補充上下文

AI不是你肚子里的蛔蟲。

你是否提供了必要的背景信息？比如你的行業(yè)背景、目標受眾特征、甚至是之前踩過的坑。

維度二：委托——把AI當合伙人，而不是自動售貨機

在Anthropic的報告中有一個驚人的發(fā)現(xiàn)：最常見的AI流利度表現(xiàn)是「增強型」的。

這意味著人們把AI當成思維的火花碰撞機，而不是直接把活兒全部扔給AI。這類對話所展現(xiàn)的流利度，是那種簡短一來一回對話的兩倍多！

5.迭代與精煉——最強預測因子！

這是整份報告中最最最重要的一個指標！高達85.7%的高質量對話中包含這個行為。

什么叫迭代？就是不要接受AI的第一次回答！

低分玩家：看到AI寫得爛，罵一句智障，然后開啟一個新對話。

高分玩家：「你第一點的方向對了，但第二點太學術了。請保留第一點，把第二點換成更接地氣的生活案例，然后再試一次?！?/p>

6.任務拆解

你是否試圖讓AI一次性寫出一本10萬字的小說？

流利度高的用戶懂得把龐大的目標拆解：「我們先討論一下大綱；好的，現(xiàn)在基于大綱寫第一章的前半部分……」

7.探討方法

在動手之前，你有沒有問過AI：「你覺得解決這個問題，最好的流程是什么？」

讓AI先輸出它的思考路徑，你再進行修正。

維度三：辨別——不要被AI的花言巧語騙了

隨著大模型越來越聰明，它們的幻覺也編造得越來越逼真。辨別力，是你在這個時代保命的底線。

8.質疑推理

當AI給出一個反直覺的結論或復雜的代碼時，你有沒有追問一句：「你得出這個結論的邏輯是什么？」、「請逐行解釋這段代碼為什么這樣寫？」

9.事實核查

你是否要求AI為其提供的數(shù)據(jù)給出引用，或者通過提問來驗證其準確性？

10.識別缺失的上下文

當AI給出的方案看似完美但脫離實際時，你能否敏銳指出：「你剛才的分析忽略了我們公司目前預算只有1萬塊錢這個事實，請重新評估?！?/p>

11.評估結果

明確地對AI的產(chǎn)出進行評價：「你這次使用的比喻非常精準，但結尾的情感升華還不夠，我們需要調整結尾?！?/p>

最可怕的洞察：精美包裝下的思考降級

在這份數(shù)萬字的報告中，如果說有什么發(fā)現(xiàn)讓人細思極恐，那絕對是關于「Artifact Paradox」的發(fā)現(xiàn)。

在涉及artifacts的對話中（樣本量為1,209），相比無artifacts的對話（樣本量為8,621），行為指標的普遍性呈現(xiàn)出以下特征：描述行為和委派行為有所增加，而所有三種辨識行為均有所減少

我們都知道，Claude最殺手級的功能就是Artifacts（可以隨時生成網(wǎng)頁、代碼、流程圖、互動界面的可視化窗口）。在包含這類高級產(chǎn)出的對話中（占樣本的12.3%），人類與AI的協(xié)作方式發(fā)生了劇烈的突變。

乍一看，人類似乎變得更專業(yè)了：明確目標的比例暴增14.7%；指定格式的比例暴增14.5%；提供示例的比例暴增13.4%。

在工作開始前，人類像個精明的項目經(jīng)理，把一切安排得明明白白。

但是！一旦AI生成了那個看起來精美絕倫、運行絲滑的Artifact成果，人類的腦子就集體罷工了！

數(shù)據(jù)冷酷地揭示了這一點：在產(chǎn)出這種精美成果的對話中，人類的批判性審查能力出現(xiàn)了斷崖式下跌。

- 識別缺失上下文的概率下降5.2%

- 核查事實的概率下降3.7%

- 質疑AI推理邏輯的概率下降3.1%

這是為什么？Anthropic的分析師一針見血地指出：因為看起來太像真的了！

當AI給你一段干巴巴的文字時，你會下意識地挑錯；但當AI直接給你渲染出一個排版精美的PDF，或者一個點擊按鈕還會發(fā)光的App界面時，你潛意識里會覺得：「哇，它連這么復雜的UI都做出來了，它背后的邏輯肯定沒問題。」

如果東西看起來是完成的，用戶就會把它當成完成的。

但這恰恰是最危險的時刻！

Anthropic近期的經(jīng)濟指數(shù)報告表明，任務越復雜，大模型翻車的概率其實越高。在最需要事實核查的復雜代碼和高級圖表面前，人類反而放下了戒備。

想拿高分？掌握最強殺器——無盡迭代

既然知道了陷阱，那通關的秘籍是什么？

核心就是四個字：迭代精煉。

在用戶進行迭代與優(yōu)化的對話中（樣本量為8,424），相較于未進行迭代與優(yōu)化的對話（樣本量為1,406），所有行為指標的普遍性均有顯著提升

報告顯示，在會使用「迭代」的用戶對話中，平均會展現(xiàn)出2.67種其他的流利度行為；而不使用迭代的用戶，這個數(shù)字只有可憐的1.33。

毫不夸張地說，「迭代」是衡量一個人會不會用AI的絕對分水嶺。

不懂迭代的人，把AI當成搜索框；懂迭代的人，把AI當成初級實習生。

高能預警！這是一組極其震撼的倍數(shù)對比。

那些習慣和Claude進行多輪迭代來打磨作品的人，比起不迭代的人，去質疑AI邏輯的概率，飆升了 5.6倍！去識別上下文缺失的概率，飆升了4倍！

這就是為什么同樣是用Claude，有的人能用它寫出拿下百萬融資的商業(yè)計劃書，有的人卻覺得它連個請假條都寫不好。

差距不在于AI，而在于你是否愿意在對話框里多聊五塊錢的。

下次當你覺得AI生成的文章沒有靈魂時，不要點重新生成，而是打下這段話：「你上面這版結構不錯，但語氣太像機器了?，F(xiàn)在，假設你是一個有著10年經(jīng)驗、性格有些幽默毒舌的行業(yè)老炮，請保持原有大綱，把全文重寫一遍，多用短句，并在第三段加一個自嘲的笑話?！?/p>

當你開始習慣這樣對話時，你的AI流利度分數(shù)絕對會直線飆升。

從工具到技能，Anthropic在下一盤大棋

看到這里，你可能會問：Anthropic為什么要費這么大勁，去分析人類的行為，干嘛不直接卷參數(shù)、卷跑分？

這恰恰是Anthropic區(qū)別于其他AI大廠的最高明之處：他們正在重新定義AI。

通過《AI流利度報告》，他們告訴人類：AI不是一個你買來就能自動變強的裝備，AI是一門需要你不斷練習的語言和技能。

把研究成果變成產(chǎn)品中的評分卡，這是一個極其精妙的反饋閉環(huán)。而Claude的評分卡，就是你的Apple Watch。

通過這種游戲化、數(shù)據(jù)化的方式，Anthropic正在培養(yǎng)全世界最懂AI、素養(yǎng)最高的一批超級用戶。

這不僅僅是為了產(chǎn)品留存，更是為了更安全的AI未來——因為只有具備高辨別力的人類，才不會被未來那些聰明到可怕的AI所蒙蔽。

據(jù)透露，Anthropic已經(jīng)成立了Anthropic學院，推出了AI流利度系列課程，甚至開始與PayPal以及全球各大頂尖高校開展合作。

未來，不同人類使用起AI，區(qū)別將很參差。

人類，讓AI給你打個分吧

如今，很多人都在焦慮：AI會不會搶走我的工作？

但真正的問題或許是：你配得上現(xiàn)在這么強大的AI嗎？

Claude即將上線的AI流利度評分卡，就像一面照妖鏡。它照出了我們在新技術面前的懶惰，也指明了通往強者的道路。

雖然目前這個功能何時全量上線、是否對免費用戶開放還是個未知數(shù)，但標準已經(jīng)擺在面前了。

問題來了，按照這11項指標，AI給你打多少分？

參考資料：

https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/

https://www.anthropic.com/research/AI-fluency-index

編輯：Aeneas David

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

內存暴降50倍，MIT提出注意力匹配，能終結大模型顯存危機嗎？

機器之心Pro 2026-05-31 19:40:19
1 跟貼 1
一張肉眼難辨的圖片，就能讓GPT-5.4、Claude Opus 4.6集體造謠

機器之心Pro 2026-05-31 18:30:55
0 跟貼 0

從Token無上限到全員Agent：MiniMax的AI Native組織進化實踐

量子位 2026-05-31 11:48:15
21 跟貼 21

李飛飛、Jeff Dean押注！不卷大模型，專練越用越聰明的AI

新智元 2026-06-01 09:07:07
0 跟貼 0
00后小孩哥10天AI編程，陳天橋24小時砸3000萬！靠大四作業(yè)當上CEO

36氪 2026-03-08 17:24:08
26 跟貼 26

黃仁勛即將發(fā)表主題演講 AIPC新時代要來了？

財聯(lián)社 2026-06-01 09:42:22
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
GPU搶了風頭，西部數(shù)據(jù)說存儲才是AI規(guī)模化的真正門檻

鈦媒體APP 2026-06-01 09:46:14
0 跟貼 0

邱錫鵬：未來我們一定會進入泛情境智能時代

量子位 2026-05-21 08:04:26
0 跟貼 0
硬氪觀察 | 蘋果代工廠開造人形機器人，一場豪賭未來的產(chǎn)能大遷移

36氪 2026-06-01 10:18:04
0 跟貼 0
海外投資人集體轉向！AI最關注這個指標

財聯(lián)社 2026-04-30 10:25:38
0 跟貼 0
狗子：不好觸發(fā)底層代碼了

娛圈小宇宙 2026-05-29 20:29:47
16 跟貼 16
CMU開源首份Agentic Search日志數(shù)據(jù)，把Agent拆開給你看

機器之心Pro 2026-02-09 12:05:13
0 跟貼 0
面試官：說一下 Agent 的常見范式

新浪財經(jīng) 2026-05-31 10:41:28
0 跟貼 0
媒體：印度多個領域面臨嚴重問題莫迪發(fā)出罕見的號召

上觀新聞 2026-05-31 19:14:08
20047 跟貼 20047
你不會說話，不是因為嘴巴笨

心事寄山海 2026-06-01 02:30:16
0 跟貼 0
不卷分數(shù)了，我讓兒子換條路

思哲與創(chuàng)富 2026-06-01 10:25:53
0 跟貼 0
邏輯自洽，滿口西巴

小龍追劇 2026-05-31 19:02:33
4 跟貼 4
AI自己寫代碼，訓出1B端側「小鋼炮」-1

機器之心Pro 2026-05-26 14:32:09
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
熬三晚代碼被加名，董事長點名組長看我，我搖頭：不歸我管

曉艾故事匯 2026-06-01 08:43:23
0 跟貼 0
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
心臟好不好，先看7個指標，再看4個不舒服！

心血管王醫(yī)生 2026-05-30 17:01:18
38 跟貼 38
鋼筋骨架和模板的完美配合

杰出清蓮 2026-05-30 11:01:13
1 跟貼 1
用模板刮出的立體造型，細節(jié)拉滿

曉曉的意大利鄉(xiāng)村生活 2026-05-30 11:40:02
1 跟貼 1
大山在老撾建房：磚砌模板劃算，還是木工模板更省錢？

阿抽崽 2026-06-01 00:59:14
0 跟貼 0
中國代表"香會"向菲律賓防長提問菲防長現(xiàn)場大放厥詞

北京日報 2026-05-31 21:15:10
3380 跟貼 3380
豹2主戰(zhàn)坦克，經(jīng)歷不斷迭代進化，依舊是陸地之王 #軍事科普

戰(zhàn)爭黑匣子 2026-05-28 21:40:47
1 跟貼 1
別光給Agent加Tool了，它根本選不明白！

量子位 2026-05-31 22:26:35
1 跟貼 1
不只是調用API，Spatial-Agent讓大模型生成可執(zhí)行地理分析工作流

機器之心Pro 2026-05-26 14:32:03
0 跟貼 0
天津津門虎1-0大連英博，賽后評分：天津津門虎18號排第一

俯身沖頂 2026-05-31 20:57:41
16 跟貼 16
張雪機車收獲兩個第8名，張雪發(fā)文反對車手德比斯攬責：“知道短板了就改進，相信下一代賽車更強”

都市快報橙柿互動 2026-06-01 08:57:58
586 跟貼 586
世界上最快的模型車超過300公里的時速

淺夢看世界 2026-05-30 00:16:47
3 跟貼 3
印度邏輯里是看不起美國的！

乍閃超新星 2026-05-31 14:16:53
0 跟貼 0
鮮奶雪糕包裝印“不加一滴水”配料表首位竟是水廠家：系舊包裝，已改名“一滴水”

上游新聞 2026-05-29 18:03:05
1852 跟貼 1852
再被曝光“圈路收費”的瀘沽湖景區(qū)：已開通過境車輛專用通道

南方都市報 2026-05-29 17:10:06
1594 跟貼 1594
SpaceX星艦模型真的戳中我了！4斤重的304不銹鋼材質，全鏡面工藝摸起來超有質感，擺在那兒就顯得

制造科技 2026-05-28 18:27:19
27 跟貼 27
法國外長強烈譴責：這是一個嚴重錯誤！

上觀新聞 2026-05-31 19:49:03
301 跟貼 301
剛刷到Famitsu新評分，這周編輯們油門焊死了

奶兇的小霸王 2026-05-31 20:02:41
4 跟貼 4
距離冠軍一步之遙，上海大鯊魚為何總決賽能連贏三場？主帥盧偉給出答案

上觀新聞 2026-06-01 07:44:07
9 跟貼 9

心酸！登哥放下身段！！只求一座冠軍?。?/a> 柚子說球

2026-05-31 19:58:44

新智元

AI產(chǎn)業(yè)主平臺領航智能+時代

15353文章數(shù) 66894關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房產(chǎn)

家居

手機

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

倒反天罡，AI開始給人類打分！Claude評分標準曝光: 優(yōu)秀人類得7.5分

關停三年后，天涯社區(qū)今起開放訪問

牛彈琴：巴黎又亂了火光沖天 馬克龍都看得目瞪口呆

牛彈琴：巴黎又亂了火光沖天 馬克龍都看得目瞪口呆

哭過之后，文班亞馬想給波波維奇打電話

張凌赫活動商場玻璃被擠爆5人受傷

網(wǎng)紅驅蚊產(chǎn)品，標注化妝品竟含農(nóng)藥成分

賣車賣到手軟 MG4 5月銷量突破15000臺

態(tài)度原創(chuàng)

定了！2026山東高考模擬志愿填報安排發(fā)布！

紅動五月！全國搶入核心資產(chǎn)，廣州盯緊凱旋新世界！

云棲 舒展如流云

古爾曼重申蘋果iOS 27聚焦于小修小補，明年iOS 28將更有看點

牛彈琴：巴黎又亂了火光沖天馬克龍都看得目瞪口呆

牛彈琴：巴黎又亂了火光沖天馬克龍都看得目瞪口呆

哭過之后，文班亞馬想給波波維奇打電話

紅動五月！全國搶入核心資產(chǎn)，廣州盯緊凱旋新世界！

云棲舒展如流云

古爾曼重申蘋果iOS 27聚焦于小修小補，明年iOS 28將更有看點