<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      倒反天罡,AI開始給人類打分!Claude評分標準曝光: 優秀人類得7.5分

      0
      分享至


      新智元報道


      【新智元導讀】反轉了反轉了,過去我們給AI跑分,今天Claude開始反手給人類打分!它會通過11個指標來分析你和它的歷史對話,判斷你使用AI的水平高低。在AI眼里,你是高手還是萌新?

      倒反天罡,AI開始給人類打分了!

      搞出這個功能的,還是那個抽象的Anthropic。


      這個功能雖然目前還在灰度測試階段,但已經在海外AI圈迅速傳開了。

      AI是怎么給人類打分的?

      想象一下這個畫面:你打開Claude的設置面板,點開一個名為「AI Fluency」的專屬屏幕,點擊生成報告。

      幾秒鐘后,一份關于你AI使用習慣的「體檢報告」就赫然出現在眼前。

      它不僅掃描了你在Chat(日常對話)、Cowork(協作空間)甚至硬核的Claude Code里的每一次交互,還會根據一套嚴密的標準進行打分(滿分11分)。

      已經有手速快的網友分享出AI給自己的評價了——7.5分。



      更可怕的是,AI的評價可謂是一針見血,直戳痛點。

      這位網友分享了Claude給他的弱點分析:「比如,報告指出我極其頻繁地使用各種Connector,但只要話題涉及體育數據、食譜,甚至地圖和地理位置,我就表現得一無所知?!?/p>


      甚至,Claude不僅指出了他的問題,還直接上手給出了指導:比如「主動通過情境激發AI的敏銳辨別力」,以及「在讓我寫第一稿之前,試著對我說——給我一個簡潔的要點摘要,不要任何前言廢話。這樣能讓你的初稿干凈得多」。

      太恐怖了,這哪里是冷冰冰的軟件,簡直是一個拿著教鞭、對你恨鐵不成鋼的賽博導師。


      還有網友激動地發帖尋找共鳴:「我也看到了!我特地跑來論壇確認我沒瘋!我生成了報告,結果回到筆記本電腦前,服務器報了個錯,功能就消失了!」


      現在,這個驚鴻一瞥的泄露,把人們的胃口吊到了極點。

      大家都在好奇:這11項打分標準,到底是什么?

      近萬份匿名對話揭秘,何為「AI流利度」?

      要搞清楚這11項標準,我們必須把時間線拉回到Anthropic發布的那份極具前瞻性的硬核研究——《AI流利度指數報告》。


      在過去,我們總以為「會寫復雜的提示詞」就是懂AI。但Anthropic認為,這種觀念太狹隘了。隨著模型越來越聰明,死記硬背提示詞模板已經過時了。

      真正的高手,掌握的是一種被稱為「AI流利度」的軟技能。就像你熟練掌握一門外語一樣,流利度意味著你能自然、高效、無縫地與AI協作。

      為了量化這種玄學,Anthropic聯合學術界的Rick Dakan和Joseph Feller教授,提出了著名的「4D AI流利度框架」。


      研究團隊動用了強大的隱私保護分析工具(全程無人工干預,用Claude 4負責行為分類,Claude 3.5 Haiku負責語言檢測),在一個瘋狂的星期里,對9830段真實的、多輪拉扯的匿名人類對話進行了深度掃描。

      他們驚訝地發現:這世上的AI用戶,差距比人和狗都大。

      在24項衡量人機協作的終極標準中,有13項發生在屏幕之外(比如你是否對老板隱瞞了工作是AI做的,你是否考慮了AI生成內容的倫理后果等),而剩下的11項,則是可以在聊天框里直接觀測到的絕對指標。


      每種 AI 流暢度行為指標在 9,830 次 Claude.ai 對話中的流行率,按能力從最常見到最不常見排序,并按能力顏色編碼

      這11項指標,就是如今內置在Claude里的「評分卡」的底層邏輯!

      它們主要圍繞三個大維度展開:描述、委托和辨別。


      11面「照妖鏡」,你在哪一步現了原形?

      準備好接受審視了嗎?讓我們逐一拆解這11項核心行為指標。


      維度一:描述——你真的知道自己想要什么嗎?

      很多人的對話框是這樣的:「幫我寫個周報」、「寫一個貪吃蛇代碼」。

      在Claude眼里,這種指令的流利度幾乎為零。真正的高手會在「設定目標」和「構建對話」上花心思。

      1.明確目標

      你是否向AI解釋了你做這件事的最終目的?

      低分玩家:「幫我潤色這段英文。」

      高分玩家:「我要給硅谷的一家風投機構發Cold Email爭取融資,請幫我潤色這段英文,確保語氣自信但不過分傲慢?!?/p>

      2.指定格式

      你是否清晰界定了輸出的樣子?

      高分玩家懂得使用:「請用Markdown表格輸出」、「請以3個小標題+每段不超過50字的要點格式呈現」。

      3.提供示例

      Few-shot永遠是王者。

      你是否在讓AI干活前,先喂給它一個你認可的范例?「請模仿以下這篇爆款文章的口吻來寫……」

      4.補充上下文

      AI不是你肚子里的蛔蟲。

      你是否提供了必要的背景信息?比如你的行業背景、目標受眾特征、甚至是之前踩過的坑。

      維度二:委托——把AI當合伙人,而不是自動售貨機

      在Anthropic的報告中有一個驚人的發現:最常見的AI流利度表現是「增強型」的。

      這意味著人們把AI當成思維的火花碰撞機,而不是直接把活兒全部扔給AI。這類對話所展現的流利度,是那種簡短一來一回對話的兩倍多!

      5.迭代與精煉——最強預測因子!

      這是整份報告中最最最重要的一個指標!高達85.7%的高質量對話中包含這個行為。

      什么叫迭代?就是不要接受AI的第一次回答!

      低分玩家:看到AI寫得爛,罵一句智障,然后開啟一個新對話。

      高分玩家:「你第一點的方向對了,但第二點太學術了。請保留第一點,把第二點換成更接地氣的生活案例,然后再試一次。」

      6.任務拆解

      你是否試圖讓AI一次性寫出一本10萬字的小說?

      流利度高的用戶懂得把龐大的目標拆解:「我們先討論一下大綱;好的,現在基于大綱寫第一章的前半部分……」

      7.探討方法

      在動手之前,你有沒有問過AI:「你覺得解決這個問題,最好的流程是什么?」

      讓AI先輸出它的思考路徑,你再進行修正。

      維度三:辨別——不要被AI的花言巧語騙了

      隨著大模型越來越聰明,它們的幻覺也編造得越來越逼真。辨別力,是你在這個時代保命的底線。

      8.質疑推理

      當AI給出一個反直覺的結論或復雜的代碼時,你有沒有追問一句:「你得出這個結論的邏輯是什么?」、「請逐行解釋這段代碼為什么這樣寫?」

      9.事實核查

      你是否要求AI為其提供的數據給出引用,或者通過提問來驗證其準確性?

      10.識別缺失的上下文

      當AI給出的方案看似完美但脫離實際時,你能否敏銳指出:「你剛才的分析忽略了我們公司目前預算只有1萬塊錢這個事實,請重新評估?!?/p>

      11.評估結果

      明確地對AI的產出進行評價:「你這次使用的比喻非常精準,但結尾的情感升華還不夠,我們需要調整結尾?!?/p>

      最可怕的洞察:精美包裝下的思考降級

      在這份數萬字的報告中,如果說有什么發現讓人細思極恐,那絕對是關于「Artifact Paradox」的發現。


      在涉及artifacts的對話中(樣本量為1,209),相比無artifacts的對話(樣本量為8,621),行為指標的普遍性呈現出以下特征:描述行為和委派行為有所增加,而所有三種辨識行為均有所減少

      我們都知道,Claude最殺手級的功能就是Artifacts(可以隨時生成網頁、代碼、流程圖、互動界面的可視化窗口)。在包含這類高級產出的對話中(占樣本的12.3%),人類與AI的協作方式發生了劇烈的突變。

      乍一看,人類似乎變得更專業了:明確目標的比例暴增14.7%;指定格式的比例暴增14.5%;提供示例的比例暴增13.4%。

      在工作開始前,人類像個精明的項目經理,把一切安排得明明白白。

      但是!一旦AI生成了那個看起來精美絕倫、運行絲滑的Artifact成果,人類的腦子就集體罷工了!


      數據冷酷地揭示了這一點:在產出這種精美成果的對話中,人類的批判性審查能力出現了斷崖式下跌。

      - 識別缺失上下文的概率下降5.2%

      - 核查事實的概率下降3.7%

      - 質疑AI推理邏輯的概率下降3.1%

      這是為什么?Anthropic的分析師一針見血地指出:因為看起來太像真的了!

      當AI給你一段干巴巴的文字時,你會下意識地挑錯;但當AI直接給你渲染出一個排版精美的PDF,或者一個點擊按鈕還會發光的App界面時,你潛意識里會覺得:「哇,它連這么復雜的UI都做出來了,它背后的邏輯肯定沒問題?!?/p>

      如果東西看起來是完成的,用戶就會把它當成完成的。

      但這恰恰是最危險的時刻!

      Anthropic近期的經濟指數報告表明,任務越復雜,大模型翻車的概率其實越高。在最需要事實核查的復雜代碼和高級圖表面前,人類反而放下了戒備。


      想拿高分?掌握最強殺器——無盡迭代

      既然知道了陷阱,那通關的秘籍是什么?

      核心就是四個字:迭代精煉。


      在用戶進行迭代與優化的對話中(樣本量為8,424),相較于未進行迭代與優化的對話(樣本量為1,406),所有行為指標的普遍性均有顯著提升

      報告顯示,在會使用「迭代」的用戶對話中,平均會展現出2.67種其他的流利度行為;而不使用迭代的用戶,這個數字只有可憐的1.33。

      毫不夸張地說,「迭代」是衡量一個人會不會用AI的絕對分水嶺。

      不懂迭代的人,把AI當成搜索框;懂迭代的人,把AI當成初級實習生。

      高能預警!這是一組極其震撼的倍數對比。

      那些習慣和Claude進行多輪迭代來打磨作品的人,比起不迭代的人,去質疑AI邏輯的概率,飆升了 5.6倍!去識別上下文缺失的概率,飆升了4倍!

      這就是為什么同樣是用Claude,有的人能用它寫出拿下百萬融資的商業計劃書,有的人卻覺得它連個請假條都寫不好。

      差距不在于AI,而在于你是否愿意在對話框里多聊五塊錢的。

      下次當你覺得AI生成的文章沒有靈魂時,不要點重新生成,而是打下這段話:「你上面這版結構不錯,但語氣太像機器了?,F在,假設你是一個有著10年經驗、性格有些幽默毒舌的行業老炮,請保持原有大綱,把全文重寫一遍,多用短句,并在第三段加一個自嘲的笑話?!?/p>

      當你開始習慣這樣對話時,你的AI流利度分數絕對會直線飆升。

      從工具到技能,Anthropic在下一盤大棋

      看到這里,你可能會問:Anthropic為什么要費這么大勁,去分析人類的行為,干嘛不直接卷參數、卷跑分?

      這恰恰是Anthropic區別于其他AI大廠的最高明之處:他們正在重新定義AI。

      通過《AI流利度報告》,他們告訴人類:AI不是一個你買來就能自動變強的裝備,AI是一門需要你不斷練習的語言和技能。

      把研究成果變成產品中的評分卡,這是一個極其精妙的反饋閉環。而Claude的評分卡,就是你的Apple Watch。

      通過這種游戲化、數據化的方式,Anthropic正在培養全世界最懂AI、素養最高的一批超級用戶。

      這不僅僅是為了產品留存,更是為了更安全的AI未來——因為只有具備高辨別力的人類,才不會被未來那些聰明到可怕的AI所蒙蔽。

      據透露,Anthropic已經成立了Anthropic學院,推出了AI流利度系列課程,甚至開始與PayPal以及全球各大頂尖高校開展合作。

      未來,不同人類使用起AI,區別將很參差。

      人類,讓AI給你打個分吧

      如今,很多人都在焦慮:AI會不會搶走我的工作?

      但真正的問題或許是:你配得上現在這么強大的AI嗎?

      Claude即將上線的AI流利度評分卡,就像一面照妖鏡。它照出了我們在新技術面前的懶惰,也指明了通往強者的道路。

      雖然目前這個功能何時全量上線、是否對免費用戶開放還是個未知數,但標準已經擺在面前了。

      問題來了,按照這11項指標,AI給你打多少分?

      參考資料:

      https://www.testingcatalog.com/anthropic-to-introduce-personal-ai-fluency-scorecard-in-claude/

      https://www.anthropic.com/research/AI-fluency-index

      編輯:Aeneas David

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      復刻詹姆斯?亞歷山大半場結束前上演死亡之瞳

      復刻詹姆斯?亞歷山大半場結束前上演死亡之瞳

      懂球帝
      2026-05-31 09:57:20
      瘋狂!巴黎奪冠后球迷打砸搶燒 向警方投射煙花 法國首都陷入火海

      瘋狂!巴黎奪冠后球迷打砸搶燒 向警方投射煙花 法國首都陷入火海

      念洲
      2026-05-31 06:45:54
      曝森林狼引援鎖定歐文!美媒列5換1方案:蘭德爾迪文琴佐成籌碼

      曝森林狼引援鎖定歐文!美媒列5換1方案:蘭德爾迪文琴佐成籌碼

      羅說NBA
      2026-05-31 06:38:18
      切爾西官媒曬歐冠獎杯嘲諷阿森納丟歐冠,球迷:殺人誅心

      切爾西官媒曬歐冠獎杯嘲諷阿森納丟歐冠,球迷:殺人誅心

      側身凌空斬
      2026-05-31 03:43:03
      巴黎衛冕歐冠!復刻皇馬奇跡,3戰阿森納全勝,連刷6大紀錄

      巴黎衛冕歐冠!復刻皇馬奇跡,3戰阿森納全勝,連刷6大紀錄

      奧拜爾
      2026-05-31 03:03:15
      韓國國腳狂喜:決賽1分鐘未出場 連續2年躺拿歐冠冠軍 789萬獎金

      韓國國腳狂喜:決賽1分鐘未出場 連續2年躺拿歐冠冠軍 789萬獎金

      侃球熊弟
      2026-05-31 04:02:10
      美中積極探索正確相處之道將造福世界(國際論壇)

      美中積極探索正確相處之道將造福世界(國際論壇)

      人民網
      2026-05-31 05:55:08
      給阿嬤的情書,新加坡官媒連批三天,最后承認:這東西,真擋不住

      給阿嬤的情書,新加坡官媒連批三天,最后承認:這東西,真擋不住

      娛說瑜悅
      2026-05-30 17:03:54
      剛剛!馬刺傳來壞消息,一人離隊已成定局......

      剛剛!馬刺傳來壞消息,一人離隊已成定局......

      體育新角度
      2026-05-30 18:36:29
      人民直擊|三問張家口風電項目1.9億“天價”補償后續

      人民直擊|三問張家口風電項目1.9億“天價”補償后續

      人民資訊
      2026-05-31 09:15:09
      阿莫西林是消炎藥?醫生:不是!真正的消炎藥只有這4種,別認錯

      阿莫西林是消炎藥?醫生:不是!真正的消炎藥只有這4種,別認錯

      醫者榮耀
      2026-05-29 12:05:10
      衛冕冠軍出局!法網女單賽場再爆冷門,高芙遭逆轉無緣16強

      衛冕冠軍出局!法網女單賽場再爆冷門,高芙遭逆轉無緣16強

      全景體育V
      2026-05-31 05:56:54
      扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

      扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

      參考消息
      2026-05-30 11:58:56
      老婆出軌后,我去找對方老婆,誰料他老婆:給你套房,但有個條件

      老婆出軌后,我去找對方老婆,誰料他老婆:給你套房,但有個條件

      千秋文化
      2026-05-29 19:56:40
      俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

      俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

      混沌錄
      2026-05-29 23:26:12
      這位國外頂流網紅來中國,為什么“不坐高鐵”?回答亮了

      這位國外頂流網紅來中國,為什么“不坐高鐵”?回答亮了

      環球時報國際
      2026-05-30 00:12:18
      模仿黃仁勛走紅后,“我現在很害怕”

      模仿黃仁勛走紅后,“我現在很害怕”

      中國新聞周刊
      2026-05-30 18:22:20
      豐田回應中止下一代純電轎車開發

      豐田回應中止下一代純電轎車開發

      財聯社
      2026-05-30 21:56:05
      國家出手擒下的3名華人首富,看看他們干的事,根本不值得饒恕!

      國家出手擒下的3名華人首富,看看他們干的事,根本不值得饒??!

      李遝手工制作
      2026-05-31 03:47:38
      1.7億,恭喜里夫斯,騎士發力!詹姆斯+字母哥...

      1.7億,恭喜里夫斯,騎士發力!詹姆斯+字母哥...

      體育新角度
      2026-05-30 15:46:59
      2026-05-31 10:19:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15345文章數 66894關注度
      往期回顧 全部

      科技要聞

      AI寫小說的套路被扒光了

      頭條要聞

      美國頂流網紅現身中國陜西鄉村 請求卡車司機捎他一段

      頭條要聞

      美國頂流網紅現身中國陜西鄉村 請求卡車司機捎他一段

      體育要聞

      巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

      娛樂要聞

      張碧晨《歌手》 “活人微死” 自嘲

      財經要聞

      字節跳動的 "一盤大棋"

      汽車要聞

      900V+3.2秒破百 領克10+&領克10上市16.99萬元起

      態度原創

      數碼
      本地
      家居
      旅游
      公開課

      數碼要聞

      vivo S60系列發布:2899元起 推出4K原生感Live

      本地新聞

      用剪紙的方式,打開江蘇揚州

      家居要聞

      云棲 舒展如流云

      旅游要聞

      稻城亞丁們,該放棄“捆綁消費”思維了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线日韩日本国产亚洲| 亚洲国产天堂久久综合226| 韩国免费a级毛片久久| 欧美日韩国产一区二区三区播放| 日韩色网| 国产精品无码av不卡| 又爽又大又光又色的午夜视频| 久久亚洲人成电影网| 色婷婷影院| 亚洲熟妇精品一区二区| 苗栗县| 亚洲AV蜜桃永久无码精品| 国产欧美亚洲精品第一页在线| a一级毛片免费播放| 丁香婷婷七月九月缴情| 国产成人久久婷婷精品流白浆| 久久精品国产最新地址| 成人欧美一区二区三区在线观看| 久久国产色av老熟蜜臀av| 天美传媒mv免费观看完整| 午夜在线a| 亚洲色男人| 欧美乱大交xxxxx潮喷| 天天燥日日燥| 亚洲 欧美 综合 在线 精品| 麻豆一区二区三区精品视频| 天天摸天天碰天天添| 国产又色又爽又黄的在线观看| 国内在线视频一区二区三区| 日本三级片网| 国产黄色三级三级看三级| 另类天堂天堂av| 国产偷国产偷亚洲高清午夜| 国产精品无码2021在线观看| 成人拍拍拍无遮挡免费视频| 超碰人人艹| 城固县| 亚洲成综合人影院在院播放 | 色爱无码av综合区| 无码人妻斩一区二区三区| 性色在线视频精品|