<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Google新數據集首次大規模捕捉用戶「未言明的想法」

      0
      分享至



      當對話型 AI 服務于數十億用戶時,我們能否看見用戶沒說出口的那一層?JHU、MIT 和 Google Research 給出了新的解法。

      對話型 AI 系統的部署規模已達到前所未有的量級,每天處理數十億次用戶交互。然而,絕大多數現有研究都聚焦于用戶「說了什么」,對于用戶在對話中「想了什么」這一更深層的維度,仍是一片幾乎未被探索的空白。

      無論是 WildChat、LMSYS-Chat-1M 這類對話數據集,還是相關的方法和測試基準,它們都將對話文本視為唯一可觀測單元 —— 用戶未說出口的動機、限制、風格期望以及對回復的真實評價,則被默認丟棄。事實上,由于「最少努力原則」(principle of least effort) 與語用層面的壓力,用戶寫下的提示與他們腦中的真實意圖之間存在天然的信息損失:口頭表達高效、社交得體、目的導向,卻并非內部心理狀態的完整呈現。

      目前主流的對齊方法大多依賴偏好評分、點贊點踩或基于消息文本的反饋,這些信號難以分辨「哪一部分回答讓用戶不滿意」「為什么不滿意」,也無法揭示用戶在多輪交互中如何在內心演進自己的目標。因此,一個關鍵問題浮出水面:

      如何在真實的人機對話中,系統性地捕捉用戶那些「未言明的思考」,并將其作為新的數據模態用于訓練和評估 AI 助手?

      近日,一篇來自JHU、MIT 與 Google Research的研究,為這一問題提供了一種解法。

      他們提出了ThoughtTrace—— 首個將真實多輪人機對話與用戶「自我報告的思考」配對的大規模數據集。這里所說的思考分為兩類:用戶發送提示前的 reasons(動機、目標、上下文、內容與風格期望等),以及用戶讀到 AI 回復后的 reactions(滿意、對內容、風格或范圍的具體不滿等)。這些第一人稱認知痕跡捕捉了每一次對話背后的隱藏認知層,將「可觀測的語句」與「真實的用戶意圖」之間的鴻溝系統性地填補起來。

      在這一框架下,研究人員構建了一個具有以下規模的語料庫:

      • 1,058 名用戶
      • 2,155 段多輪對話
      • 17,058 次交互輪次
      • 10,174 條思考標注
      • 覆蓋 20 個不同的語言模型(包括 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview 等前沿模型,以及若干開源輕量模型)

      基于這一數據,作者證明:思考能夠將下一條用戶消息預測的語義相似度從 21.6 提升至 30.6(相對提升 41.7%),并將基于 Arena-Hard 的對齊勝率提升 25.6%。這為后續 RL、DPO 等訓練范式提供了一種全新的、ground-truth 級別的監督信號。



      • 論文標題:ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
      • 論文鏈接:https://arxiv.org/abs/2605.20087

      方法概覽

      為了讓用戶在自然對話中誠實地外化自己的思考,作者通過 Prolific 招募參與者,并設計了一套四步的采集流程:

      • 知情同意:參與者簽署知情同意書,明確自愿參與與可隨時退出的權利。
      • 教程與測驗:通過引導式教程學習聊天界面、標注思考,并通過簡短的理解測驗后才進入正式環節。
      • 帶思考標注的對話:參與者自行設定兩個開放式任務,自由地與 AI 多輪交流;在每條用戶消息上標注 reason、在每條 AI 回復上標注 reaction。用戶可以隨時開啟新對話或結束任務,且標注對 AI 完全不可見。
      • 任務后調查:完成任務后描述自己實際完成了什么、對 AI 有什么期望,并填寫涵蓋年齡、性別、教育、職業、AI 使用頻率與主要用途的問卷。

      每條 ThoughtTrace 記錄對應一段完整的對話,按時間戳保存所有用戶消息、AI 回復以及附著其上的思考。其中 reason 來自 7 種類型之一,reaction 來自 5 種類型之一,每條思考都帶有自己的時間戳與文本內容。



      視頻鏈接:https://mp.weixin.qq.com/s/fxYJRiIsVNbVHO3HMZ9TEQ?click_id=18

      數據特性

      作者從兩個維度刻畫 ThoughtTrace:對話層面和思考層面。

      對話層面有三大特性:

      • 代表性的用戶群:覆蓋 18 至 65+ 各年齡段、多種教育水平與職業身份,AI 使用頻率從「從未」到「每日多次」,符合頻繁 AI 用戶的人口畫像。
      • 長程、多元的對話:ThoughtTrace 的對話中位數為 8 輪,而 WildChat 與 LMSYS-Chat-1M 都是 2 輪;話題分布跨越 7 個大類、36 個細分子主題,沒有單一類別占主導。
      • 任務延伸主導:57.0% 的用戶消息屬于「在已有任務上擴展、深化、迭代」,遠超新請求 (12.5%)、重試 (2.9%) 和變體 (2.3%),且這種延伸模式隨對話進展而愈發顯著。

      思考層面則呈現四個關鍵性質:

      • 思考與消息顯著不同:嵌入空間可視化與基于 LLM 的語義覆蓋打分均顯示,用戶消息對其背后 reason 的覆蓋度僅 3.22 (1–5 分制),對前一輪 reaction 的覆蓋度僅 2.00—— 對話文本遠不能完整復現用戶的內心活動。
      • 思考對前沿 LLM 而言難以推斷:讓 GPT-5.4、Gemini 3.1 Pro Preview、Claude Opus 4.6 從對話上下文中推測用戶的 reason 與 reaction,三模型平均得分僅為 2.93 和 2.54,介于「極少重疊」與「部分重疊」之間。
      • 思考內容高度多元:7 種 reason 涵蓋 Task Motivation & Goal (36.9%)、Task Continuation (21.4%)、Context Grounding & Constraints (13.1%)、Content Expectation (11.5%)、Task Reorientation (11.1%)、Style Expectation (5.0%) 和 Social and Others (1.0%);5 種 reaction 包括 Explicit Affirmation (72.2%)、Content Relevance (11.9%)、Presentation Style (6.4%)、Scope Fit (6.1%)、Partial Satisfaction (3.4%)。
      • 思考隨對話階段動態變化:Task Motivation 主導早期,Task Continuation 在中后期占主導;Explicit Affirmation 從早期 67% 上升至晚期 79%,反映對話向令人滿意的回答收斂。這種動態獨立于話題或長度,僅與對話階段和多輪關系相關。

      實驗結果

      為了驗證這些「內心思考」是否真能用于下游建模,作者設計了兩組關鍵實驗,分別考察 thoughts 在推理時和訓練時的價值。



      實驗一:Thoughts Predict User Behavior

      讓 LLM 預測用戶的下一條消息 —— 分別在「僅有對話歷史」與「歷史 + 用戶思考標注」兩種條件下,評估三個前沿模型,并使用隨機抽取的另一個模型作為 LLM judge 評判 0–100 分的語義相似度。



      僅僅向模型提供用戶的內心思考,平均預測分數從 21.6 躍升到 30.6,相對提升 41.7%。Opus 4.6 的提升尤為顯著,單獨提升 14.2 個點。這說明 ThoughtTrace 中的 reason 與 reaction 提供了對話歷史所不具備的、能夠預示用戶未來行為的可執行信號 —— 這一發現對構建高保真用戶模擬器、面向用戶主動協助的智能體均有直接價值。

      實驗二:Thoughts Improve Model Alignment

      作者直接利用 ThoughtTrace 的 reaction 標簽定位「用戶實際不滿意的回復」,再用對應的思考內容指引模型重寫,形成 thought-guided rewrites;將其與原始消息配對,在 Qwen3.5-4B 上進行 DPO 訓練,于 Arena-Hard 上評估。



      • 相較基礎模型,思考引導版本在風格控制勝率上提升 25.6%;
      • 相較 WildChat 基線,提升 6.6%;
      • 同樣在 ThoughtTrace 上,思考引導比消息引導高 4.5%,表明思考承載著比消息更豐富的不滿與修正信號。

      更值得關注的是,思考能從同一批對話中識別出 1,000 條不滿意實例,而僅依賴消息只能挖出 450 條,前者是后者的 2.2 倍,證明了思考天然提供了更密集的監督。這意味著 thoughts 不僅告訴我們「哪一條回答用戶不滿意」,還直接說明「應當如何修正」,把響應識別和響應修正兩件事統一進了同一條監督信號。

      結語

      作者將 thoughts 定位為人機交互研究的一種新數據模態:它捕捉用戶的潛在認知,難以從語句中復原,跨越多種內容形態,并隨對話階段動態變化。無論是用戶行為預測、模型對齊,還是未來的獎勵建模、On-Policy Distillation 等在線學習范式,思考都提供了消息文本所無法替代的細粒度信號。

      ThoughtTrace 由此打開了三條新的研究方向:(1)用戶建模 —— 系統研究人機交互中的動態心理過程;(2)模型訓練 —— 把思考作為新的監督信號,用于訓練真正理解用戶潛在目標與偏好的助手;(3)評估 —— 構建以思考為中心的基準,把評估從表面語句推進到潛在意圖與主觀體驗。

      正如論文所言,ThoughtTrace 將用戶思考確立為研究人機交互背后認知動力學的一種基礎信號,也為構建真正理解用戶「潛在目標、偏好與需求」的下一代 AI 助手,鋪設了一條新的研究路徑。

      更多內容請參閱論文原文與項目主頁。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      云南瑞麗:請廣大市民保持冷靜,不恐慌、不聚集

      云南瑞麗:請廣大市民保持冷靜,不恐慌、不聚集

      黃河新聞網呂梁
      2026-06-01 10:43:02
      新加坡防長寫打油詩總結"香會" 現場用中文朗讀

      新加坡防長寫打油詩總結"香會" 現場用中文朗讀

      看看新聞Knews
      2026-05-31 18:36:09
      26年來以色列向黎巴嫩最深推進,插旗戰略城堡“南方之眼”!法國怒批:不可接受

      26年來以色列向黎巴嫩最深推進,插旗戰略城堡“南方之眼”!法國怒批:不可接受

      紅星新聞
      2026-06-01 16:40:13
      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      夜深愛雜談
      2026-06-01 19:22:01
      任務成本僅為Claude Opus 4.6 1/9,階躍刷新Flash模型效率

      任務成本僅為Claude Opus 4.6 1/9,階躍刷新Flash模型效率

      愛范兒
      2026-06-01 18:59:33
      瘋了吧!雷霆+詹姆斯!直接宣布總冠軍吧...

      瘋了吧!雷霆+詹姆斯!直接宣布總冠軍吧...

      詹姆斯吧
      2026-06-01 14:52:52
      距世界杯僅11天,名記:歐冠決賽加重薩利巴傷勢,球員或傷缺數周

      距世界杯僅11天,名記:歐冠決賽加重薩利巴傷勢,球員或傷缺數周

      懂球帝
      2026-06-01 18:48:25
      德國巨頭卡了中國30年的空氣懸架,被上海嘉定一個鎮解決了

      德國巨頭卡了中國30年的空氣懸架,被上海嘉定一個鎮解決了

      聞識
      2026-06-01 02:15:52
      成人網紅邦妮自曝惡心計劃:6月辦尿淋派對,粉絲可尿她發生關系

      成人網紅邦妮自曝惡心計劃:6月辦尿淋派對,粉絲可尿她發生關系

      赴一場山海啊
      2026-06-01 00:27:25
      襄陽割四賠五新后續:大批麥客連夜撤走,當地部門緊急出手整改

      襄陽割四賠五新后續:大批麥客連夜撤走,當地部門緊急出手整改

      奇思妙想草葉君
      2026-05-31 23:01:42
      索菲亞教堂棚頂被掀飛?附近居民稱“一切正常,有很多游客”,當地回應:暫未接到報告

      索菲亞教堂棚頂被掀飛?附近居民稱“一切正常,有很多游客”,當地回應:暫未接到報告

      瀟湘晨報
      2026-06-01 12:57:26
      同學聚會,發現一個扎心現象,年過40歲的女同學,1/3沒工作,1/3做著低薪沒前途的工作...

      同學聚會,發現一個扎心現象,年過40歲的女同學,1/3沒工作,1/3做著低薪沒前途的工作...

      背包旅行
      2026-06-01 17:39:34
      為什么領導都喜歡上班?網友曝光領導抽屜都是性用品:絲襪、套套

      為什么領導都喜歡上班?網友曝光領導抽屜都是性用品:絲襪、套套

      黯泉
      2026-06-01 15:33:05
      震碎NBA!父子同隊進總決賽!歷史首次!

      震碎NBA!父子同隊進總決賽!歷史首次!

      柚子說球
      2026-06-01 17:28:09
      “民警猥褻女子事件”苦主發聲:我遇到了一匹貪得無厭的色狼!

      “民警猥褻女子事件”苦主發聲:我遇到了一匹貪得無厭的色狼!

      兵叔評說
      2026-06-01 15:23:37
      兩個兒子先后臥軌自殺,這個女作家為什么還能笑出來?

      兩個兒子先后臥軌自殺,這個女作家為什么還能笑出來?

      脆皮先生
      2026-06-01 20:15:53
      6月1日俄烏:烏克蘭的局勢比任何人預想的都要好

      6月1日俄烏:烏克蘭的局勢比任何人預想的都要好

      山河路口
      2026-06-01 19:50:36
      馬斯克親口承認,要不是自己兒子做了變性手術,現在美國總統也不會是特朗普

      馬斯克親口承認,要不是自己兒子做了變性手術,現在美國總統也不會是特朗普

      不掉線電波
      2026-06-01 20:02:08
      58只跌停!追高的全被悶殺,這些翻倍股千萬別碰了!

      58只跌停!追高的全被悶殺,這些翻倍股千萬別碰了!

      慧眼看世界哈哈
      2026-06-01 16:07:49
      形勢有多嚴峻?網傳現在男生都不追女生了…

      形勢有多嚴峻?網傳現在男生都不追女生了…

      慧翔百科
      2026-06-01 08:43:22
      2026-06-01 21:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13137文章數 142658關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      媒體:鄭麗文"兩手空空"訪美 被指有望見到特朗普

      頭條要聞

      媒體:鄭麗文"兩手空空"訪美 被指有望見到特朗普

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      數碼
      教育
      房產
      本地
      公開課

      數碼要聞

      我國玻璃硬盤實現量產 單盤最大容量360TB

      教育要聞

      各省高考競爭激烈程度

      房產要聞

      100億!1371畝!海口城市更新,再爆超級項目!

      本地新聞

      用剪紙的方式,打開江蘇揚州

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色成人网站www永久四虎| 国模肉肉视频一区二区三区| 日韩无码乱了www亚洲无码视频| 人妻在线无码一区二区三区| 国产精品xxx| 国产福利影院在线观看| 狠狠色噜噜狼狼狼色综合久| jizz成人网站| 久久精品国产一区二区三| 男人天堂2018亚洲男人天堂| 天天做天天爱夜夜爽毛片| 日韩亚洲国产激情一区二区| 人妻精品中文久久一区| 韩国av一区二区| 国产精品爽爽va在线观看网站| 国产区精品福利在线观看精品| 色欲综合天天天综合网站亚洲图片| 日本免费一区二区三区日本| 国产成人亚洲欧美二区综合| 国产精品狼人久久久影院| 午夜精品在线| 亚洲一本二区偷拍精品| 国产一区二区不卡91| 日韩乱码人妻无码系列中文字幕| 午夜福利大片| 国产激情无码一区二区三区| 另类专区一区二区三区| 中文字幕欧美人妻精品一区蜜臀| 国产1页| 亚洲成A人片在线观看的电影| 精品人妻中文字幕在线| 国产日韩欧美精品一区二区三区| 亚洲熟妇精品一区二区| 人人爽亚洲aⅴ人人爽av人人片| 一个人看的www视频免费观看| 美女黄网站人色视频免费国产 | 欧美人与z0zoxxxx视频| 方正县| 亚洲国产日韩在线人成蜜芽| 国产精品日韩专区第一页| 人妻无码久久中文字幕专区|