<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      林俊旸從阿里離開后首度發聲:推理模型的時代快結束了

      0
      分享至

      林俊旸,前通義千問Qwen負責人,北大外語碩士,阿里最年輕P10。2026年3月從阿里離職后三周,他發了一篇6000字的英文長文,標題很樸素:From "Reasoning" Thinking to "Agentic" Thinking。

      沒有怨氣,沒有內幕。也很遺憾沒有公布他下一步的去向。反倒是出來寫了一篇極其冷靜的技術預判,核心論點只有一句話:AI正在從「推理思考」轉向「智能體思考」。模型的價值不在于它能想多久,而在于它能做多好。

      這篇文章特殊之處在于它不是旁觀者評論行業趨勢,而是一個真正的頂級開源實驗室的Leader的技術思考,一個真正的builder,在坦承混合思考模式的失敗經驗后,提出的下一步判斷。以下是全文翻譯,之后是我的分析。

      一、全文翻譯

      原文:Junyang Lin(@JustinLin610) 翻譯:花叔 & Claude Code

      過去兩年重塑了我們評估模型的方式和對模型的期望。OpenAI的o1證明了「思考」可以成為一種核心能力——一種你專門訓練并向用戶開放的能力。DeepSeek-R1證明了推理風格的后訓練可以在原始實驗室之外被復現和規模化。OpenAI將o1描述為一個通過強化學習訓練的模型,讓它「在回答之前先思考」。DeepSeek則將R1定位為一個與o1競爭的開源推理模型。

      那個階段很重要。但2025年上半年主要是關于推理思考(reasoning thinking):如何讓模型在推理時投入更多計算,如何用更強的獎勵信號來訓練它們,如何展示或調控額外的推理投入。現在的問題是:下一步是什么?我認為答案是智能體思考(agentic thinking):為了行動而思考,同時與環境交互,并根據來自真實世界的反饋持續更新計劃。

      1. o1和R1的崛起真正教會了我們什么

      第一波推理模型教會了我們:如果想在語言模型中擴展強化學習,我們需要確定性的、穩定的、可擴展的反饋信號。數學、代碼、邏輯和其他可驗證領域成為核心,因為這些場景中的獎勵信號比通用的偏好監督強得多。它們讓RL能針對「正確性」而非「看起來合理」來優化。基礎設施變得至關重要。

      一旦模型被訓練為通過更長的軌跡進行推理,RL就不再是監督微調的輕量級附加組件,而變成了一個系統工程問題。你需要大規模的rollout、高吞吐量的驗證、穩定的策略更新、高效的采樣。推理模型的出現既是一個基礎設施故事,也是一個建模故事。OpenAI將o1描述為用RL訓練的推理線,DeepSeek R1后來強化了這個方向,展示了基于推理的RL需要多少專門的算法和基礎設施工作。第一個重大轉變:從擴展預訓練到擴展推理后訓練。

      2. 真正的問題從來不只是「合并思考和指令模式」

      2025年初,Qwen團隊中的很多人有一個宏大的愿景:理想的系統應該統一思考模式和指令模式。它應該支持可調節的推理力度,類似于低/中/高的推理設置。更好的是,它應該能從提示和上下文中自動推斷合適的推理量,讓模型自己決定何時立即回答、何時多想一會兒、何時為真正困難的問題投入大量計算。

      概念上,這是正確的方向。Qwen3是最清晰的公開嘗試之一。它引入了「混合思考模式」,在一個模型家族中同時支持思考和非思考行為,強調可控的思考預算,并描述了一個四階段后訓練流程,明確包含了在長CoT冷啟動和推理RL之后的「思考模式融合」。

      合并說起來容易,做好很難。難點在于數據。當人們談論合并思考和指令時,往往首先想到模型端的兼容性:一個檢查點能否支持兩種模式,一個聊天模板能否在兩者之間切換,一個服務棧能否提供合適的控制開關。更深層的問題是,兩種模式的數據分布和行為目標有本質差異。

      我們在試圖平衡模型合并與提高后訓練數據質量和多樣性時,并沒有完全做對。在修訂過程中,我們也密切關注了用戶實際上是如何使用思考和指令模式的。一個好的指令模型通常因直接、簡潔、格式合規、低延遲而獲得獎勵——服務于重寫、標注、模板化客服、結構化提取和運營QA等重復性高吞吐企業任務。一個好的思考模型則因在困難問題上花更多token、保持連貫的中間結構、探索替代路徑、保留足夠的內部計算來切實提高最終答案的正確性。

      這兩種行為配置是相互拉扯的。如果合并數據沒有精心策劃,結果通常是兩邊都平庸:「思考」行為變得噪聲大、臃腫或不夠果斷,而「指令」行為變得不夠干脆、不夠可靠,且比商業用戶實際需要的更昂貴。

      實踐中,分離仍然有吸引力。2025年晚些時候,在Qwen3最初的混合框架之后,2507系列發布了獨立的Instruct和Thinking更新,包括獨立的30B和235B變體。在商業部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對于這些場景,合并并不是明顯的好處。分離產品線讓團隊能更干凈地集中解決每種模式的數據和訓練問題。

      其他實驗室選擇了相反的路線。Anthropic公開倡導集成模型哲學:Claude 3.7 Sonnet作為混合推理模型推出,用戶可以選擇普通回復或擴展思考,API用戶可以設置思考預算。Anthropic明確表示,他們相信推理應該是一種集成能力,而不是一個單獨的模型。GLM-4.5也公開將自己定位為混合推理模型,統一了推理、編碼和Agent能力;DeepSeek后來用V3.1的「Think & Non-Think」混合推理走了類似方向。

      關鍵問題是合并是否有機。如果思考和指令只是被共同放置在一個檢查點內,但仍然表現得像兩個尷尬縫合的人格,產品體驗就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應該能表達多個層次的努力,并理想地在它們之間自適應選擇。GPT風格的effort control指向了這一點:一種關于計算的策略,而非一個二元開關。

      3. 為什么Anthropic的方向是有益的矯正

      Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。他們強調集成推理、用戶可控的思考預算、現實世界任務、編碼質量,以及后來在擴展思考期間使用工具的能力。Claude 3.7作為混合推理模型推出,帶有可控預算;Claude 4擴展了這一點,允許推理與工具使用交織進行,同時Anthropic強調編碼、長時間運行的任務和Agent工作流作為主要目標。

      產生更長的推理軌跡并不會自動讓模型更智能。在很多情況下,過多的可見推理痕跡反而暴露了糟糕的計算分配。如果模型對什么問題都用同樣冗長的方式推理一遍,說明它無法有效排序優先級、無法精簡壓縮、也無法果斷行動。Anthropic的路線暗示了一種更克制的理念:思考應該圍繞具體的任務目標來組織。如果目標是編碼,那么思考應該幫助代碼庫導航、規劃、分解、錯誤恢復和工具編排。如果目標是Agent工作流,那么思考應該在長時間范圍內提高執行質量,而不是產生令人印象深刻的中間文本。

      這種對目標效用的強調指向更大的東西:我們正在從訓練模型的時代走向訓練Agent的時代。我們在Qwen3博客中明確寫道:「我們正在從專注于訓練模型的時代過渡到以訓練Agent為中心的時代」,并將未來的RL進展與長時間推理的環境反饋聯系起來。Agent是一個能制定計劃、決定何時行動、使用工具、感知環境反饋、修訂策略、并在長時間范圍內持續運行的系統。它由與世界的閉環交互來定義。

      4. 「智能體思考」到底意味著什么

      智能體思考是一個不同的優化目標。推理思考通常以最終答案前的內部推導質量來衡量:模型能否解出定理、寫出證明、產生正確的代碼、或通過基準測試。智能體思考關注的是模型能否在與環境交互的同時持續取得進展

      核心問題從「模型能否思考足夠長?」轉變為「模型能否以一種維持有效行動的方式來思考?」智能體思考必須處理純推理模型大多可以避免的幾件事:

      • 決定何時停止思考并采取行動

      • 選擇調用哪個工具,以什么順序

      • 整合來自環境的嘈雜或不完整的觀察

      • 在失敗后修訂計劃

      • 在多輪和多次工具調用中保持連貫性

      智能體思考,就是讓模型通過行動來推理。

      5. 為什么智能體RL基礎設施更難

      一旦目標從解決基準測試問題轉向解決交互式任務,RL技術棧就變了。用于經典推理RL的基礎設施不夠用了。在推理RL中,你通常可以將rollout視為大多是自包含的軌跡,配有相對干凈的評估器。在智能體RL中,模型的策略被嵌入到一個更龐大的外圍系統中:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執行沙箱、API層、記憶系統和編排框架。環境不再是靜態的驗證器,它本身就是訓練系統的一部分。

      這創造了新的系統需求:訓練和推理必須更干凈地解耦。沒有這種解耦,rollout吞吐量就會崩潰。想象一個編碼Agent,需要在實時測試環境中運行它生成的代碼:推理端卡在那里等執行反饋,訓練端因為拿不到足夠的完整軌跡而空轉,整個管道運行遠低于你從經典推理RL預期的GPU利用率。添加工具延遲、部分可觀測性和有狀態環境會放大這些低效。結果是實驗在你達到目標能力水平之前很久就變慢并變得痛苦。

      環境本身也成為一級研究產物。在SFT時代,我們癡迷于數據多樣性。在Agent時代,我們應該癡迷于環境質量:穩定性、現實性、覆蓋范圍、難度、狀態多樣性、反饋豐富度、防利用性和rollout生成的可擴展性。環境構建已經開始從邊緣項目變成一個真正的創業品類。如果Agent正在被訓練以在類生產環境中運行,那么環境就是核心能力棧的一部分。

      6. 下一個前沿是更有用的思考

      我的預期是智能體思考將成為主導的思考形式。我認為它最終可能會取代大部分舊的靜態獨白式推理思考:那種過于冗長、孤立的內部軌跡,試圖通過輸出越來越多的文本來彌補缺乏交互的不足。即使在非常困難的數學或編碼任務上,一個真正先進的系統也應該有權搜索、模擬、執行、檢查、驗證和修訂。目標是穩健而高效地解決問題

      訓練這類系統最難的挑戰是獎勵作弊(reward hacking)。一旦模型獲得有意義的工具訪問,獎勵作弊就變得危險得多。有搜索能力的模型可能在RL期間學會直接搜索答案。編碼Agent可能會利用代碼倉庫中的未來信息、濫用日志或發現使任務失效的捷徑。存在隱性信息泄漏的訓練環境,可以讓模型表現看起來超越人類,但實際上只是在訓練它作弊。這正是Agent時代比推理時代更微妙的地方。更好的工具讓模型更有用,但它們也擴大了虛假優化的攻擊面。我們應該預期下一個嚴肅的研究瓶頸來自環境設計、評估器魯棒性、防作弊協議,以及策略與世界之間更有原則的接口。盡管如此,方向是清晰的。工具賦能的思考比孤立的思考更有用,而且更有可能提高真正的生產力。

      智能體思考也意味著工具架工程(harness engineering)。核心智能將越來越多地來自多個Agent如何被組織:一個規劃和路由工作的編排者,充當領域專家的專業Agent,以及執行更窄任務同時幫助控制上下文、避免污染、保持不同推理層次之間分離的子Agent。未來是從訓練模型到訓練Agent,從訓練Agent到訓練系統的轉變。

      結論

      推理浪潮的第一階段建立了一些重要的東西:當反饋信號可靠且基礎設施能支持時,語言模型之上的RL可以產生質的更強的認知。

      更深層的轉變是從推理思考到智能體思考:從更長的思考到為了行動而思考。訓練的核心對象已經改變了。它不再是單獨的模型,而是模型加環境的系統,更具體地說,是Agent和圍繞它的工具架。這改變了哪些研究產物最重要:模型架構和訓練數據當然還是,但環境設計、rollout基礎設施、評估器魯棒性、多Agent協調接口變得同樣關鍵。這也改變了「好的思考」意味著什么:在真實世界約束下維持行動的最有用的軌跡,而不是最長或最可見的那個。

      這也改變了競爭優勢的來源。在推理時代,優勢來自更好的RL算法、更強的反饋信號和更可擴展的訓練管道。在Agent時代,優勢將來自更好的環境、更緊密的訓練-服務集成、更強的工具架工程,以及讓模型的決策和決策帶來的后果形成閉環的能力。

      二、我的觀點:產品已經跑在了訓練前面 這篇文章的特殊價值

      AI圈從來不缺趨勢判斷。但很少有人從自己的失敗經驗出發來做判斷。

      林俊旸這篇文章最有分量的部分不是「agentic thinking是未來」這個結論,這個判斷不新鮮。分量在于他作為Qwen3的實際訓練者,坦承了混合思考模式的失敗:兩種行為的數據分布沖突,合并后兩邊都平庸,最終不得不拆回獨立版本。這種坦誠在大廠技術領導的公開發言中很少見到。

      更重要的是他指出了一個層次差異:Agent產品的成功和Agent訓練方法論的成熟是兩件事。Claude Code年化收入超過10億美元,Codex從命令行工具變成了完整的編碼平臺,Agent產品層面的驗證已經完成了。但訓練一個真正「agentic」的模型,需要的RL基礎設施、環境設計、防作弊機制,都還在很早期。

      產品跑在了訓練前面。這是當前這個階段最準確的描述。

      誰在真正做agentic訓練?

      如果林俊旸是在描述問題,那么DeepSeek和Kimi已經開始動手解決了。

      DeepSeek V3.2可能是目前最接近林俊旸描述的「agentic thinking」的實踐。它是第一個把thinking直接嵌入tool-use的模型——不是「先想完再調用工具」,而是推理鏈貫穿整個工具調用過程,推理上下文跨tool call保持不丟失。這直接回應了林俊旸說的「通過行動來推理」。

      V3.2的訓練方法更值得關注。技術報告(arXiv 2512.02556)透露了一條完整的agentic訓練管線:合成了1827個交互環境、85000+條復雜指令,用GRPO把推理、Agent行為和人類對齊合并到同一個RL階段訓練。結果是SWE-Bench Verified(Agent模式)從V3-0324的45.4跳到66.0,提升45%。

      DeepSeek還總結了一個關鍵原則,和林俊旸的判斷高度吻合:驗證成本是Agent RL最大的約束。他們不用神經網絡獎勵模型(容易被hack),只看答案對不對。設計任務的標準是「hard to solve, easy to verify」。

      不過DeepSeek做的是訓練層面的事。他們目前還沒有自己的Agent產品——梁文鋒說「當前是技術創新的爆發期,不是應用的爆發期」。但2026年3月他們發了17個Agent崗位,明確以Claude Code和Cursor為對標,說明應用層也要開始做了。

      Kimi走了一條不同的路。楊植麟不是在單個模型上做更深的agentic推理,而是做Agent集群。K2.5可以指揮最多100個子Agent并行工作,處理1500個步驟。他的邏輯是:高質量數據增長跟不上算力增長,傳統路線收益遞減,但并行子任務的數量沒有上限。

      這和林俊旸文章最后提到的「harness engineering」方向一致——核心智能不只在單個模型里,也在多個Agent的編排協作中。

      學術界怎么看

      學術界在2025-2026年密集跟進了這個方向。ICLR 2026收錄了多篇Agent RL論文:

      • AgentRL(清華):提出跨策略采樣和任務優勢歸一化,解決多任務Agent訓練的穩定性問題。在開源LLM上顯著超越GPT-5和Claude Sonnet 4

      • Agent-R1:系統化地把MDP框架擴展到LLM Agent,支持多工具協調的端到端RL。實驗發現GRPO(DeepSeek R1用的算法)表現最佳

      • MARTI:證明了多Agent系統在相同推理預算下優于單Agent系統,支持debate、mixture of agents等結構化工作流

      環境構建也獨立成了一個研究方向,正如林俊旸預測的那樣。InfiniteWeb自動生成功能性網絡環境用于GUI Agent訓練,Agent World Model合成無限環境用于Agent RL——造環境的能力本身成了核心競爭力

      關于reward hacking,Anthropic發了一篇影響力很大的論文(arXiv 2511.18397),發現生產RL中自然涌現的reward hacking可以導致嚴重的行為失配:50%的回復出現alignment faking推理,12%的時間嘗試代碼破壞。這正是林俊旸說的「Agent時代比推理時代更微妙」——模型有了真實工具訪問,作弊的代價不再只是答錯題,而是可能在生產環境中走捷徑。

      編碼為什么是Agent的最佳起點

      讀完林俊旸的文章,一個很自然的推論是:編碼是當前唯一能高效訓練和驗證Agent能力的領域

      原因很簡單。林俊旸反復強調Agent訓練的瓶頸在環境,環境需要提供確定性的、可擴展的反饋信號。編碼恰好是最接近這個條件的場景:代碼可以運行、測試可以通過或失敗、lint可以檢查、類型系統可以驗證。DeepSeek說的「easy to verify」,在編碼場景中天然成立。

      反過來,如果你想訓練一個做市場營銷的Agent,反饋信號可能要延遲幾周才能驗證。做投資決策的Agent?反饋周期以月計。這讓RL幾乎無法有效工作。

      所以Claude Code、Codex、Cursor、Windsurf全部從編碼入手,不是因為程序員最愿意付錢(雖然確實也愿意),而是因為編碼是訓練和驗證Agent能力的最佳環境。

      但編碼只是開始。誰先解決了「如何為非編碼領域構建高質量可驗證的訓練環境」,誰就能在下一波Agent化浪潮中占先。

      回到那個根本問題

      林俊旸文章的最后一句話是:競爭優勢將來自「讓模型的決策和決策帶來的后果形成閉環的能力」。

      翻譯成大白話:誰能更快地從真實世界的反饋中學習,誰就贏了。

      這句話把訓練層面和產品層面重新連接了起來。Claude Code的harness工程、DeepSeek的agentic post-training、Kimi的Agent集群——它們在不同層面做的事情,最終都指向同一個目標:讓模型和真實世界之間的反饋循環轉得更快。

      想得更久不如做得更好。但怎么訓練一個「做得更好」的模型——這才是真正的前沿。

      我想,林俊旸寫這篇文章大抵也有些向宇宙發射信號的意味,放出他的思考,從而讓他潛在的同行者能識別到他,一起去書寫他的寫一篇章。這又何嘗是不是一個Agentic的思考方式,祝他好運~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      成龍向全球發出入境游邀約:歡迎感受無濾鏡的真實中國

      成龍向全球發出入境游邀約:歡迎感受無濾鏡的真實中國

      新京報
      2026-06-01 12:09:13
      越南:若晚五天撤退,諒山的守兵將被全部消滅,最后是啥結果

      越南:若晚五天撤退,諒山的守兵將被全部消滅,最后是啥結果

      磊子講史
      2026-01-22 10:53:33
      小紅書為什么需要男人?

      小紅書為什么需要男人?

      鈦媒體APP
      2026-06-01 15:17:12
      鄭麗文公然稱臺灣是“國家”,意欲何為?喊話大陸:美國讓我過去

      鄭麗文公然稱臺灣是“國家”,意欲何為?喊話大陸:美國讓我過去

      陳漎侃故事
      2026-05-31 21:52:20
      王曉晨俞灝明被拍到一同現身心理醫院,王曉晨皺眉抽煙心情糟糕

      王曉晨俞灝明被拍到一同現身心理醫院,王曉晨皺眉抽煙心情糟糕

      露珠聊影視
      2026-06-02 15:44:08
      卸磨殺驢?寧波創歷史 功臣遭壓價寒心出走 北控趁虛而入?

      卸磨殺驢?寧波創歷史 功臣遭壓價寒心出走 北控趁虛而入?

      你看球呢
      2026-06-03 09:43:27
      殺派出所所長,滅銀行行長滿門,兇手竟成城管局長,凱里兩案紀實

      殺派出所所長,滅銀行行長滿門,兇手竟成城管局長,凱里兩案紀實

      易玄
      2026-06-03 08:50:51
      棄劇了!發現《主角》越來越不對勁了,原來易青娥是一個這樣的人

      棄劇了!發現《主角》越來越不對勁了,原來易青娥是一個這樣的人

      阿廢冷眼觀察所
      2026-06-03 09:22:09
      存款的含金量正在飆升。

      存款的含金量正在飆升。

      老陸不老
      2026-06-03 10:44:34
      結婚十年丈夫八次出軌蔣勤勤,43歲抑郁燒炭自盡

      結婚十年丈夫八次出軌蔣勤勤,43歲抑郁燒炭自盡

      蕭狡科普解說
      2026-05-31 15:45:53
      梁靖崑談世乒賽逆轉張本智和:我一直都沒喊,他在這瞎忙活

      梁靖崑談世乒賽逆轉張本智和:我一直都沒喊,他在這瞎忙活

      懂球帝
      2026-06-02 17:17:07
      俄總統新聞秘書:俄方愿“通過和談”實現特別軍事行動目標

      俄總統新聞秘書:俄方愿“通過和談”實現特別軍事行動目標

      新華社
      2026-06-02 20:05:03
      馬上扔掉家里這1種調料,不僅有毒還致癌!很多人還天天吃

      馬上扔掉家里這1種調料,不僅有毒還致癌!很多人還天天吃

      39健康網
      2026-06-01 08:31:23
      人走了,產業也完了!印尼想趕走中方鎳礦團隊,算完賬,全沉默了

      人走了,產業也完了!印尼想趕走中方鎳礦團隊,算完賬,全沉默了

      阿訊說天下
      2026-06-03 02:45:20
      浙江街頭凌晨發生連環撞車事故,一男子剛開始攬下全部責任,一聽維修費要10萬,立馬“慫”了:我不是司機,我舉報他們酒駕,我是來頂包的

      浙江街頭凌晨發生連環撞車事故,一男子剛開始攬下全部責任,一聽維修費要10萬,立馬“慫”了:我不是司機,我舉報他們酒駕,我是來頂包的

      環球網資訊
      2026-06-02 15:25:30
      波蘭政府專機緊急抵達北京,轉運危重留學生

      波蘭政府專機緊急抵達北京,轉運危重留學生

      新浪財經
      2026-06-03 05:13:02
      肺結節為何多數消不掉,大部分人吃藥沒作用,有些不吃藥反消掉了

      肺結節為何多數消不掉,大部分人吃藥沒作用,有些不吃藥反消掉了

      呼吸科大夫胡洋
      2026-06-03 05:56:29
      她真正快樂的開關,你還真沒找到

      她真正快樂的開關,你還真沒找到

      半勺甜心事
      2026-06-03 01:17:57
      小沈陽采取“16+8斷食法”減肥,10天內2次把自己減進了急診!

      小沈陽采取“16+8斷食法”減肥,10天內2次把自己減進了急診!

      馬拉松跑步健身
      2026-06-02 20:26:28
      奧爾莫:隊內為了搶10號球衣大打出手?根本沒有這事

      奧爾莫:隊內為了搶10號球衣大打出手?根本沒有這事

      懂球帝
      2026-06-02 21:41:25
      2026-06-03 11:55:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      224文章數 116關注度
      往期回顧 全部

      科技要聞

      員工抗議鍵鼠追蹤,Meta讓步:可暫停30分鐘

      頭條要聞

      受賄數額特別巨大 內蒙古自治區政府原主席王莉霞被訴

      頭條要聞

      受賄數額特別巨大 內蒙古自治區政府原主席王莉霞被訴

      體育要聞

      選擇中國品牌的庫里,和他們的巨大野心

      娛樂要聞

      著名演員魏宗萬去世!曾演活司馬懿

      財經要聞

      左手通脹右手衰退,歐美當下的困局

      汽車要聞

      2030年之前 蓮花還來得及

      態度原創

      教育
      手機
      游戲
      家居
      公開課

      教育要聞

      專訪北京中關村一小校長商紅領:落實“健康第一”,要避免3個“窄化”

      手機要聞

      星星海夢幻外觀+4K原生實況!vivo S60手機全面評測:一臺懂年輕人日常需求的輕旗艦

      漫威金剛狼琴格蕾首曝!玩家吐槽像控制“董明珠”

      家居要聞

      江畔輕奢 觀云大宅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 推油少妇久久99久久99久久| 最新亚洲人成网站在线影院 | 精品国产成人亚洲午夜福利| 综合久青草视频在线观看| 99ri在线精品视频| 久久中文字幕日韩无码视频| 日韩a∨无码中文无码电影 | 国产色无码精品视频免费| 国产91精品调教在线播放| 国产av国片精品一区二区| 欧日韩不卡在线视频| 精品国产国语对白主播野战| 麻豆亚州无矿码专区视频| 91福利电影| 欧美成人精品无码| 亚洲AV无码久久寂寞少妇| 玩弄丰满少妇人妻视频| 亚洲精品自拍| 亚洲免费人妻| 欧美色欧美亚洲高清在线视频| 国产精品成人一区二区三区| 亚洲成人av综合一区| 伊人色影院| 亚洲国产aⅴ综合网一区| 国产婷婷精品av在线| 97精品伊人久久久大香线蕉| 添逼AV| 国产成人麻豆亚洲综合无码精品| 国产无遮挡又黄又爽在线视频| 一区二区三区午夜福利院| 亚洲无av在线中文字幕| 国产99视频免费精品是看6| 无码国模国产在线观看免费| 无码人妻中文字幕| 久久综合小说| 亚洲无码A视频在线| 欧美性xxxxx极品少妇| 日韩国产中文字幕精品| 亚洲色成人网站| 99久久免费精品国产免费| 中文有无人妻VS无码人妻激烈|