<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      僅僅兩周,AI看病從80%誤診“躍升”到比醫生強,這到底是怎么回事?

      0
      分享至

      點擊藍字關注,多點在看防失聯

      個人觀點,不代表任何組織與單位

      前段時間,我的朋友圈被一條AI看病誤診率80%的新聞刷屏了,說不定你也看到過這條消息:


      可后來,我的新聞推送又給了另一條消息,AI在復雜醫療診斷里表現出色,比急診室醫生還厲害:


      兩個新聞都是基于頂級學術期刊上發表的研究,“誤診80%”是4月16日發表在JAMA上:


      “比急診醫生強”是4月30日發表在《科學》上:


      兩篇論文相隔正好兩周,而且都是哈佛醫學院的研究人員,不過是不同研究組。

      不知道你看到這兩個似乎完全矛盾的研究是什么感覺?

      有一個解釋可以讓兩篇論文不矛盾:急診醫生水平太差,說不定誤診率90%,就算AI誤診率80%也吊打。

      顯然這是開玩笑。

      下面我們還是正經分析一下,兩項研究里為什么一個看上去很不靠譜,一個看上去很靠譜。

      最關鍵的地方,或許是兩項研究測試的內容與評判標準都不一樣。

      JAMA上的研究,也就是AI一趟糊涂的那篇論文,研究人員給AI出的考題是默沙東診療手冊里的29個病例情景,這與《科學》上側重急診室診斷不同,病例范圍更廣。

      更重要的是,JAMA論文里,評判是AI從拿到病例那一刻起就開始,初步鑒別診斷,再到實驗檢查,最終診斷,以及治療方案,每一步的表現都“考”。在這個評判體系里,即便AI給出的最終診斷對了,但在最初的鑒別診斷里有失誤,也會被記錄扣分。

      其實,誤診超過80%是在初步鑒別診斷這一步,可在最終診斷方面,失敗率不到40%——不同模型失敗率是9-39%。

      而《科學》上打敗急診室醫生的研究,側重的恰恰是最終診斷。從某種程度上看,實際上兩個研究都暗示AI在最終診斷判斷上做得還不錯。

      此外,必須注意JAMA論文里初步鑒別診斷失敗率高,建立在病例情景里,患者的信息是一點點輸入給AI,比如先是患者年齡、病癥表現,再加上實驗檢查結果,每輸入一點,研究人員問一部分問題,而每一步里AI給出的答案,都會與標準答案對比,不準確就被歸入失敗。

      這是非常嚴苛的標準。但這個設計很重要,因為它更接近真實的臨床工作方式。醫生在門診或急診里,永遠是從一個不完整的畫面開始:先聽主訴,再做體檢,再等化驗結果回來。每一步都要在信息不全的情況下做判斷,并隨時準備推翻自己的初步猜測。JAMA的測試捕捉到的,正是這種在不確定性下持續推論的能力,而這目前看來,恰恰是AI最薄弱的環節。

      相比之下,《科學》論文里即便是真實病例,也是把完整的電子病歷一次性輸入。這更像是讓AI做"事后諸葛":所有線索已經擺在桌上,任務是從中歸納出答案,而不是在信息殘缺時就要開始押注。兩種測試場景,對應的其實是醫生工作流程里完全不同的兩個時刻:一個是診斷的起點,另一個更接近終點。

      考慮到JAMA研究里,到最后診斷階段,隨著輸入信息變多,成功率上升,再結合《科學》論文里的測試方法,可能都在暗示,有較多信息時,AI的表現會更好。

      那AI看病到底行不行呢?它是那個誤診80%,還是比現實世界的醫生強呢?

      個人認為這其實都不是現在AI醫療需要關注的問題。

      因為當下AI在醫療領域的應用,尤其是用大語言模型做診療,還在非常早期的階段。

      好比我們問一個讀中學的孩子,啥時候能成為科學家,拿諾獎。這不光是做不做的到的問題,而是問這樣的問題,對孩子沒什么幫助,不會有助于他成長,去接近我們期望的結果。

      最值得關注的,未必是當下的AI在醫療場景下做得有多好或多差,而是做得好的地方,為什么好;做得差的地方,原因是什么,有沒有辦法改進。可這恰恰是兩篇論文都沒有深入回答的地方:

      下一步,我們怎么做,才能讓模型的表現更好。

      比如,AI在逐步獲取信息時鑒別診斷能力差,是因為訓練數據里缺乏這類"漸進式推理"的樣本?還是模型本身在處理不確定性時存在結構性缺陷?如果是前者,針對性地用模擬臨床對話的數據做訓練或許有幫助;如果是后者,換一個更新的模型未必能解決問題,需要的可能是完全不同的架構思路。

      這才是AI醫療研究下一步真正該啃的硬骨頭——不是再做一個"AI能不能打敗醫生"的對比實驗,而是設計能夠定位失敗根源的研究:在哪一步出錯,為什么出錯,改變哪個變量之后,可能有好轉。沒有這類研究,我們只能在"AI很厲害"和"AI很爛"之間反復橫跳,卻對如何推進毫無頭緒。

      讀了這兩篇論文后,其實我做了一件事,把兩篇論文都傳到ChatGPT與Claude上,問同一個問題,為什么都是做AI診療,這兩篇論文得出了完全相反的結論。

      ChatGPT和Claude都很聰明地抓住了兩篇論文在方法學、評判標準上的差別。可也都犯了讓我感到不可思議的錯誤,或者說是誤解。

      例如,ChatGPT在分析為什么AI在一個研究里看上去很成功,另一個很失敗時,提出最關鍵的差別是,一項研究——JAMA那項,用了沒有噪音的干凈數據,大語言模型在這種環境下更出色:


      這個解釋等于是完全誤解了兩篇論文的結果。JAMA是用了“干凈”的情景病例,可恰恰是在這項研究里,AI的成功率不高。

      《科學》的論文是用了真實病例,存在潛在的“噪音干擾”,但AI在那篇論文里的表現并不差。

      至于Claude,它沒有犯ChatGPT的錯,但它的解釋里強調JAMA用了普通的大語言模型,《科學》用了OpenAI的o1推理模型,推理模型在回答診療這種復雜問題時更強大:


      和ChatGPT一樣,看似有道理,可惜不符合事實。JAMA的論文里除了用普通模型,也用了o1這樣的推理模型。


      《科學》那篇論文,其實也同時用了GPT4與o1,在有些檢驗上二者沒有顯著差別。

      這些錯誤涉及的是對兩篇論文最基礎事實的了解,我完全沒料到兩個模型能出現這樣的低級失誤。

      這或許也是當下AI用于醫療的風險:它們可以既“理解”復雜問題(兩篇看似矛盾的論文,是方法與研究目的上有差異),給出看上去很好的答案,可又在一些基礎事實上出錯。

      最后,同樣值得指出的是,ChatGPT與Claude指出的“數據干凈”,“推理模型”(更強更新的模型),是很多人回應AI不夠好時的口頭禪。似乎只要輸入內容噪音小,或者用了下一代模型,之前做不到的都能實現。

      這背后與其說是基于證據的合理推測,倒不如說是近乎信仰崇拜,甚至可能在干擾我們,人,做出正確的判斷。

      例如在《科學》這篇論文發表后,NPR做了報道,里面提到“過去的模型”表現不佳,《科學》論文展示了過去幾年技術的巨大進步:


      這篇報道里的“過去表現不佳的模型”,直接鏈接到JAMA那篇論文,也就是在記者看來,JAMA論文里的“矬”,是用了比《科學》論文里更老的模型。

      這是NPR報道里極為罕見的事實錯誤,真相是:JAMA里用的模型比《科學》里更新。

      《科學》用的是2024年9月發布的o1-preview,JAMA不僅用了o1,還一直跟蹤到25年底的各個主流大語言模型:


      就像我們不該默認AI會給出正確的答案,我們或許也不該默認,下一個AI會給出更準確的答案。

      訂閱關注防失聯

      前沿醫藥,請關注

      參考資料

      https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2847679

      https://www.science.org/doi/10.1126/science.adz4433

      更多精彩內容見Youtube:Y博的科普園

      Y博也有播客了,歡迎關注《說醫解藥》

      小宇宙、蘋果播客、Spotify同步更新

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      干預的代價:市場價格信號失真了

      干預的代價:市場價格信號失真了

      生命可以承受之輕
      2026-06-16 10:10:49
      看臺搶戲!巴西太太團全員出圈,比球員表現更出彩

      看臺搶戲!巴西太太團全員出圈,比球員表現更出彩

      新民周刊
      2026-06-21 10:08:28
      微軟Office永久版僅30美元,6月28日截止

      微軟Office永久版僅30美元,6月28日截止

      算力游俠
      2026-06-21 02:11:46
      真慘還是活該?被導演打到腦震蕩、毀容、捂嘴窒息,結果反被封殺

      真慘還是活該?被導演打到腦震蕩、毀容、捂嘴窒息,結果反被封殺

      嘴角上翹的弧度
      2026-06-21 03:38:56
      一個人能聰明到什么程度?網友:這是親爹,閨女沒白養

      一個人能聰明到什么程度?網友:這是親爹,閨女沒白養

      另子維愛讀史
      2026-06-21 18:51:17
      亂世黃金不靈了?金價暴跌是假象,別被騙了, 90%散戶踩坑致命誤區

      亂世黃金不靈了?金價暴跌是假象,別被騙了, 90%散戶踩坑致命誤區

      牛鍋巴小釩
      2026-06-22 01:06:44
      王俊杰:低迷的時候半夜找郭導聊天;我們距離強隊還有很長一段路

      王俊杰:低迷的時候半夜找郭導聊天;我們距離強隊還有很長一段路

      懂球帝
      2026-06-21 23:33:29
      貨不對板、虛假助農 總臺曝光直播間賣茶騙局

      貨不對板、虛假助農 總臺曝光直播間賣茶騙局

      極目新聞
      2026-06-21 21:39:30
      從油車換到電車這半年,省下的油錢,全都虧在了這幾個地方

      從油車換到電車這半年,省下的油錢,全都虧在了這幾個地方

      沙雕小琳琳
      2026-06-21 08:15:52
      再見了,馮小剛,再見了,張藝謀,中國已迎來“新導演”時代

      再見了,馮小剛,再見了,張藝謀,中國已迎來“新導演”時代

      風流女漢
      2026-06-21 16:05:59
      汽車下鄉重磅補貼落地!農村戶口買車省3萬,利弊一定要看清楚

      汽車下鄉重磅補貼落地!農村戶口買車省3萬,利弊一定要看清楚

      趣味萌寵的日常
      2026-06-20 06:22:27
      97年我娶了離過婚的女教師,洞房夜她把燈關了:我有件事要告訴你

      97年我娶了離過婚的女教師,洞房夜她把燈關了:我有件事要告訴你

      千秋文化
      2026-06-18 20:19:03
      國家終于出手!住建部官宣:全國大范圍整治物業亂象!

      國家終于出手!住建部官宣:全國大范圍整治物業亂象!

      職場資深秘書
      2026-06-21 13:53:08
      日本要了大半東海,菲律賓把線劃進臺灣海峽,中國不反擊那還得了

      日本要了大半東海,菲律賓把線劃進臺灣海峽,中國不反擊那還得了

      無心小姐姐
      2026-06-22 04:40:04
      朱之文徹底不裝了,曝料兒子離婚隱情,與兒媳生孩子傳聞真相大白

      朱之文徹底不裝了,曝料兒子離婚隱情,與兒媳生孩子傳聞真相大白

      蕭狡科普解說
      2026-06-22 00:34:53
      拒絕爆冷,西班牙4-0沙特 亞馬爾進球隊史第二人 4隊均有出線機會

      拒絕爆冷,西班牙4-0沙特 亞馬爾進球隊史第二人 4隊均有出線機會

      替補席看球
      2026-06-22 02:04:18
      普京政府不再指望特朗普幫自己,俄外長突然有了不祥的預感

      普京政府不再指望特朗普幫自己,俄外長突然有了不祥的預感

      踏青云看世界
      2026-06-22 04:56:59
      拉文帶嬌妻看世界杯,只打39場,明年薪水4896萬,嬌妻很漂亮

      拉文帶嬌妻看世界杯,只打39場,明年薪水4896萬,嬌妻很漂亮

      鄉野小珥
      2026-06-21 15:49:45
      特朗普又要來中國了?這回可不是“串門”那么簡單!

      特朗普又要來中國了?這回可不是“串門”那么簡單!

      娛樂圈的筆娛君
      2026-06-21 09:26:40
      女排苦戰土耳其2-3不敵,張籽萱哭,靈犀宇珊圣雷利受訪

      女排苦戰土耳其2-3不敵,張籽萱哭,靈犀宇珊圣雷利受訪

      小鞄搞笑解說
      2026-06-22 05:19:19
      2026-06-22 06:35:03
      一個生物狗的科普小園 incentive-icons
      一個生物狗的科普小園
      愛科普的科研民工
      906文章數 11334關注度
      往期回顧 全部

      科技要聞

      馬斯克拿下7800億元天價薪酬 2028年可兌現

      頭條要聞

      世界第10難求一勝!10人比利時0-0伊朗

      頭條要聞

      世界第10難求一勝!10人比利時0-0伊朗

      體育要聞

      德國的超級替補,10年前還在工廠上班

      娛樂要聞

      原來她就是張頌文老婆

      財經要聞

      “床墊界的特斯拉”破產了

      汽車要聞

      驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

      態度原創

      健康
      房產
      手機
      教育
      游戲

      吃粽子的3條保胃法則,消化科醫生推薦

      房產要聞

      商業清零式退潮,大量住宅登場!三亞又要大規模調規!

      手機要聞

      消息稱供應鏈公司已向蘋果首款折疊屏iPhone小批量供貨

      教育要聞

      現在英國讀商科,最好就業的幾個專業!

      《STRANGER THAN HEAVEN》游先看試玩報告:散裝拳腳,也可以很爽"/> 主站 商城 論壇 自運營 登錄 注冊 《STRANGER THA...

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久亚洲v无码专区成人| AV无码不卡一区二区三区| 日本草逼视频免费观看| 久久精品免费国产一区| 曰韩高清砖码一二区视频| 日韩成人高精品一区二区| 国产精品区视频中文字幕| 最新亚洲av日韩av二区| 欧美乱码一区二区三区| 天天躁日日躁精品人妻| 国产AV国片精品有毛| 亚洲嫩模喷白浆在线观看| 丁香五月激情图片| 科技| 免费在线观看一区二区视频| 内射无套内射国产精品视频| www.熟女| 精品人妻日韩中文字幕| 欧美色A?V| 亚洲的天堂在线中文字幕| 一区二区乱子伦在线播放| 亚洲国产欧美在线人成AAAA| 国产乱子伦一区二区三区四区五区| 欧美裸体xxxx极品| 草莓a| 摸丰满大乳奶水www免费| 99国产精品永久免费视频| 久久免费精品国自产拍网站| 国产久热精品无码激情| 99久久婷婷国产综合精品青草五月| 亚洲一区二区无码影院| 欧美成人猛片aaaaaaa| 三级电影网址| 加勒比久久AV| 国产精品久久无中文字幕| 久久精品不卡一区二区| 五月天网址| 亚洲精品字幕| 亚洲欧美偷国产日韩| 国产成人综合亚洲欧美日韩| 亚洲成人动漫在线观看|