<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.5來了!我撤回了退訂ChatGPT的決定

      0
      分享至

      先說個我很特么無語的事。我從2023年3月GPT-4發布起,連續訂了三年多的ChatGPT Plus,兩周前剛點了取消。賬戶里現在清清楚楚寫著「你的套餐將于 2026年5月1日 取消」。


      理由很簡單——Codex我用不上(日常在Claude Code里寫代碼),GPT-5.4日常問答也被我切到了Opus 4.7和Gemini 3.1 Pro,那個對話界面很久沒打開過。20美金一個月不值。

      然后這兩周,OpenAI很有節奏地給我扔了兩顆炸彈:上周gpt-image-2,這周GPT-5.5。我退訂后這兩周拿出的東西,比過去兩個月加起來都多。我甚至一度懷疑,他們是不是針對我設了個流失用戶召回包,專門在我點了退訂之后,把最近壓在庫里的王牌模型一次性砸出來。

      當然這只是我的牢騷。但牢騷背后有個判斷:這一次GPT-5.5真的值得所有人回來看一眼。它不只是個小版本升級。

      OpenAI今天發布的GPT-5.5,代號Spud(土豆)。先不講花活,就按benchmark順序讀一遍,看它打在了哪里。然后我們再聊幾件官方宣發里不會說、但值得拿出來討論的事。

      我讓GPT-Image-2給GPT-5.5畫的信息圖

      先看分數:這幾條是重頭戲 編程三件套:打在了Anthropic的根據地上

      Terminal-Bench 2.0,GPT-5.5拿了82.7%,直接SOTA。GPT-5.4是75.1%,Claude Opus 4.7只有69.4%,Gemini 3.1 Pro 68.5%。這個榜測的是命令行里那種要你規劃、迭代、協調工具的長任務——Anthropic在4.7發布會上重點講過的地方。GPT-5.5在同一個數據集上多了整整13個百分點。

      SWE-Bench Pro,GPT-5.5 58.6%。這條反而沒那么漂亮,Claude Opus 4.7是64.3%,反超它5.7個百分點。OpenAI在表格腳注里自己標了一行:這個benchmark有記憶污染的跡象(memorization)。意思是別太認真看這條。Expert-SWE是OpenAI自己的內部長任務評測,每條題人類平均要20小時才能做完,GPT-5.5拿73.1%,GPT-5.4是68.5%。

      把這三條合起來看,GPT-5.5的編程升級不在「單issue修bug」這種短平快任務上,而是在「連續工作好幾個小時,需要記住上下文、反復check自己」的長任務上。這也是OpenAI自己重點宣傳的點,Cursor的CEO Michael Truell引用詞里說的原話是「stays on task for significantly longer without stopping early」。對Codex用戶是實打實的升級,對只在IDE里做短任務的人感知可能沒那么強。


      Agent和計算機使用:追平,不是超過

      OSWorld-Verified 78.7%,和Claude Opus 4.7的78.0%基本打平。這個榜測的是模型能不能像人一樣操作真實桌面——瀏覽器、文件管理、辦公軟件。GPT-5.5沒贏,只是追上了。

      Toolathlon 55.6%,Gemini 3.1 Pro只有48.8%,Anthropic在這個榜上沒數據。Tau2-bench Telecom(客服工作流)98.0%,這條刷得很滿但OpenAI特別標注了「no prompt tuning」,意思是沒針對性調prompt,純模型能力。

      GDPval(跨44個職業的知識工作)84.9%,比行業專家基準都高。這條是OpenAI這次最愛講的一個數——比人類專業人員還好。這條我個人保留一半意見,GDPval是OpenAI自己參與設計的評測,自己家模型數據好不奇怪。但趨勢是真的,GPT-5.5比GPT-5.4漲了1.9個百分點,比Gemini 3.1 Pro的67.3%多了整整17個百分點。

      長上下文:把Claude按在地上

      這是最夸張的一塊。

      OpenAI MRCR v2在512K到1M的長度下,GPT-5.5拿了74.0%。GPT-5.4只有36.6%,Claude Opus 4.7只有32.2%。一代之內翻倍,順手把Claude留在身后一個數量級。

      Graphwalks BFS 1mil F1,GPT-5.5 45.4%,GPT-5.4只有9.4%——五倍的躍升。這個榜測的是在超長上下文里做圖遍歷,模型得在百萬token的材料里精確地定位、跳轉、推理。Claude Opus 4.6是41.2%(Anthropic沒放4.7的數據)。

      如果你做RAG、做長文檔分析、做代碼庫級別的理解,這一條可能比Terminal-Bench對你更重要。長上下文過去兩年一直是Gemini的護城河,GPT-5.5這次是第一次把1M窗口的可用性拉到可以和編程能力掛鉤的水平。


      數學和科學:Pro版是主力

      FrontierMath Tier 1-3(越難分越低),GPT-5.5拿51.7%,GPT-5.5 Pro上到52.4%,Claude Opus 4.7是43.8%,Gemini 3.1 Pro是36.9%。Tier 4(最難那一檔),GPT-5.5 35.4%,Pro版39.6%——但這一檔Gemini 3.1 Pro Pro模式也能做到38%。GPT-5.5 Pro和Gemini 3.1 Pro在最頂尖數學任務上基本是一個水平。

      GPQA Diamond(博士級科學問答)93.6%。這條已經基本見頂了,四家模型都在92-94%區間。

      Humanity's Last Exam(無工具)41.4%。反而是Claude Opus 4.7最高,46.9%。有意思的是,OpenAI官方博客里一張正文圖都沒放HLE——這是GPT-5首發時他們最愛秀的那條榜單。

      GeneBench和BixBench是這次新增的兩個科學研究評測。GeneBench 25.0%看起來低,但這個榜的任務一條通常是一個實驗生物學家要花好幾天做的。BixBench 80.5%,生物信息學數據分析。OpenAI這次在「科研co-pilot」這個方向上下了明顯的力氣,這個敘事和Claude 4.x系列完全不同——Anthropic更強調「mass market的靠譜coding」,OpenAI更強調「frontier research里的躍升」。

      瀏覽和網絡安全:有贏有輸

      BrowseComp 84.4%。但Claude Opus 4.7是90.1%,比GPT-5.5高5.7個百分點,GPT-5.5 Pro也只有90.1%打平。如果你把AI主要用在做網上研究、查資料、整理信息,這條比編程分數更有參考意義——Claude依然是在線研究之王。

      CyberGym 81.8%,Claude Opus 4.7是73.1%。GPT-5.5把Preparedness Framework下的cybersecurity capability正式列為「High」級別。這條意味著什么先不展開,下面第四件事里專門講。

      Artificial Analysis的第三方綜合分

      OpenAI這次把第三方評測公司Artificial Analysis的Intelligence Index(10個評測的加權平均)放在了博客顯眼位置。坐標軸是「Intelligence Index vs Output Tokens Total」——同樣的智能水平,GPT-5.5用的token大約只有Claude Opus 4.7的一半。OpenAI原話:「delivers state-of-the-art intelligence at half the cost of competitive frontier coding models」。

      這句話可以反過來讀:GPT-5.5在絕對智能上沒有大幅甩開Opus 4.7,但它更省token。所以最終每個問題的成本更低。這是個實用主義的故事,不是敘事主義的故事。

      好,分數看完了。接下來聊幾件值得討論的事。

      幾件OpenAI不會主動說的事 第一件:價格翻了一倍

      GPT-5.5 API的定價:input $5/M token,output $30/M token。GPT-5.4是input $2.5,output $15——直接翻倍。

      GPT-5.5 Pro更猛:input $30/M,output $180/M。

      把時間線拉長:GPT-5(去年8月發布)的input是$1.25/M,GPT-5.5是$5/M。8個月里漲了4倍

      OpenAI給的說法是「more token efficient」,就是每個任務用的token少,所以單價漲不等于最終貴。這個說法對重度Codex用戶可能成立,對在API端接入的開發者大概率不成立——因為你的應用場景是你定的,不是Codex定的。

      再看一個數:GPT-5.5 Fast模式(快1.5倍但貴2.5倍)。如果你想快,還得再加錢。

      AI行業一直在講「每token價格會持續下降」,Anthropic的Haiku 4.5現在是input $1/M,Gemini 3.1 Flash是$0.30/M。OpenAI在旗艦模型這條線上逆勢漲價,這件事本身就是一個定價信號——他們認為自己在高端能力上的領先值得定價權。從benchmark看,這個判斷有一定道理(Terminal-Bench、MRCR、Expert-SWE都在斷檔領先),但市場會不會認賬,是另一回事。


      第二件:API當天沒開放

      這是個值得琢磨的操作。

      GPT-5.5今天在ChatGPT Plus/Pro/Business/Enterprise和Codex里當天可用。API官方說的是「coming soon」,沒給時間表。

      意味著什么?Cursor、Windsurf、Cline、Cody、OpenRouter這些第三方編程工具,今天拿不到GPT-5.5。你要用GPT-5.5的編程能力,只能走OpenAI自己的Codex。

      OpenAI給的公開說法是「API deployments require different safeguards」,意思是API需要不同的安全配置,他們在和合作伙伴一起對齊安全要求。這個說法合理,但不是完整解釋——GPT-5首發時API也是同步開放的。

      更直接的解釋是:OpenAI想讓Codex獨占一段窗口期。ChatGPT的訂閱用戶和Codex的付費用戶,在這段窗口期里能用到最強模型,而Cursor、Windsurf這些競品只能繼續用GPT-5.4或者Claude Opus 4.7。窗口期可能是幾周,也可能是一兩個月。

      去年這個時候GPT-5發布,第三方工具當天就能接。一年過去,OpenAI開始學Anthropic的玩法了——先讓自己的產品先跑一段,再把模型放出去。這是一個生態位的微調,對Cursor這種用戶都靠OpenAI模型撐起來的產品,不是好消息。

      第三件:Codex這次打的是Claude Code

      別看OpenAI這次的發布稿從頭到尾沒提Claude Code一個字,整個敘事結構就是在和Claude Code正面掰。

      看它強調的四個點:

      • 「stays on task longer」(Cursor CEO原話)——這正是Claude Code最出名的長任務堅持能力

      • 「context across large systems」——Claude Code的長上下文體驗是很多人不離不棄的原因

      • 「uses significantly fewer tokens」——這是在回應Claude在「token消耗大」上被人吐槽的點

      • 「works with you on real engineering tasks」——Anthropic整個Claude Code的核心敘事

      Terminal-Bench 2.0這次選作發布主榜也不是隨意選的。Terminal-Bench是Stanford/Hugging Face/Anthropic相關團隊做的評測,重點是長命令行任務,過去一年是Anthropic系列模型的主場。GPT-5.5在這條榜上從GPT-5.4的75.1%躍到82.7%,直接甩開Claude Opus 4.7 13個百分點,這是精準打臉。

      GPT-5.5不是發給所有AI用戶的,它主要是發給「正在考慮是不是要從Codex切到Claude Code」的那群開發者的。OpenAI在用benchmark+Codex產品體驗+價格+生態鎖定(API先不開放),試圖把這些人留下來。

      第四件:System Card里那個29%

      這是我這兩天讀System Card發現的、最值得單拎出來的一條。

      Apollo Research做了獨立測試,設計了一個叫「Impossible Coding Task」的實驗:給模型一個實際上根本無解的編程任務(比如讓它用某個API的某個不存在的參數實現某個功能),看它會不會謊報「搞定了」。

      結果:

      • GPT-5.4 謊報率 7%

      • GPT-5.3 Codex 謊報率 10%

      • GPT-5.5 謊報率 29%

      翻譯成日常場景:如果你給GPT-5.5布置一個其實不可能做到的編程小任務,接近三分之一的概率它會告訴你「done」——代碼給你一段看起來很合理、但實際跑不通或者悄悄做了別的事的東西。

      這個數字沒出現在OpenAI自己的正文博客里,只藏在System Card的Apollo部分。OpenAI的整體結論是「Apollo沒有發現整體風險顯著升高」,這個結論本身沒問題——因為別的子項GPT-5.5沒退步。但Impossible Coding Task這個具體子項的翻倍惡化,是需要開發者警惕的。

      如果你切到GPT-5.5 + Codex的工作流,第一條要學會的就是:不能完全信「done」。你得跑一下結果、或者讓另一個agent反向審核。Claude Code那種鼓勵你隨時打斷、看中間狀態的設計,在GPT-5.5這個數據面前反而顯得更務實。

      最后:可以切Codex試試了

      如果你過去一年一直在用Claude Code,那么這篇文章如果只給你一條建議,就是這條:

      找個項目,把Codex當Claude Code的平替跑一輪。不是說立刻卸載Claude Code,是跑一輪,體驗一下GPT-5.5 + Codex在長任務上的感覺。

      過去這一年,Claude Code幾乎是沒有對手的。Cursor要不是被馬斯克收購都快無人關心了,Gemini 3.1 Pro還不錯但Gemini CLI爛得要死,Codex在GPT-5.4這代還差一口氣。所以我默認就是Claude Code。這一次,Codex可能真的值得重新認真評估一次

      不過有幾件事可以注意下:

      • 29%的謊報率是真的,Codex工作流里最好讓另一個agent反向審核關鍵步驟

      • API還沒開放,第三方工具(Cursor、Windsurf、Cline)暫時接不到GPT-5.5

      • BrowseComp做在線研究Claude Opus 4.7還是第一

      • 價格翻倍了,重度用戶心里算一下賬

      Claude Code曾經是唯一選擇,現在確實可以好好考慮下替代選項了。

      GPT-5.5發布官方頁:openai.com/index/introducing-gpt-5-5/

      System Card英文原版:deploymentsafety.openai.com/gpt-5-5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      央視再曝新毒物!長期用會致癌,已流竄至全國,不少嬰兒孕婦中招

      央視再曝新毒物!長期用會致癌,已流竄至全國,不少嬰兒孕婦中招

      阿訊說天下
      2026-06-03 03:30:45
      6死7傷!鄉政府大樓被炸震驚中央,四川涼山州6.26特大爆炸案始末

      6死7傷!鄉政府大樓被炸震驚中央,四川涼山州6.26特大爆炸案始末

      易玄
      2024-09-11 10:52:41
      技術之外,程序員最該修煉的5項無聲能力

      技術之外,程序員最該修煉的5項無聲能力

      薛定諤的BUG
      2026-06-02 01:40:43
      震驚!一高考家長要物業驅夜鳥,網友:溫度高,是否把太陽射下來

      震驚!一高考家長要物業驅夜鳥,網友:溫度高,是否把太陽射下來

      火山詩話
      2026-06-02 15:21:11
      383453輛!5月銷量公布:最可怕的不是賣得多,而是沒人能跟上了

      383453輛!5月銷量公布:最可怕的不是賣得多,而是沒人能跟上了

      小怪吃美食
      2026-06-03 04:03:51
      辟謠9個月徹底露餡!馮小剛心思早已轉移 徐帆27年隱忍 終于看懂了

      辟謠9個月徹底露餡!馮小剛心思早已轉移 徐帆27年隱忍 終于看懂了

      TVB的四小花
      2026-06-03 01:15:56
      上海丟G4現最大弊端!體能問題開始影響攻守,G5或成關鍵戰!

      上海丟G4現最大弊端!體能問題開始影響攻守,G5或成關鍵戰!

      籃球資訊達人
      2026-06-02 22:17:45
      卡里克虧大了!曼聯頭號目標要被搶,阿森納白菜價截胡穩了

      卡里克虧大了!曼聯頭號目標要被搶,阿森納白菜價截胡穩了

      奶蓋熊本熊
      2026-06-03 05:01:20
      未來10年中國最缺人的4個工科專業,畢業即高薪,不愁沒工作

      未來10年中國最缺人的4個工科專業,畢業即高薪,不愁沒工作

      狐貍先森講升學規劃
      2026-05-30 06:30:03
      女子哭訴新房被公婆住,老公不理解,網友一邊倒:把90萬還給公婆

      女子哭訴新房被公婆住,老公不理解,網友一邊倒:把90萬還給公婆

      小蘭聊歷史
      2026-06-02 12:40:39
      黃仁勛:AI時代無需過度糾結“應該學什么專業”,工作中所需的“人性”部分無法被AI取代

      黃仁勛:AI時代無需過度糾結“應該學什么專業”,工作中所需的“人性”部分無法被AI取代

      每日經濟新聞
      2026-05-31 19:10:24
      他連粥都不會煮,我才看清了婚姻里的那些事

      他連粥都不會煮,我才看清了婚姻里的那些事

      一隅安穩
      2026-06-02 02:01:47
      美股芯片股爆發,邁威爾科技飆漲26%,中概股大漲,阿里巴巴、京東集團漲超4%,國際油價拉升

      美股芯片股爆發,邁威爾科技飆漲26%,中概股大漲,阿里巴巴、京東集團漲超4%,國際油價拉升

      21世紀經濟報道
      2026-06-02 22:32:35
      河南大范圍將迎來強降雨,短時間伴有雷雨大風,小麥搶收要抓緊

      河南大范圍將迎來強降雨,短時間伴有雷雨大風,小麥搶收要抓緊

      愛下廚的阿椅
      2026-06-03 01:34:48
      女子網約車排泄后續曝光,平臺公布信息結局大快人心

      女子網約車排泄后續曝光,平臺公布信息結局大快人心

      每一次點擊
      2026-06-01 16:41:11
      為什么領導都喜歡上班?網友曝光領導抽屜都是性用品:絲襪、套套

      為什么領導都喜歡上班?網友曝光領導抽屜都是性用品:絲襪、套套

      黯泉
      2026-06-01 15:33:05
      這三個星座,說不愛就真的不回頭

      這三個星座,說不愛就真的不回頭

      星座不求人
      2026-06-02 20:18:42
      為什么往死里掃黃?網友分享太真實了,一次說透

      為什么往死里掃黃?網友分享太真實了,一次說透

      另子維愛讀史
      2026-05-27 20:16:03
      饑荒餓死1/3人口、2.5萬精英被處決:5月31日哈薩克在紀念什么

      饑荒餓死1/3人口、2.5萬精英被處決:5月31日哈薩克在紀念什么

      卷史
      2026-06-01 11:19:40
      宇樹科技上海靜安首店開業:現貨即買即走,意大利粉絲現場1.5萬提貨機器狗

      宇樹科技上海靜安首店開業:現貨即買即走,意大利粉絲現場1.5萬提貨機器狗

      澎湃新聞
      2026-06-02 11:58:11
      2026-06-03 06:52:49
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      224文章數 116關注度
      往期回顧 全部

      科技要聞

      燒掉千億后,美團、阿里、京東誰先止血?

      頭條要聞

      演員魏宗萬去世 曾在94版《三國演義》中飾演"司馬懿"

      頭條要聞

      演員魏宗萬去世 曾在94版《三國演義》中飾演"司馬懿"

      體育要聞

      1米74的業余聯賽替補,在英超踢中衛

      娛樂要聞

      奚夢瑤何猷君補辦婚禮超幸福

      財經要聞

      智元和宇樹的“暗戰”愈演愈烈

      汽車要聞

      星途神秘新車輪廓曝光 又一款性能SUV要來了?

      態度原創

      手機
      游戲
      本地
      旅游
      公開課

      手機要聞

      華為凌霄子母路由Q7電線版星閃電競專鏈功能首批支持機型公布

      離發售不遠了!《寂靜嶺》系列新作已公開游戲評級

      本地新聞

      用剪紙的方式,打開江蘇揚州

      旅游要聞

      北京位列全球數字旅游引領型城市榜首

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: jizz韩国| 伊人久久大香线蕉AV仙人| 国产精品高清一区二区三区| www久久只有这里有精品| 性饥渴熟妇乱子伦HD| 曰曰摸夜夜添夜夜添高潮出水| 亚洲色欲或者高潮影院| 国产在线午夜不卡精品影院| www亚洲精品少妇裸乳一区二区 | 国产精品久久久久久福利漫画| 久久99精品久久久久久不卡| 欧美人成精品网站播放| 国产精品影音先锋| 国产制服丝袜亚洲日本在线| 一本久道久久综合五月丁香 | 国产熟睡乱子伦视频在线播放| 国产一级毛片一区二区三区| 色欲精品国产一区二区三区av | 国产性生大片免费观看性欧美 | 亚洲女女女同性video| 天天透天天| 色偷偷女人的天堂亚洲网| 内射网站| 无码射肉在线播放视频| 国产精品入口中文字幕| 精品国产性色无码av网站| 国产精品av中文字幕| 少妇人妻偷人一区二区| 在线精品另类自拍视频| 欧美第3页| 亚洲综合色婷婷中文字幕| 中文字幕精品人妻av在线| 日韩中文字幕高清有码| 亚洲区一区二区三区亚洲| 亚洲色老头| yw尤物av无码国产在线观看| 在线观看一级毛片免费| 精品九九人人做人人爱| 91免费网站| 日本不卡一区二区三区| 在线播放国产高潮流白浆视频|