![]()
距離谷歌的Gemini 3.5 Flash發(fā)布已經(jīng)一周多了。
皮查伊在谷歌發(fā)布會上口口聲聲地表示,Gemini 3.5 Flash性能比3.1 Pro還強,說它是Agent時代的底座。
可結(jié)果呢?網(wǎng)上對Gemini 3.5 Flash的評價,除了速度快這唯一的優(yōu)點外,全是缺點。輸出的內(nèi)容錯誤多、啰嗦、干活token消耗量爆炸……
谷歌Antigravity負(fù)責(zé)人瓦倫·莫漢(Varun Mohan)在5月25日發(fā)帖稱,谷歌已增設(shè)Gemini 3.5 Flash (Low) 模型用于優(yōu)化資源消耗。
瓦倫表示,根據(jù)谷歌的內(nèi)部測試數(shù)據(jù),在處理簡單任務(wù)時,Gemini 3.5 Flash (Low) 相比Gemini 3.5 Flash (Medium) 可以減少約45%的token生成量。在軟件工程(SWE)任務(wù)上的表現(xiàn),Gemini 3.5 Flash (Low) 普遍優(yōu)于上一代旗艦?zāi)P虶emini 3 Flash (High)。
然而網(wǎng)友們并不買賬,現(xiàn)在,瓦倫的評論區(qū)已經(jīng)被網(wǎng)友們的冷嘲熱諷徹底攻占。
熱評第一條是“你們的產(chǎn)品測試過嗎?看起來你們是拿我們在做測試啊!”
第二條是“能否也解決一下圖像模型的生成數(shù)量限制問題?你們的能力需要對標(biāo)Codex。我使用Codex可以生成1000張圖像,但在谷歌的高級套餐下,我只能使用Antigravity生成24張。”
![]()
Gemini 3.0 Pro出來的時候,所有人都在為谷歌鼓掌,OpenAI甚至因此拉響紅色警報,以防止被谷歌超越。
然而到了 3.5 Flash,谷歌成了小丑,眼瞅著就要步入Meta的后塵。
那我們不禁要問,谷歌,你這是咋了?
01
Gemini 3.5的表現(xiàn)沒有達(dá)到預(yù)期
網(wǎng)上對Gemini 3.5 Flash的評價非常一致,很快,但是不夠好。
皮查伊在發(fā)布會上反復(fù)強調(diào)模型多便宜,然而現(xiàn)實中情況截然相反。
按照官方定價,Gemini 3.5 Flash每百萬輸入token收費1.5美元,每百萬輸出token收費9美元,確實比Claude Opus 4.7的5美元和25美元便宜。
但這只是價格表,真正決定成本的,是完成一個任務(wù)到底要消耗多少token。
Artificial Analysis在完整評估套件中測試發(fā)現(xiàn),Gemini 3.5 Flash完成全部任務(wù)的總成本是1552美元,而Gemini 3 Flash只需要282美元,前者是后者的5.5倍。
哪怕是和Gemini 3.1 Pro相比,F(xiàn)lash的成本也高出75%,大約是870美元。更尷尬的是,Gemini 3.5 Flash完成任務(wù)的費用,比GPT-5.5 medium還貴。
原因在于turn count,也就是完成任務(wù)需要的輪次。
在Agent評估中,F(xiàn)lash模型平均每個任務(wù)需要49輪對話。每一輪對話,它都會把完整的對話歷史輸入給模型,token成本因此暴增。
而這樣的任務(wù),GPT-5.5或者Opus 4.7,差不多只用20輪就能完成。
所以谷歌說的“成本不到一半”,指的是單位token價格。但對用戶來說,Gemini 3.5 Flash一點都不便宜。
除了輪次多了,Gemini 3.5 Flash的輸出非常啰嗦。
比如以前你問Gemini 3.1 Pro一個技術(shù)問題,模型會直接給出代碼和簡短解釋。
換成3.5 Flash之后,同樣的問題,模型會先解釋背景,再列舉三種可能的方案,然后逐一分析優(yōu)缺點,最后才給出代碼。
看起來很全面,實際上大部分內(nèi)容都是廢話。更要命的是,這些廢話都算token,都要收費。
復(fù)雜任務(wù)的token消耗更是爆炸。
有用戶反映,讓Flash執(zhí)行一個多步驟的代碼重構(gòu)任務(wù),模型反復(fù)在不同文件之間跳轉(zhuǎn),每次跳轉(zhuǎn)都要重新加載上下文,最終消耗的token是預(yù)期的三倍以上。
還有用戶表示,只是輸入了一個復(fù)雜的prompt,就直接觸發(fā)了5小時使用限制。
谷歌在I/O 2026之后悄悄修改了AI Pro訂閱的額度規(guī)則,從固定消息數(shù),改成了基于計算資源的配額(compute-based quota)。
![]()
就是說你一個任務(wù),如果讓模型思考得多,那即使它給你回復(fù)的內(nèi)容不變,花的錢也比以前更多。
那么問題來了,我怎么知道一個任務(wù)會讓模型消耗多少算力?而且,我也推算不出來我還剩多少算力。
可能我只是跟它打個招呼,就花掉很多token。讓它執(zhí)行一個長周期任務(wù),反而不怎么消耗token。
有用戶在外網(wǎng)論壇上直接把新限制稱為“騙局”,稱單個prompt就消耗了13%的配額,某些Gemini AI Plus功能一次能燒掉將近30%。
那為什么Gemini 3.5 Flash表現(xiàn)會這么一般?
答案藏在benchmark里,F(xiàn)lash的表現(xiàn)非常不均衡。
Gemini 3.5 Flash在Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld這類Agent、工具調(diào)用、代碼執(zhí)行榜單上表現(xiàn)不錯。Terminal-Bench 2.1拿到76.2%,MCP Atlas拿到83.6%,都算是頭部成績。
這些榜單測的是模型能不能按照指令調(diào)用工具、執(zhí)行命令、完成多步驟操作。Flash在這些方面確實有優(yōu)勢。
但在更接近“聰明不聰明”的綜合推理榜上,它的表現(xiàn)就有點難看了。
Humanity‘s Last Exam是40.2%,低于Gemini 3.1 Pro的44.4%和Claude Opus 4.7的46.9%。ARC-AGI-2是72.1%,低于Gemini 3.1 Pro的77.1%和GPT-5.5的84.6%。GDPval-AA也低于Claude Opus和GPT-5.5。
也就是說,Gemini 3.5 Flash有點“蠢”。你給它任務(wù)它能去干活,但它“智力不夠”。它做不了現(xiàn)在最火的復(fù)雜推理、長鏈分析、創(chuàng)意判斷。
記憶方面也有問題。
在谷歌的宣傳中,Gemini 3.5 Flash有最高1M token上下文。但模型卡里的MRCR v2長上下文測試顯示,128k平均成績是77.3%,到1M pointwise只有26.6%。
Gemini 3.5 Flash雖然能一口吃下很多內(nèi)容,但是到用的時候就開始糊涂了。
Artificial Analysis的獨立測試直接打臉谷歌。
在編程指數(shù)(Coding Index)上,Artificial Analysis給Flash打了45.0分,低于Gemini 3.1 Pro的56.5分,更遠(yuǎn)低于GPT-5.5。
02
Gemini污染了谷歌的入口,導(dǎo)致模型問題會污染Google的所有產(chǎn)品體驗
谷歌I/O 2026上,皮查伊宣布,Gemini是谷歌全產(chǎn)品宇宙的連接層。
也就是說,Gemini 3.5 Flash嵌入到了谷歌絕大多數(shù)產(chǎn)品里。
外媒表示,“Gemini正在變得無法避開”。
過去,一個AI不好用,你可以不用。你覺得ChatGPT不行,可以換Claude,還覺得不好你可以壓根不用AI。
但谷歌把Gemini放進(jìn)所有入口以后,Gemini 3.5 Flash的糟糕體驗,污染了谷歌所有產(chǎn)品。
最典型的例子是AI Overview和AI Mode的“disregard/ignore/stop”故障。
用戶搜索“disregard”“ignore”“stop”等單詞時,谷歌AI Overview會把它們誤判成指令,導(dǎo)致搜索結(jié)果異常或空白。
有用戶在X上發(fā)帖說,搜索“disregard”這個詞,AI Overview不是給出定義,而是回復(fù)“明白了!我會忽略之前的提示,重新開始。”
搜索“stop”,AI Overview說“沒問題。我已經(jīng)停止當(dāng)前操作。”
搜索“ignore”,AI Overview說“收到。消息已忽略。”
嵌入Gemini 3.5 Flash以后,AI Overview把這些單詞當(dāng)成了對話指令,導(dǎo)致AI Overview把這些單詞當(dāng)成了對話指令。
問題不只出現(xiàn)在這幾個詞上。經(jīng)過網(wǎng)友測試,“remember”“start”“finished”“forget”這些詞也會觸發(fā)類似故障。即便在搜索詞里加上“definition”,也無法讓AI Overview回歸正常。
谷歌方面回應(yīng)稱,這個問題與I/O的新搜索發(fā)布無關(guān),是AI Overviews自身問題,團(tuán)隊正在修復(fù)。
搜索是谷歌的命根子,一旦搜索出了問題,所有人都只會覺得“谷歌要涼了”。
所以現(xiàn)在的壓力給到了Gemini 3.5 Pro。
外界真正想看的,不是谷歌能不能把AI塞進(jìn)所有入口。這個問題已經(jīng)有答案了,谷歌確實做到了。外界想看的是,Google能不能拿出一個足夠聰明、足夠穩(wěn)定、足夠有說服力的旗艦?zāi)P停匦伦C明自己在模型能力上沒有掉隊。
這個任務(wù)Flash完成不了。它是一個執(zhí)行型模型,速度快,能干活,但智力不夠。它適合做Agent架構(gòu)里的子任務(wù)執(zhí)行器,配合強規(guī)劃器使用。但它不是旗艦,它撐不起谷歌在AI時代的門面。
最終只能落到3.5 Pro。
目前,Gemini 3.5 Pro還在內(nèi)部測試中。官方博客表示,“我們也在努力開發(fā)3.5 Pro。它已經(jīng)在內(nèi)部使用,我們期待下個月(6月)推出。”
谷歌產(chǎn)品負(fù)責(zé)人圖爾西·多希(Tulsee Doshi)表示,“3.5 Pro像項目經(jīng)理,負(fù)責(zé)想清楚事情該怎么做;Flash像執(zhí)行團(tuán)隊,負(fù)責(zé)把一個個具體任務(wù)跑完。真正需要推理和規(guī)劃的地方,要交給更大的Pro;只是需要快速調(diào)用工具、批量處理任務(wù)的地方,用Flash就夠了。。”
這個架構(gòu)設(shè)計本身沒問題,問題在于Pro還沒出來,很多場景只能讓Flash一個人苦苦硬撐。
所以Gemini 3.5 Pro變成了一個二次驗貨節(jié)點。
如果3.5 Pro出來后表現(xiàn)還不錯,那谷歌高低還能圓過去。
話術(shù)我都想好“全線嵌入Flash是我們一個嘗試,給大家造成了一些不好的產(chǎn)品體驗,不過我們已經(jīng)發(fā)布了3.5 Pro,絕對好用,歡迎大家體驗”。
Flash的問題可以被理解為一種妥協(xié),Pro才是真正的實力展示。
但如果3.5 Pro表現(xiàn)不好,那谷歌在AI這塊可以說是全面潰敗。
AI Overview有低級錯誤、ChatBot啰嗦、WorkSpace消耗token過高導(dǎo)致價格太貴、Antigravity沒什么起色。所有這些產(chǎn)品都會被Gemini拖累,從優(yōu)勢變成負(fù)擔(dān)。
谷歌現(xiàn)在的處境很微妙。它有現(xiàn)金、有基礎(chǔ)設(shè)施、有DeepMind。但自從3.0 Pro之后,它就一直缺能打的旗艦?zāi)P汀?/p>
3.5 Pro要補的就是這個缺口。如果3.5 Pro做不到,谷歌真就有可能步入Meta的后塵。
03
谷歌正在成為硬件公司
不過谷歌并非一敗涂地,相反,在硬件這塊,谷歌反而支棱起來了。
谷歌2026年Q1財報顯示,公司收入1099億美元,同比增長22%。谷歌Search & Other收入604億美元,同比增長19%。YouTube廣告收入約99億美元,同比增長11%。谷歌Cloud收入200億美元,同比增長63%。
這說明谷歌仍然是一臺賺錢機器。
這份財報里最亮眼的數(shù)字,來自于谷歌Cloud的63%增長。
皮查伊在財報電話會上說,Cloud的增長是“強勁需求”的結(jié)果。其實這句話的本質(zhì),就是在說谷歌的TPU硬件和數(shù)據(jù)中心賣得非常好。
![]()
基于谷歌模型構(gòu)建的AI解決方案同比增長近800%。Gemini Enterprise的付費月活用戶環(huán)比增長40%。通過API使用的AI token增長到每分鐘160億個,比第四季度的100億增長了60%。
Cloud的backlog(已經(jīng)簽下,但還沒有確認(rèn)成收入的合同金額)在本季度翻了一番,達(dá)到4620億美元。
皮查伊說,“顯然,我們在短期內(nèi)受到算力限制。如果我們能夠滿足需求,我們的Cloud收入會更高。所以我們正在度過這個時刻,我們正在投資,但我們有一個強大的長期規(guī)劃框架……我們看到了前所未有的機會。”
公司預(yù)計在未來24個月內(nèi)完成50%的backlog。
雖然谷歌基座模型不行,編程工具Antigravity表現(xiàn)也差強人意,但TPU這塊表現(xiàn)太好了。
我都懷疑,谷歌是不是忘了自己其實是一個互聯(lián)網(wǎng)公司,不是一個硬件公司?
Anthropic、Meta等外部大客戶正在租用或采購谷歌TPU資源。
Anthropic在5月宣布與谷歌和Broadcom簽署了新的多年期協(xié)議,擴大使用谷歌Cloud的TPU。
這筆交易讓Anthropic獲得了多達(dá)100萬個谷歌AI計算芯片的使用權(quán),價值數(shù)百億美元,預(yù)計將在2026年帶來超過1吉瓦的容量上線。
1吉瓦的電廠,大約能給35萬戶家庭供電。
谷歌在Google Cloud Next 2026上宣布了第八代TPU,首次采用雙芯片方法,分別針對訓(xùn)練和推理設(shè)計專用架構(gòu),TPU 8t和TPU 8i。
尤其是TPU 8t,它是專為大規(guī)模、計算密集型的訓(xùn)練工作準(zhǔn)備的,具有更大的計算吞吐量和更多的scale-up帶寬。
TPU 8i則是專為低延遲推理工作負(fù)載設(shè)計,Agent干活要反復(fù)“思考、調(diào)用工具、再思考”。每一步慢一點,幾十上百步下來就會很慢,所以低延遲對Agent特別重要。
或者你可以這么理解,TPU 8t是給模型用的。
訓(xùn)練前沿大模型就是讓幾萬塊芯片一起跑馬拉松。問題不是單塊芯片夠不夠快,而是這幾十萬塊芯片能不能一直持續(xù)地跑。
比如說某根網(wǎng)絡(luò)線壞了、某塊芯片不亮了、系統(tǒng)需要重啟檢查點,那么整個訓(xùn)練集群就會因此浪費掉大量時間。
所以Google說TPU 8t的重點不是單純“算力更強”,而是讓訓(xùn)練過程更少中斷。
谷歌說,TPU 8t的設(shè)計目標(biāo),是goodput超過97%。
所謂goodput,你可以理解成真正用于干活的時間。
比如一臺機器理論上工作100小時,但中間故障、等待、重啟浪費了10小時,那有效工作時間只有90小時,goodput就是90%。
Google說TPU 8t目標(biāo)超過97% goodput,意思是它希望大部分時間都真的在訓(xùn)練,而不是在等修復(fù)、等重啟、等網(wǎng)絡(luò)恢復(fù)。
為了實現(xiàn)超過97%的goodput,谷歌給TPU 8t加入了很多橫向提升性能的功能。比如系統(tǒng)發(fā)現(xiàn)哪里壞了,可以自動繞路,不用人手工停機修。
TPU 8i則是給Agent用的。
Agent推理是一個非常麻煩的事情,前文提到,Agent不是回答一次就結(jié)束了的,它會反復(fù)思考、查資料、調(diào)用工具、寫代碼、再檢查、再修正。
一次任務(wù)可能要調(diào)用模型幾十次甚至上百次。
所以TPU 8i重點是讓這些調(diào)用盡可能快。
它有384MB板載SRAM,可以理解成芯片旁邊有一片非常快的小記憶區(qū)。Agent短期記憶就保留在這里,那么當(dāng)Agent需要用這些記憶的時候,就可以直接從這里面拿,從而減少來回搬數(shù)據(jù)的時間。
它還用了更多CPU主機,也就是讓旁邊有更多“調(diào)度員”幫忙安排數(shù)據(jù)輸入輸出、任務(wù)協(xié)調(diào)。Agent跑起來不只是模型算一下,還要不斷讀數(shù)據(jù)、發(fā)請求、調(diào)工具、拿結(jié)果,CPU就是幫TPU處理這些雜活的。
微軟曾經(jīng)有過這么一個預(yù)測,到2028年將有13億個Agent投入運行,這才是為什么,谷歌要把TPU分成8t和8i,Agent的歸Agent,訓(xùn)練的歸訓(xùn)練。
和谷歌傳統(tǒng)的互聯(lián)網(wǎng)業(yè)務(wù)相比,TPU反而是他們現(xiàn)在最硬的敘事。
但問題就在于,Anthropic能用TPU造出Claude Opus 4.7以及現(xiàn)在的Mythos,可谷歌只拿出來了Gemini 3.5 Flash。
還真就是橘生淮南則為橘,生于淮北則為枳。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.