![]()
昨天凌晨,OpenAI發(fā)布了三款音頻模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。
OpenAI官網(wǎng)的表述是,新模型可以讓開發(fā)者構(gòu)建能在用戶說(shuō)話時(shí)“推理、翻譯和轉(zhuǎn)寫”的實(shí)時(shí)語(yǔ)音產(chǎn)品。三款模型已經(jīng)開放給開發(fā)者測(cè)試。
![]()
這次更新的重點(diǎn)在于三款模型不同場(chǎng)景分工。
GPT-Realtime-2面向?qū)崟r(shí)語(yǔ)音Agent場(chǎng)景,它是OpenAI首個(gè)具備“GPT-5級(jí)推理”的語(yǔ)音模型,可以處理復(fù)雜請(qǐng)求,調(diào)用工具,處理中途打斷,并在更長(zhǎng)語(yǔ)音會(huì)話中維持上下文。
GPT-Realtime-Translate面向?qū)崟r(shí)語(yǔ)音翻譯場(chǎng)景,支持70多種輸入語(yǔ)言到13種輸出語(yǔ)言。
GPT-Realtime-Whisper面向?qū)崟r(shí)語(yǔ)音轉(zhuǎn)寫,可以在人說(shuō)話時(shí)生成文本,用于字幕、會(huì)議記錄和工作流更新。
價(jià)格也同步公布。GPT-Realtime-2按token計(jì)費(fèi),音頻輸入起價(jià)為32美元/百萬(wàn)token,音頻輸出為64美元/百萬(wàn)token;GPT-Realtime-Translate按分鐘計(jì)費(fèi),價(jià)格為0.034美元/分鐘;GPT-Realtime-Whisper同樣按分鐘計(jì)費(fèi),價(jià)格為0.017美元/分鐘。
相關(guān)報(bào)道顯示,一些企業(yè)用戶包括Zillow、Priceline和德國(guó)電信在內(nèi)的知名廠商已經(jīng)在測(cè)試這些模型。
這是OpenAI過去一年語(yǔ)音路線的一次延伸。
2024年,OpenAI先把ChatGPT高級(jí)語(yǔ)音模式背后的低延遲語(yǔ)音能力開放給開發(fā)者;2025年8月,OpenAI推出首個(gè)正式版Gpt-Realtime,開始面向生產(chǎn)級(jí)語(yǔ)音Agent。
今年2月,Gpt-Realtime-1.5成為上一代主力模型,用于語(yǔ)音Agent和客服場(chǎng)景。再到今天的2.0版本的三大模型矩陣,這更像Realtime產(chǎn)品線從體驗(yàn)功能走向企業(yè)API的一次版本升級(jí)。
![]()
01
從對(duì)話走向執(zhí)行
先來(lái)看GPT-Realtime-2,按照OpenAI官方的說(shuō)法,這是第一款具備“GPT-5級(jí)推理”的語(yǔ)音模型。這個(gè)模型被設(shè)計(jì)用于處理復(fù)雜請(qǐng)求、調(diào)用工具、處理中斷,并在更長(zhǎng)的語(yǔ)音會(huì)話里保持上下文。
這些能力對(duì)應(yīng)的是語(yǔ)音Agent落地時(shí)最常見的問題。
GPT-Realtime-2把上下文窗口從32K提升到128K。這個(gè)參數(shù)對(duì)長(zhǎng)會(huì)話場(chǎng)景有直接意義。比如一個(gè)用戶想要針對(duì)某套房產(chǎn)做咨詢、或者想要改簽機(jī)票,這些場(chǎng)景都可能包含大量條件和多輪確認(rèn)。
上下文窗口擴(kuò)大后,模型可以在更長(zhǎng)的實(shí)時(shí)對(duì)話里保留前面出現(xiàn)過的限制、偏好和業(yè)務(wù)信息。
工具調(diào)用也是這次更新里的關(guān)鍵詞。RealtimeAPI可以用于構(gòu)建會(huì)調(diào)用工具的語(yǔ)音體驗(yàn)。應(yīng)用可以保持實(shí)時(shí)會(huì)話連接,連續(xù)發(fā)送音頻,接收模型事件,更新會(huì)話狀態(tài),并把外部系統(tǒng)返回的結(jié)果再交給模型繼續(xù)回應(yīng)。
美國(guó)房地產(chǎn)信息查詢網(wǎng)站Zillow,成為了OpenAI官方的首批企業(yè)案例。
OpenAI在官網(wǎng)中提到,Zillow正在用GPT-Realtime-2構(gòu)建可以理解住房條件并安排看房的語(yǔ)音助手。Zillow方面表示,在最困難的對(duì)抗性測(cè)試中,經(jīng)過prompt優(yōu)化后,電話任務(wù)成功率從69%提升到95%,F(xiàn)airHousing相關(guān)合規(guī)表現(xiàn)也更穩(wěn)定。
Fair Housing指美國(guó)住房交易中的反歧視合規(guī)要求,房產(chǎn)平臺(tái)不能在買賣、租賃、貸款或經(jīng)紀(jì)服務(wù)中,基于種族、宗教、性別、殘障、家庭狀況、國(guó)籍等因素區(qū)別對(duì)待用戶。
從“能說(shuō)”到“會(huì)說(shuō)”,這可能是GPT-Realtime-2給予行業(yè)的最大震撼。
Booking子公司、知名旅行優(yōu)惠平臺(tái)Priceline,則代表另一類語(yǔ)音模型的落地場(chǎng)景。
據(jù)了解,Priceline也在測(cè)試GPT-Realtime-2系列。旅游預(yù)訂的鏈條很長(zhǎng),用戶可能要查航班、訂酒店、調(diào)整日期、處理延誤、比較價(jià)格,還可能在境外需要翻譯。語(yǔ)音Agent如果能穩(wěn)定接入后臺(tái)系統(tǒng),就有機(jī)會(huì)把“問答”推進(jìn)到“辦事”。
OpenAI提到的另一個(gè)已知客戶是德國(guó)電信。電信行業(yè)有大規(guī)模坐席、復(fù)雜套餐、故障處理、多語(yǔ)言服務(wù)和賬單解釋,也是語(yǔ)音模型落地的天然場(chǎng)景。
![]()
GPT-Realtime-2還有一個(gè)細(xì)節(jié)是可調(diào)推理強(qiáng)度。
OpenAI開發(fā)者文檔提到,GPT-Realtime-2把推理能力帶入語(yǔ)音到語(yǔ)音工作流。多數(shù)生產(chǎn)場(chǎng)景可以先使用較低的推理強(qiáng)度,優(yōu)先保證通話里的響應(yīng)速度;遇到更復(fù)雜的客服、預(yù)訂、排障任務(wù),再提高推理強(qiáng)度,用更多計(jì)算換取更完整的判斷。
這個(gè)細(xì)節(jié)很重要。語(yǔ)音交互比文字聊天更怕停頓。用戶在電話里等待一兩秒,會(huì)明顯感到卡頓。推理越強(qiáng),延遲壓力越大。在性能和響應(yīng)的平衡上,不同的開發(fā)者在這個(gè)問題上會(huì)有一定取舍。。
官方也給出了一些測(cè)試數(shù)據(jù)。OpenAI稱,GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。這兩個(gè)指標(biāo)用于衡量模型在音頻輸入、多輪語(yǔ)音、復(fù)雜指令和上下文整合方面的能力。
第二款模型是GPT-Realtime-Translate。
按OpenAI面向開發(fā)者的示例說(shuō)明,GPT-Realtime-Translate主打?qū)崟r(shí)語(yǔ)音到語(yǔ)音翻譯,適合廣播、直播、電話和視頻對(duì)話。它會(huì)自動(dòng)識(shí)別輸入語(yǔ)言,并輸出翻譯后的語(yǔ)音和文本。開發(fā)者只需要設(shè)定目標(biāo)語(yǔ)言。
這個(gè)模型支持70多種輸入語(yǔ)言到13種輸出語(yǔ)言。OpenAI稱,它可以在說(shuō)話人講話時(shí)跟上節(jié)奏。開發(fā)者文檔還提到,傳統(tǒng)語(yǔ)音翻譯常常要求說(shuō)話人停頓,系統(tǒng)等一句話結(jié)束后再翻譯;而GPT-Realtime-Translate更接近連續(xù)口譯的形態(tài)。
OpenAI把它的場(chǎng)景分成兩類。
一類是廣播式翻譯,比如直播、網(wǎng)絡(luò)研討會(huì)、講座、財(cái)報(bào)電話會(huì)和大型會(huì)議演講。另一類是對(duì)話式翻譯,比如呼叫中心、視頻通話和電話工作流。這兩個(gè)類別基本覆蓋了企業(yè)最愿意付費(fèi)的跨語(yǔ)言場(chǎng)景:客服、教育、國(guó)際會(huì)議、內(nèi)容平臺(tái)、跨境銷售和企業(yè)培訓(xùn)。
第三款模型是GPT-Realtime-Whisper。
GPT-Realtime-Whisper強(qiáng)調(diào)實(shí)時(shí)流式轉(zhuǎn)寫。它可以在說(shuō)話人講話時(shí)生成字幕、會(huì)議記錄和工作流更新。相比起前兩個(gè)模型,Whisper的商業(yè)門檻最低。它的價(jià)格僅為0.017美元/分鐘。
三款模型放在一起看,OpenAI已經(jīng)把實(shí)時(shí)音頻拆成了三個(gè)明確入口:GPT-Realtime-2處理語(yǔ)音Agent,GPT-Realtime-Translate處理跨語(yǔ)言溝通,GPT-Realtime-Whisper處理實(shí)時(shí)文本化。
三者的價(jià)格、延遲要求和客戶場(chǎng)景都不同,奧特曼想要在差異化路線上“通吃”語(yǔ)音AI市場(chǎng)。
02
TTS市場(chǎng)卷完“聲音質(zhì)量”卷“實(shí)時(shí)”
這次發(fā)布還有一個(gè)很清楚的商業(yè)信號(hào):OpenAI正在把語(yǔ)音AI能力,全面推向API市場(chǎng)和企業(yè)工作流。
除了OpenAI官方提到的Zillow、Priceline和德國(guó)電信三大測(cè)試客戶,更多公司也在把這批語(yǔ)音模型接進(jìn)自己的產(chǎn)品。
比如視頻平臺(tái)Vimeo、企業(yè)知識(shí)管理工具Glean、客服軟件公司Intercom,以及面向企業(yè)語(yǔ)音Agent的BolnaAI,都出現(xiàn)在目前披露的相關(guān)案例中。
換句話說(shuō),GPT-Realtime系列已經(jīng)成為了OpenAI的一個(gè)成熟的商業(yè)化版圖,客戶覆蓋內(nèi)容平臺(tái)、企業(yè)辦公、客服系統(tǒng)和語(yǔ)音Agent創(chuàng)業(yè)公司等多類開發(fā)者。
OpenAI展示的是一組真實(shí)業(yè)務(wù)中的場(chǎng)景:AI在通話中理解需求、調(diào)用系統(tǒng)、翻譯語(yǔ)言,并把語(yǔ)音交互接進(jìn)企業(yè)后臺(tái)。
而這一切,正好發(fā)生在語(yǔ)音AI市場(chǎng)繼續(xù)升溫的周期里。
過去兩年,語(yǔ)音AI賽道最受關(guān)注的公司之一是ElevenLabs。這家公司2022年成立,最早靠高度擬真的AI配音、聲音克隆、多語(yǔ)言配音和內(nèi)容本地化出圈,后來(lái)又把產(chǎn)品往企業(yè)語(yǔ)音Agent延伸。今年2月,ElevenLabs宣布完成5億美元D輪融資,估值達(dá)到110億美元。
這一估值較2025年1月的33億美元大幅上升。公司稱,這筆資金將用于全球擴(kuò)張,并繼續(xù)投入情感化對(duì)話模型、配音、轉(zhuǎn)寫和AI語(yǔ)音Agent等方向。
更近的動(dòng)態(tài)是,ElevenLabs在近期披露,公司年化經(jīng)常性收入已經(jīng)超過5億美元,并公布了更多參與D輪融資的新投資方。
其中既包括貝萊德、惠靈頓管理等大型機(jī)構(gòu),也包括英偉達(dá)、賽富時(shí)創(chuàng)投、德國(guó)電信等產(chǎn)業(yè)方。甚至演員Jamie Foxx、Eva Longoria以及《魷魚游戲》創(chuàng)作者黃東赫等個(gè)人投資者,也出現(xiàn)在這輪投資名單中。
面對(duì)著日益增長(zhǎng)的需求,語(yǔ)音AI已經(jīng)不只是創(chuàng)作者的配音工具。影視、廣告、游戲、教育、企業(yè)培訓(xùn)、無(wú)障礙服務(wù)、內(nèi)容出海和電話Agent,都在消耗更自然、更便宜、更可控的機(jī)器聲音。
Deepgram代表另一種路線。
這家公司長(zhǎng)期做語(yǔ)音識(shí)別基礎(chǔ)設(shè)施,客戶更多來(lái)自聯(lián)絡(luò)中心、會(huì)議、銷售、醫(yī)療、金融等高頻語(yǔ)音場(chǎng)景。近年,Deepgram開始補(bǔ)上文本轉(zhuǎn)語(yǔ)音和語(yǔ)音Agent接口,試圖打通語(yǔ)音模型的辦事場(chǎng)景。
Deepgram披露的信息顯示,旗下Aura-2文本轉(zhuǎn)語(yǔ)音面向?qū)崟r(shí)語(yǔ)音應(yīng)用,流式延遲低于200毫秒,并支持對(duì)地址、電話號(hào)碼、字母數(shù)字組合等結(jié)構(gòu)化內(nèi)容做更自然的朗讀。
它還把語(yǔ)音識(shí)別、語(yǔ)音合成、實(shí)時(shí)情緒分析、話題檢測(cè)和摘要能力,放進(jìn)聯(lián)絡(luò)中心等企業(yè)場(chǎng)景。
Cartesia則主打低延遲和實(shí)時(shí)交互。
這家公司由前斯坦福AI實(shí)驗(yàn)室成員創(chuàng)辦,技術(shù)標(biāo)簽是狀態(tài)空間模型,主打更快、更低成本的實(shí)時(shí)多模態(tài)模型。
它的語(yǔ)音產(chǎn)品Sonic系列,核心賣點(diǎn)是低延遲文本轉(zhuǎn)語(yǔ)音。Cartesia的Sonic 3文檔稱,它是一個(gè)流式文本轉(zhuǎn)語(yǔ)音模型,強(qiáng)調(diào)高自然度、準(zhǔn)確跟隨文本和低延遲;Sonic 3支持42種語(yǔ)言,也支持音量、語(yǔ)速和情緒控制。
在Cartesia官網(wǎng)上,可以看到這家公司把90毫秒低延遲作為實(shí)時(shí)對(duì)話體驗(yàn)的賣點(diǎn)。
這些公司共同推動(dòng)了TTS市場(chǎng)的變化。
早期TTS競(jìng)爭(zhēng)主要看聲音像不像真人。之后,行業(yè)開始比多語(yǔ)言覆蓋、聲音克隆、情緒表達(dá)、版權(quán)授權(quán)和配音效率。
現(xiàn)在,語(yǔ)音Agent把要求抬高了。企業(yè)不只要一個(gè)好聽的聲音,還要完整鏈路:語(yǔ)音識(shí)別要準(zhǔn),首字延遲要低,大模型要能理解上下文,工具調(diào)用要穩(wěn)定,語(yǔ)音合成要自然,翻譯要連續(xù),轉(zhuǎn)寫還要能進(jìn)入后續(xù)工作流。
一些行業(yè)材料也反映了這個(gè)趨勢(shì)。Deepgram在TTS對(duì)比文章中提到,面向語(yǔ)音Agent的文本轉(zhuǎn)語(yǔ)音,已經(jīng)把“首段語(yǔ)音生成低于100毫秒”視為新的基線之一。
在行業(yè)內(nèi)都在競(jìng)相卷“實(shí)時(shí)”的背景下,OpenAI最大的優(yōu)勢(shì)來(lái)自模型棧。
OpenAI可以把整個(gè)企業(yè)調(diào)用TTS的鏈路,放到同一個(gè)開發(fā)者平臺(tái)里。對(duì)開發(fā)者來(lái)說(shuō),少接幾個(gè)供應(yīng)商,就少一些延遲、集成和運(yùn)維成本。對(duì)企業(yè)來(lái)說(shuō),統(tǒng)一平臺(tái)也更容易做權(quán)限管理、日志留存、數(shù)據(jù)策略和安全審查。
不過,OpenAI想要通吃企業(yè)語(yǔ)音市場(chǎng),也沒那么容易。
ElevenLabs已跑到110億美元估值、超過5億美元年化收入;Deepgram今年1月完成1.3億美元融資,估值13億美元,服務(wù)1300多家客戶;Cartesia也在2025年完成6400萬(wàn)美元A輪融資,Sonic模型據(jù)稱已有1萬(wàn)多客戶使用,并以90毫秒模型延遲、42種語(yǔ)言主打?qū)崟r(shí)語(yǔ)音。
OpenAI有模型棧優(yōu)勢(shì),但語(yǔ)音市場(chǎng)并不缺少?gòu)?qiáng)勢(shì)玩家。
![]()
奧特曼對(duì)這次發(fā)布的公開表態(tài)很短。他在X上稱,GPT-Realtime-2進(jìn)入API是“相當(dāng)大的一步前進(jìn)”,同時(shí)OpenAI還在繼續(xù)改進(jìn)ChatGPT里的語(yǔ)音體驗(yàn)。
只是從各大企業(yè)用戶爭(zhēng)相測(cè)試的情況來(lái)看,OpenAI的新一代語(yǔ)音模型,足以讓人期待他在接下來(lái)這一年的市場(chǎng)表現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.