網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI有嘴了！OpenAI連發(fā)三語(yǔ)音模型

2026-05-08 12:09:42　來(lái)源: 字母榜

北京舉報(bào)

分享至

昨天凌晨，OpenAI發(fā)布了三款音頻模型：GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

OpenAI官網(wǎng)的表述是，新模型可以讓開發(fā)者構(gòu)建能在用戶說(shuō)話時(shí)“推理、翻譯和轉(zhuǎn)寫”的實(shí)時(shí)語(yǔ)音產(chǎn)品。三款模型已經(jīng)開放給開發(fā)者測(cè)試。

這次更新的重點(diǎn)在于三款模型不同場(chǎng)景分工。

GPT-Realtime-2面向?qū)崟r(shí)語(yǔ)音Agent場(chǎng)景，它是OpenAI首個(gè)具備“GPT-5級(jí)推理”的語(yǔ)音模型，可以處理復(fù)雜請(qǐng)求，調(diào)用工具，處理中途打斷，并在更長(zhǎng)語(yǔ)音會(huì)話中維持上下文。

GPT-Realtime-Translate面向?qū)崟r(shí)語(yǔ)音翻譯場(chǎng)景，支持70多種輸入語(yǔ)言到13種輸出語(yǔ)言。

GPT-Realtime-Whisper面向?qū)崟r(shí)語(yǔ)音轉(zhuǎn)寫，可以在人說(shuō)話時(shí)生成文本，用于字幕、會(huì)議記錄和工作流更新。

價(jià)格也同步公布。GPT-Realtime-2按token計(jì)費(fèi)，音頻輸入起價(jià)為32美元/百萬(wàn)token，音頻輸出為64美元/百萬(wàn)token；GPT-Realtime-Translate按分鐘計(jì)費(fèi)，價(jià)格為0.034美元/分鐘；GPT-Realtime-Whisper同樣按分鐘計(jì)費(fèi)，價(jià)格為0.017美元/分鐘。

相關(guān)報(bào)道顯示，一些企業(yè)用戶包括Zillow、Priceline和德國(guó)電信在內(nèi)的知名廠商已經(jīng)在測(cè)試這些模型。

這是OpenAI過去一年語(yǔ)音路線的一次延伸。

2024年，OpenAI先把ChatGPT高級(jí)語(yǔ)音模式背后的低延遲語(yǔ)音能力開放給開發(fā)者；2025年8月，OpenAI推出首個(gè)正式版Gpt-Realtime，開始面向生產(chǎn)級(jí)語(yǔ)音Agent。

今年2月，Gpt-Realtime-1.5成為上一代主力模型，用于語(yǔ)音Agent和客服場(chǎng)景。再到今天的2.0版本的三大模型矩陣，這更像Realtime產(chǎn)品線從體驗(yàn)功能走向企業(yè)API的一次版本升級(jí)。

從對(duì)話走向執(zhí)行

先來(lái)看GPT-Realtime-2，按照OpenAI官方的說(shuō)法，這是第一款具備“GPT-5級(jí)推理”的語(yǔ)音模型。這個(gè)模型被設(shè)計(jì)用于處理復(fù)雜請(qǐng)求、調(diào)用工具、處理中斷，并在更長(zhǎng)的語(yǔ)音會(huì)話里保持上下文。

這些能力對(duì)應(yīng)的是語(yǔ)音Agent落地時(shí)最常見的問題。

GPT-Realtime-2把上下文窗口從32K提升到128K。這個(gè)參數(shù)對(duì)長(zhǎng)會(huì)話場(chǎng)景有直接意義。比如一個(gè)用戶想要針對(duì)某套房產(chǎn)做咨詢、或者想要改簽機(jī)票，這些場(chǎng)景都可能包含大量條件和多輪確認(rèn)。

上下文窗口擴(kuò)大后，模型可以在更長(zhǎng)的實(shí)時(shí)對(duì)話里保留前面出現(xiàn)過的限制、偏好和業(yè)務(wù)信息。

工具調(diào)用也是這次更新里的關(guān)鍵詞。RealtimeAPI可以用于構(gòu)建會(huì)調(diào)用工具的語(yǔ)音體驗(yàn)。應(yīng)用可以保持實(shí)時(shí)會(huì)話連接，連續(xù)發(fā)送音頻，接收模型事件，更新會(huì)話狀態(tài)，并把外部系統(tǒng)返回的結(jié)果再交給模型繼續(xù)回應(yīng)。

美國(guó)房地產(chǎn)信息查詢網(wǎng)站Zillow，成為了OpenAI官方的首批企業(yè)案例。

OpenAI在官網(wǎng)中提到，Zillow正在用GPT-Realtime-2構(gòu)建可以理解住房條件并安排看房的語(yǔ)音助手。Zillow方面表示，在最困難的對(duì)抗性測(cè)試中，經(jīng)過prompt優(yōu)化后，電話任務(wù)成功率從69%提升到95%，F(xiàn)airHousing相關(guān)合規(guī)表現(xiàn)也更穩(wěn)定。

Fair Housing指美國(guó)住房交易中的反歧視合規(guī)要求，房產(chǎn)平臺(tái)不能在買賣、租賃、貸款或經(jīng)紀(jì)服務(wù)中，基于種族、宗教、性別、殘障、家庭狀況、國(guó)籍等因素區(qū)別對(duì)待用戶。

從“能說(shuō)”到“會(huì)說(shuō)”，這可能是GPT-Realtime-2給予行業(yè)的最大震撼。

Booking子公司、知名旅行優(yōu)惠平臺(tái)Priceline，則代表另一類語(yǔ)音模型的落地場(chǎng)景。

據(jù)了解，Priceline也在測(cè)試GPT-Realtime-2系列。旅游預(yù)訂的鏈條很長(zhǎng)，用戶可能要查航班、訂酒店、調(diào)整日期、處理延誤、比較價(jià)格，還可能在境外需要翻譯。語(yǔ)音Agent如果能穩(wěn)定接入后臺(tái)系統(tǒng)，就有機(jī)會(huì)把“問答”推進(jìn)到“辦事”。

OpenAI提到的另一個(gè)已知客戶是德國(guó)電信。電信行業(yè)有大規(guī)模坐席、復(fù)雜套餐、故障處理、多語(yǔ)言服務(wù)和賬單解釋，也是語(yǔ)音模型落地的天然場(chǎng)景。

GPT-Realtime-2還有一個(gè)細(xì)節(jié)是可調(diào)推理強(qiáng)度。

OpenAI開發(fā)者文檔提到，GPT-Realtime-2把推理能力帶入語(yǔ)音到語(yǔ)音工作流。多數(shù)生產(chǎn)場(chǎng)景可以先使用較低的推理強(qiáng)度，優(yōu)先保證通話里的響應(yīng)速度；遇到更復(fù)雜的客服、預(yù)訂、排障任務(wù)，再提高推理強(qiáng)度，用更多計(jì)算換取更完整的判斷。

這個(gè)細(xì)節(jié)很重要。語(yǔ)音交互比文字聊天更怕停頓。用戶在電話里等待一兩秒，會(huì)明顯感到卡頓。推理越強(qiáng)，延遲壓力越大。在性能和響應(yīng)的平衡上，不同的開發(fā)者在這個(gè)問題上會(huì)有一定取舍。。

官方也給出了一些測(cè)試數(shù)據(jù)。OpenAI稱，GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%，在Audio MultiChallenge上高13.8%。這兩個(gè)指標(biāo)用于衡量模型在音頻輸入、多輪語(yǔ)音、復(fù)雜指令和上下文整合方面的能力。

第二款模型是GPT-Realtime-Translate。

按OpenAI面向開發(fā)者的示例說(shuō)明，GPT-Realtime-Translate主打?qū)崟r(shí)語(yǔ)音到語(yǔ)音翻譯，適合廣播、直播、電話和視頻對(duì)話。它會(huì)自動(dòng)識(shí)別輸入語(yǔ)言，并輸出翻譯后的語(yǔ)音和文本。開發(fā)者只需要設(shè)定目標(biāo)語(yǔ)言。

這個(gè)模型支持70多種輸入語(yǔ)言到13種輸出語(yǔ)言。OpenAI稱，它可以在說(shuō)話人講話時(shí)跟上節(jié)奏。開發(fā)者文檔還提到，傳統(tǒng)語(yǔ)音翻譯常常要求說(shuō)話人停頓，系統(tǒng)等一句話結(jié)束后再翻譯；而GPT-Realtime-Translate更接近連續(xù)口譯的形態(tài)。

OpenAI把它的場(chǎng)景分成兩類。

一類是廣播式翻譯，比如直播、網(wǎng)絡(luò)研討會(huì)、講座、財(cái)報(bào)電話會(huì)和大型會(huì)議演講。另一類是對(duì)話式翻譯，比如呼叫中心、視頻通話和電話工作流。這兩個(gè)類別基本覆蓋了企業(yè)最愿意付費(fèi)的跨語(yǔ)言場(chǎng)景：客服、教育、國(guó)際會(huì)議、內(nèi)容平臺(tái)、跨境銷售和企業(yè)培訓(xùn)。

第三款模型是GPT-Realtime-Whisper。

GPT-Realtime-Whisper強(qiáng)調(diào)實(shí)時(shí)流式轉(zhuǎn)寫。它可以在說(shuō)話人講話時(shí)生成字幕、會(huì)議記錄和工作流更新。相比起前兩個(gè)模型，Whisper的商業(yè)門檻最低。它的價(jià)格僅為0.017美元/分鐘。

三款模型放在一起看，OpenAI已經(jīng)把實(shí)時(shí)音頻拆成了三個(gè)明確入口：GPT-Realtime-2處理語(yǔ)音Agent，GPT-Realtime-Translate處理跨語(yǔ)言溝通，GPT-Realtime-Whisper處理實(shí)時(shí)文本化。

三者的價(jià)格、延遲要求和客戶場(chǎng)景都不同，奧特曼想要在差異化路線上“通吃”語(yǔ)音AI市場(chǎng)。

TTS市場(chǎng)卷完“聲音質(zhì)量”卷“實(shí)時(shí)”

這次發(fā)布還有一個(gè)很清楚的商業(yè)信號(hào)：OpenAI正在把語(yǔ)音AI能力，全面推向API市場(chǎng)和企業(yè)工作流。

除了OpenAI官方提到的Zillow、Priceline和德國(guó)電信三大測(cè)試客戶，更多公司也在把這批語(yǔ)音模型接進(jìn)自己的產(chǎn)品。

比如視頻平臺(tái)Vimeo、企業(yè)知識(shí)管理工具Glean、客服軟件公司Intercom，以及面向企業(yè)語(yǔ)音Agent的BolnaAI，都出現(xiàn)在目前披露的相關(guān)案例中。

換句話說(shuō)，GPT-Realtime系列已經(jīng)成為了OpenAI的一個(gè)成熟的商業(yè)化版圖，客戶覆蓋內(nèi)容平臺(tái)、企業(yè)辦公、客服系統(tǒng)和語(yǔ)音Agent創(chuàng)業(yè)公司等多類開發(fā)者。

OpenAI展示的是一組真實(shí)業(yè)務(wù)中的場(chǎng)景：AI在通話中理解需求、調(diào)用系統(tǒng)、翻譯語(yǔ)言，并把語(yǔ)音交互接進(jìn)企業(yè)后臺(tái)。

而這一切，正好發(fā)生在語(yǔ)音AI市場(chǎng)繼續(xù)升溫的周期里。

過去兩年，語(yǔ)音AI賽道最受關(guān)注的公司之一是ElevenLabs。這家公司2022年成立，最早靠高度擬真的AI配音、聲音克隆、多語(yǔ)言配音和內(nèi)容本地化出圈，后來(lái)又把產(chǎn)品往企業(yè)語(yǔ)音Agent延伸。今年2月，ElevenLabs宣布完成5億美元D輪融資，估值達(dá)到110億美元。

這一估值較2025年1月的33億美元大幅上升。公司稱，這筆資金將用于全球擴(kuò)張，并繼續(xù)投入情感化對(duì)話模型、配音、轉(zhuǎn)寫和AI語(yǔ)音Agent等方向。

更近的動(dòng)態(tài)是，ElevenLabs在近期披露，公司年化經(jīng)常性收入已經(jīng)超過5億美元，并公布了更多參與D輪融資的新投資方。

其中既包括貝萊德、惠靈頓管理等大型機(jī)構(gòu)，也包括英偉達(dá)、賽富時(shí)創(chuàng)投、德國(guó)電信等產(chǎn)業(yè)方。甚至演員Jamie Foxx、Eva Longoria以及《魷魚游戲》創(chuàng)作者黃東赫等個(gè)人投資者，也出現(xiàn)在這輪投資名單中。

面對(duì)著日益增長(zhǎng)的需求，語(yǔ)音AI已經(jīng)不只是創(chuàng)作者的配音工具。影視、廣告、游戲、教育、企業(yè)培訓(xùn)、無(wú)障礙服務(wù)、內(nèi)容出海和電話Agent，都在消耗更自然、更便宜、更可控的機(jī)器聲音。

Deepgram代表另一種路線。

這家公司長(zhǎng)期做語(yǔ)音識(shí)別基礎(chǔ)設(shè)施，客戶更多來(lái)自聯(lián)絡(luò)中心、會(huì)議、銷售、醫(yī)療、金融等高頻語(yǔ)音場(chǎng)景。近年，Deepgram開始補(bǔ)上文本轉(zhuǎn)語(yǔ)音和語(yǔ)音Agent接口，試圖打通語(yǔ)音模型的辦事場(chǎng)景。

Deepgram披露的信息顯示，旗下Aura-2文本轉(zhuǎn)語(yǔ)音面向?qū)崟r(shí)語(yǔ)音應(yīng)用，流式延遲低于200毫秒，并支持對(duì)地址、電話號(hào)碼、字母數(shù)字組合等結(jié)構(gòu)化內(nèi)容做更自然的朗讀。

它還把語(yǔ)音識(shí)別、語(yǔ)音合成、實(shí)時(shí)情緒分析、話題檢測(cè)和摘要能力，放進(jìn)聯(lián)絡(luò)中心等企業(yè)場(chǎng)景。

Cartesia則主打低延遲和實(shí)時(shí)交互。

這家公司由前斯坦福AI實(shí)驗(yàn)室成員創(chuàng)辦，技術(shù)標(biāo)簽是狀態(tài)空間模型，主打更快、更低成本的實(shí)時(shí)多模態(tài)模型。

它的語(yǔ)音產(chǎn)品Sonic系列，核心賣點(diǎn)是低延遲文本轉(zhuǎn)語(yǔ)音。Cartesia的Sonic 3文檔稱，它是一個(gè)流式文本轉(zhuǎn)語(yǔ)音模型，強(qiáng)調(diào)高自然度、準(zhǔn)確跟隨文本和低延遲；Sonic 3支持42種語(yǔ)言，也支持音量、語(yǔ)速和情緒控制。

在Cartesia官網(wǎng)上，可以看到這家公司把90毫秒低延遲作為實(shí)時(shí)對(duì)話體驗(yàn)的賣點(diǎn)。

這些公司共同推動(dòng)了TTS市場(chǎng)的變化。

早期TTS競(jìng)爭(zhēng)主要看聲音像不像真人。之后，行業(yè)開始比多語(yǔ)言覆蓋、聲音克隆、情緒表達(dá)、版權(quán)授權(quán)和配音效率。

現(xiàn)在，語(yǔ)音Agent把要求抬高了。企業(yè)不只要一個(gè)好聽的聲音，還要完整鏈路：語(yǔ)音識(shí)別要準(zhǔn)，首字延遲要低，大模型要能理解上下文，工具調(diào)用要穩(wěn)定，語(yǔ)音合成要自然，翻譯要連續(xù)，轉(zhuǎn)寫還要能進(jìn)入后續(xù)工作流。

一些行業(yè)材料也反映了這個(gè)趨勢(shì)。Deepgram在TTS對(duì)比文章中提到，面向語(yǔ)音Agent的文本轉(zhuǎn)語(yǔ)音，已經(jīng)把“首段語(yǔ)音生成低于100毫秒”視為新的基線之一。

在行業(yè)內(nèi)都在競(jìng)相卷“實(shí)時(shí)”的背景下，OpenAI最大的優(yōu)勢(shì)來(lái)自模型棧。

OpenAI可以把整個(gè)企業(yè)調(diào)用TTS的鏈路，放到同一個(gè)開發(fā)者平臺(tái)里。對(duì)開發(fā)者來(lái)說(shuō)，少接幾個(gè)供應(yīng)商，就少一些延遲、集成和運(yùn)維成本。對(duì)企業(yè)來(lái)說(shuō)，統(tǒng)一平臺(tái)也更容易做權(quán)限管理、日志留存、數(shù)據(jù)策略和安全審查。

不過，OpenAI想要通吃企業(yè)語(yǔ)音市場(chǎng)，也沒那么容易。

ElevenLabs已跑到110億美元估值、超過5億美元年化收入；Deepgram今年1月完成1.3億美元融資，估值13億美元，服務(wù)1300多家客戶；Cartesia也在2025年完成6400萬(wàn)美元A輪融資，Sonic模型據(jù)稱已有1萬(wàn)多客戶使用，并以90毫秒模型延遲、42種語(yǔ)言主打?qū)崟r(shí)語(yǔ)音。

OpenAI有模型棧優(yōu)勢(shì)，但語(yǔ)音市場(chǎng)并不缺少?gòu)?qiáng)勢(shì)玩家。

奧特曼對(duì)這次發(fā)布的公開表態(tài)很短。他在X上稱，GPT-Realtime-2進(jìn)入API是“相當(dāng)大的一步前進(jìn)”，同時(shí)OpenAI還在繼續(xù)改進(jìn)ChatGPT里的語(yǔ)音體驗(yàn)。

只是從各大企業(yè)用戶爭(zhēng)相測(cè)試的情況來(lái)看，OpenAI的新一代語(yǔ)音模型，足以讓人期待他在接下來(lái)這一年的市場(chǎng)表現(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.