![]()
谷歌于周一發(fā)布了 Gemini 3.5 實時翻譯(Live Translate)——一款支持逾 70 種語言近實時音頻翻譯的語音到語音翻譯模型。該模型無需等待說話者結(jié)束發(fā)言,即可在對話進行時持續(xù)生成譯文語音,并完整保留說話者的語調(diào)、語速和音調(diào)。
此次發(fā)布標(biāo)志著分階段推出計劃的全面落地:該功能于 2025 年 12 月在 Android 端進入測試版,并于 2026 年 3 月擴展至 iOS。Gemini 3.5 實時翻譯現(xiàn)已通過 Gemini Live API 和 Google AI Studio 向開發(fā)者開放公開預(yù)覽。
從耳機到會議室
該模型正在多款谷歌產(chǎn)品中陸續(xù)推出。在消費端,它為 Google 翻譯應(yīng)用(Android 和 iOS 均支持)的實時翻譯功能提供支持,讓任何一副耳機都能實現(xiàn)即時口譯。
面向企業(yè)用戶,谷歌正將基于 Gemini 3.5 實時翻譯技術(shù)的語音翻譯功能引入 Google Meet,目前以私人預(yù)覽版的形式向部分 Workspace 企業(yè)客戶開放。此次更新大幅擴展了 Meet 原有的語音翻譯能力——此前該功能僅支持少數(shù)幾種語言,而現(xiàn)在單次會議即可支持 70 余種語言及逾 2,000 種語言組合。該模型能自動識別參會者所使用的語言,并將其翻譯成每位聽者的偏好語言,全程無需手動調(diào)整任何設(shè)置。
工作原理
谷歌DeepMind的Thor Schaeff和Anuda Weerasinghe在周一發(fā)布的一段視頻中介紹了該模型,解釋稱Gemini 3.5 Live Translate以流式方式處理語音,而非分段處理。該系統(tǒng)能自動檢測語言并過濾背景噪音,同時保持自然流暢的聆聽體驗。
谷歌還重點介紹了與東南亞網(wǎng)約車公司Grab的合作——Grab一直在測試該模型,以改善不同語言用戶之間的溝通。
歷時一年的布局
谷歌早在2025年12月便首次亮相了其基于Gemini的實時語音互譯功能——彼時,該公司在美國、墨西哥和印度推出了安卓平臺的耳機端公測版本。谷歌當(dāng)時表示,將于2026年將該功能擴展至iOS系統(tǒng)及更多國家,并同步開放更廣泛的API訪問權(quán)限。今年3月,iOS版本如期上線;而本周一發(fā)布的公告則兌現(xiàn)了剩余承諾,正式推出完整的開發(fā)者API訪問支持,并實現(xiàn)了與Google Meet的集成。
Meet功能向更多Workspace用戶的大規(guī)模推廣預(yù)計將于今年晚些時候展開。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.