谷歌向開發(fā)者開放 Gemini 3.5 實時翻譯 API

2026-06-10 15:47:20　來源: 侃故事的阿慶

福建舉報

分享至

谷歌于周一發(fā)布了 Gemini 3.5 實時翻譯（Live Translate）——一款支持逾 70 種語言近實時音頻翻譯的語音到語音翻譯模型。該模型無需等待說話者結(jié)束發(fā)言，即可在對話進行時持續(xù)生成譯文語音，并完整保留說話者的語調(diào)、語速和音調(diào)。

此次發(fā)布標(biāo)志著分階段推出計劃的全面落地：該功能于 2025 年 12 月在 Android 端進入測試版，并于 2026 年 3 月擴展至 iOS。Gemini 3.5 實時翻譯現(xiàn)已通過 Gemini Live API 和 Google AI Studio 向開發(fā)者開放公開預(yù)覽。

從耳機到會議室

該模型正在多款谷歌產(chǎn)品中陸續(xù)推出。在消費端，它為 Google 翻譯應(yīng)用（Android 和 iOS 均支持）的實時翻譯功能提供支持，讓任何一副耳機都能實現(xiàn)即時口譯。

面向企業(yè)用戶，谷歌正將基于 Gemini 3.5 實時翻譯技術(shù)的語音翻譯功能引入 Google Meet，目前以私人預(yù)覽版的形式向部分 Workspace 企業(yè)客戶開放。此次更新大幅擴展了 Meet 原有的語音翻譯能力——此前該功能僅支持少數(shù)幾種語言，而現(xiàn)在單次會議即可支持 70 余種語言及逾 2,000 種語言組合。該模型能自動識別參會者所使用的語言，并將其翻譯成每位聽者的偏好語言，全程無需手動調(diào)整任何設(shè)置。

工作原理

谷歌DeepMind的Thor Schaeff和Anuda Weerasinghe在周一發(fā)布的一段視頻中介紹了該模型，解釋稱Gemini 3.5 Live Translate以流式方式處理語音，而非分段處理。該系統(tǒng)能自動檢測語言并過濾背景噪音，同時保持自然流暢的聆聽體驗。

谷歌還重點介紹了與東南亞網(wǎng)約車公司Grab的合作——Grab一直在測試該模型，以改善不同語言用戶之間的溝通。

歷時一年的布局

谷歌早在2025年12月便首次亮相了其基于Gemini的實時語音互譯功能——彼時，該公司在美國、墨西哥和印度推出了安卓平臺的耳機端公測版本。谷歌當(dāng)時表示，將于2026年將該功能擴展至iOS系統(tǒng)及更多國家，并同步開放更廣泛的API訪問權(quán)限。今年3月，iOS版本如期上線；而本周一發(fā)布的公告則兌現(xiàn)了剩余承諾，正式推出完整的開發(fā)者API訪問支持，并實現(xiàn)了與Google Meet的集成。

Meet功能向更多Workspace用戶的大規(guī)模推廣預(yù)計將于今年晚些時候展開。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.