Google發表超像真人的語音AI模型 可以說耳語、激動歡呼!
記者鄧天心/綜合報導
Google於昨日(2026年4月15日)正式發表新一代文字轉語音(Text-to-Speech)模型,Gemini 3.1 Flash TTS,全新的「音訊標籤(Audio Tags)」技術,AI語音將不再生硬,根據對話情境調整語氣,不論是激動的歡呼還是低聲細語,都能展現如同真人般的聲音起伏,讓機器人的聲音聽起來更有溫度與表現力。

首創音訊標籤技術 語氣、重音與節奏由你定義
Gemini 3.1 Flash TTS最大的亮點在於引入了直覺的音訊標籤功能,過去,調整AI語音的表現力往往需要繁瑣的參數設定,現在開發者只需在文字輸入中嵌入自然語言指令(如:<whisper>、<shout>或<excited>),即可精準控制語音的風格、語速與語氣。
此外,該模型還支援場景導向(Scene Direction)功能。這意味著開發者可以為AI設定背景脈絡,例如讓AI扮演一名正在忙碌咖啡廳中點餐的店員,或是正在耳語交談的神秘角色,讓AI角色在多輪對話中能始終保持人設的一致性與反應的自然度。
更多科技工作請上科技專區:https://techplus.1111.com.tw/
科技社群討論區:https://pei.com.tw/feed/c/tech-plus
支援超過70種語言與SynthID浮水印
為了滿足全球市場需求,Gemini 3.1 Flash TTS首波即支援超過70種語言,並提供30種預設的高品質基礎聲音供選擇,不論是專業的旁白導讀,還是日常的對話交流,該模型都能根據不同語言的重音與文化特性,產出極具自然感的音訊。
安全性方面,Google也同步導入了SynthID音訊浮水印技術。所有由Gemini 3.1 Flash TTS生成的音訊都會嵌入不可見的浮水印,這有助於在數位環境中辨識AI生成內容,避免語音偽造或誤導性內容的傳播。
低延遲、高效能 加速AI語音代理人的應用普及
作為Gemini 3.1系列的一員,Flash TTS模型特別針對高產量的應用場景進行了優化。根據Google發布的技術指標,該模型具備極高的反應速度,特別適合用於即時客服代理(Customer Service Agents)、AI導師以及沉浸式遊戲對話。
目前,Gemini 3.1 Flash TTS已在Google AI Studio與Vertex AI開放預覽,並同步整合進Google Workspace的最新應用軟體中。
延伸閱讀:
資料來源:google blog
![]()
