Google發表超像真人的語音AI模型可以說耳語、激動歡呼！

2026-04-16

記者鄧天心／綜合報導

Google於昨日（2026年4月15日）正式發表新一代文字轉語音（Text-to-Speech）模型，Gemini 3.1 Flash TTS，全新的「音訊標籤（Audio Tags）」技術，AI語音將不再生硬，根據對話情境調整語氣，不論是激動的歡呼還是低聲細語，都能展現如同真人般的聲音起伏，讓機器人的聲音聽起來更有溫度與表現力。

Google Gemini 3.1 Flash TTS 登場。（圖／Gemini官方部落格）

首創音訊標籤技術語氣、重音與節奏由你定義

Gemini 3.1 Flash TTS最大的亮點在於引入了直覺的音訊標籤功能，過去，調整AI語音的表現力往往需要繁瑣的參數設定，現在開發者只需在文字輸入中嵌入自然語言指令（如：<whisper>、<shout>或<excited>），即可精準控制語音的風格、語速與語氣。

此外，該模型還支援場景導向（Scene Direction）功能。這意味著開發者可以為AI設定背景脈絡，例如讓AI扮演一名正在忙碌咖啡廳中點餐的店員，或是正在耳語交談的神秘角色，讓AI角色在多輪對話中能始終保持人設的一致性與反應的自然度。

更多科技工作請上科技專區：https://techplus.1111.com.tw/

科技社群討論區：https://pei.com.tw/feed/c/tech-plus

支援超過70種語言與SynthID浮水印

為了滿足全球市場需求，Gemini 3.1 Flash TTS首波即支援超過70種語言，並提供30種預設的高品質基礎聲音供選擇，不論是專業的旁白導讀，還是日常的對話交流，該模型都能根據不同語言的重音與文化特性，產出極具自然感的音訊。

安全性方面，Google也同步導入了SynthID音訊浮水印技術。所有由Gemini 3.1 Flash TTS生成的音訊都會嵌入不可見的浮水印，這有助於在數位環境中辨識AI生成內容，避免語音偽造或誤導性內容的傳播。

低延遲、高效能加速AI語音代理人的應用普及

作為Gemini 3.1系列的一員，Flash TTS模型特別針對高產量的應用場景進行了優化。根據Google發布的技術指標，該模型具備極高的反應速度，特別適合用於即時客服代理（Customer Service Agents）、AI導師以及沉浸式遊戲對話。

目前，Gemini 3.1 Flash TTS已在Google AI Studio與Vertex AI開放預覽，並同步整合進Google Workspace的最新應用軟體中。

Google發表超像真人的語音AI模型可以說耳語、激動歡呼！

首創音訊標籤技術語氣、重音與節奏由你定義

支援超過70種語言與SynthID浮水印

低延遲、高效能加速AI語音代理人的應用普及

推薦工作

發佈留言取消回覆

體驗刺激黑市交易！《監獄商店模擬器》究竟該討好囚犯還是巴結獄警

哥布林女僕來了！合作清潔遊戲《Goblin Cleanup》2027 年登陸家機及 Switch 2

「新應材」再度投資臺灣！砸45億元擴大產能3類人才就業機會增

中興大學14組生技團隊進軍亞洲生技大展 AI醫療、抗癌新藥成亮點

AI科技結合鏡片升級！依視路發表2026系列新品打造全新視覺體驗

最新科技新聞快訊不錯過!!

首創音訊標籤技術 語氣、重音與節奏由你定義

支援超過70種語言與SynthID浮水印

低延遲、高效能 加速AI語音代理人的應用普及

推薦工作

延伸閱讀

「新應材」再度投資臺灣！砸45億元擴大產能3類人才就業機會增

AI科技結合鏡片升級！依視路發表2026系列新品 打造全新視覺體驗

2028年全球半導體設備銷售額預估達2295億美元新高 設備市場可望連續5年成長

聊天機器人成治療新助手！AI打造全天候心理支持 仍難取代真人

增肌不必狂吃！間歇性斷食「同樣長肌肉」還減少脂肪增加

輝達聯手日政府與 Noetra 打造首座「物理 AI」國家級工廠 再造產業革命

發佈留言 取消回覆

首創音訊標籤技術語氣、重音與節奏由你定義

低延遲、高效能加速AI語音代理人的應用普及

AI科技結合鏡片升級！依視路發表2026系列新品打造全新視覺體驗

2028年全球半導體設備銷售額預估達2295億美元新高設備市場可望連續5年成長

聊天機器人成治療新助手！AI打造全天候心理支持仍難取代真人

輝達聯手日政府與 Noetra 打造首座「物理 AI」國家級工廠再造產業革命

發佈留言取消回覆