OpenAI發表新的語音AI「GPT-Realtime」零延遲、情感更豐富

2025-09-01

記者鄧天心／綜合報導

OpenAI 8月發表零延遲與還有情感辨識力的「GPT-Realtime」，GPT捨棄過去多層「語音→文字→語音」處理，改用端到端模型直接處理與生成音訊，解決了傳統語音AI「卡頓」、「呆板」的痛點，更大幅縮短回應時間、提升語音表現自然度。

GPT-Realtime最大特點在於「端到端」語音處理，直接將語音輸入即時轉為語音回應，完全捨棄傳統語音→文字→語音的多層流程，減少了延遲，也保留更豐富的語氣、口音和情感細節，有效解決過去語音AI常見的卡頓、呆板回應問題。

延伸閱讀：

在最新基準測試Big Bench Audio中，GPT-Realtime語音理解與轉換準確率達82.8%，比上一代提升約17%，模型還能動態捕捉笑聲、嘆息等非語言信號；在多語言報告、法條逐字朗讀或跨語言切換等企業級應用皆有優異表現。

Realtime API此次同步升級，支援SIP電話、圖像輸入、新增MCP遠端伺服器協作，並推出擬真聲線Cedar與Marin，適用於客服、醫療、教育、房產等，API嵌入與部署僅需數日能完成，大幅降低企業導入門檻。

資費亦比前一代降約20%，音訊輸入每百萬token 32美元、音訊輸出64美元，提升長時間多輪對話的商業可行性，同時支援多語言口譯與跨平台串接，拓展個案應用範圍。

T-Mobile、Zillow等國際大廠已快速導入GPT-Realtime API發展智慧客服與房產諮詢，短時間內打造出能即時辨識情緒、回應複雜指令的AI語音助理，讓客戶享受類似真人的對談體驗。

市場研究數據顯示，未來十年全球語音AI市場年複合成長率將超過30%，2034年有望突破475億美元，這波需求也推升AI伺服器、資料中心基礎設施產業鏈，包括鴻海、廣達等台灣科技廠同步受惠。

與Google Gemini Live等傳統語音AI服務不同，GPT-Realtime以原生「speech-to-speech」技術，大幅提升語音自然度與互動靈活度，專家預期，這將重塑客戶服務、醫療保健、智慧教育、跨國銷售、金融保險等產業的用戶體驗，推動生成式AI回應成未來人機溝通核心。

資料來源：Openai

標籤

2025-09-01

推薦工作