OpenAI發表新的語音AI「GPT-Realtime」 零延遲、情感更豐富

記者鄧天心/綜合報導

OpenAI 8月發表零延遲與還有情感辨識力的「GPT-Realtime」,GPT捨棄過去多層「語音→文字→語音」處理,改用端到端模型直接處理與生成音訊,解決了傳統語音AI「卡頓」、「呆板」的痛點,更大幅縮短回應時間、提升語音表現自然度。

GPT-Realtime最大特點在於「端到端」語音處理,直接將語音輸入即時轉為語音回應,完全捨棄傳統語音→文字→語音的多層流程,減少了延遲,也保留更豐富的語氣、口音和情感細節,有效解決過去語音AI常見的卡頓、呆板回應問題。

1756707210809
OpenAI 8月發表零延遲與還有情感辨識力的「GPT-Realtime」。(圖/OpenAI)

延伸閱讀:

《時代》AI百大名單揭曉 13名華人黃仁勳、魏哲家都上榜

在最新基準測試Big Bench Audio中,GPT-Realtime語音理解與轉換準確率達82.8%,比上一代提升約17%,模型還能動態捕捉笑聲、嘆息等非語言信號;在多語言報告、法條逐字朗讀或跨語言切換等企業級應用皆有優異表現。

Realtime API此次同步升級,支援SIP電話、圖像輸入、新增MCP遠端伺服器協作,並推出擬真聲線Cedar與Marin,適用於客服、醫療、教育、房產等,API嵌入與部署僅需數日能完成,大幅降低企業導入門檻。

資費亦比前一代降約20%,音訊輸入每百萬token 32美元、音訊輸出64美元,提升長時間多輪對話的商業可行性,同時支援多語言口譯與跨平台串接,拓展個案應用範圍。

T-Mobile、Zillow等國際大廠已快速導入GPT-Realtime API發展智慧客服與房產諮詢,短時間內打造出能即時辨識情緒、回應複雜指令的AI語音助理,讓客戶享受類似真人的對談體驗。

市場研究數據顯示,未來十年全球語音AI市場年複合成長率將超過30%,2034年有望突破475億美元,這波需求也推升AI伺服器、資料中心基礎設施產業鏈,包括鴻海、廣達等台灣科技廠同步受惠。

與Google Gemini Live等傳統語音AI服務不同,GPT-Realtime以原生「speech-to-speech」技術,大幅提升語音自然度與互動靈活度,專家預期,這將重塑客戶服務、醫療保健、智慧教育、跨國銷售、金融保險等產業的用戶體驗,推動生成式AI回應成未來人機溝通核心。

資料來源:Openai

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button