語音互動新紀元!OpenAI發表3款即時語音模型 可推理並翻譯70國語言

記者彭夢竺/編譯

OpenAI正式推出3款全新即時語音模型,為開發者「解鎖新一代語音應用程式」,這系列模型各具特色,分別針對邏輯推理、語言翻譯及即時逐字稿功能進行優化,大幅提升AI與人類對話的自然度與實用性。

OpenAI推出3款全新即時語音模型,針對邏輯推理、語言翻譯及即時逐字稿功能進行優化。(圖/AI生成)
OpenAI推出3款全新即時語音模型,針對邏輯推理、語言翻譯及即時逐字稿功能進行優化。(圖/AI生成)

GPT-5等級 GPT-Realtime-2對話更像真人

在這次發表中,最受矚目的莫過於具備GPT-5等級推理能力的「GPT-Realtime-2」,這是OpenAI首款專為現場語音互動設計的推理模型,包含以下3大特色。

  • 處理複雜請求:能一邊對話一邊針對困難問題進行邏輯推理。
  • 自然流暢互動:支援即時修正或中斷對話,並能根據當下情境做出合適回應。
  • 調用工具能力:在對話過程中能主動調用外部工具完成任務。

翻譯與逐字稿進化 支援70種語言即時轉換

除了強大的推理模型,OpenAI同步推出了2款專精於特定任務的模型。

GPT-Realtime-Translate專為現場翻譯設計,支援超過70種輸入語言並可轉譯為13種輸出語言,且能精準跟上講者的語速。

GPT-Realtime-Whisper是一款低延遲的串流語音轉文字模型,高響應速度適用於即時字幕生成或會議記錄,讓使用者在對話當下即可看到精準的文字輸出。

更多科技工作請上科技專區:https://techplus.1111.com.tw/
科技社群討論區:https://pei.com.tw/feed/c/tech-plus

計費方式公開!Realtime API全面整合

這3款模型現已整合至OpenAI的Realtime API中,並採行不同的計費標準。

  • GPT-Realtime-2:每100萬音訊輸入Token收費32美元(快取輸入為0.40美元),輸出則為每100萬Token收費64美元。
  • GPT-Realtime-Translate:採計時收費,每分鐘0.034美元。
  • GPT-Realtime-Whisper:每分鐘收費0.017美元。

語音應用將迎來爆發式成長

目前開發者已可透過OpenAI的Playground測試這些模型,若有安裝Codex的使用者更可直接將GPT-Realtime-2整合至現有的應用程式中。隨著語音技術從單純的指令接收轉向深度推理與跨語言即時溝通,未來的語音助理、客服系統與遠端翻譯工具預計將展現出前所未有的強大效能。

資料來源:9to5mac

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button