科技浪|大家都看錯了?解讀 GPT 5.2 真正的強項

本集節目主要探討 GPT 5.2 模型的實際優勢與未來經濟影響。主持人指出,雖然市場目前較關注 Google,但 GPT 5.2 在全新的「GDP val」基準測試中表現卓越,能以極高效率完成長路徑且複雜的專業職場所需任務。文中透過實測產出 銷售簡報(Sales Kit)與財務估值模型(DCF) 的經驗,說明 AI 已進入能提供實質生產力的「Vibe Working」階段。此外,內容也預測 數位通用人工智慧(Digital AGI) 可能在三年內實現,並提及 SpaceX 考慮 IPO 與太空資料中心 的發展趨勢。最後,節目也簡介了 Saily eSIM 漫遊服務 的便利性與專屬優惠。

本集重點整理:

重點1:GPT-5.2 的市場冷遇與核心強項 雖然 GPT-5.2 發表時市場反應冷淡,關注度遠低於過往,主因是媒體風向轉向 Google 以及消費者對模型更新感到疲勞。然而,來源指出 GPT-5.2 真正的亮點不在於傳統的跑分或個性表現,而是在於模型經濟價值的提升。它並非像 Gemini 3 般追求整體模型規模的飛躍,而是透過深度的「後訓練」(post-training),強化解決複雜任務的能力,成為 OpenAI 用於應對競爭壓力並對投資人交代的關鍵產品。

更多科技工作請上科技專區:https://techplus.1111.com.tw/

重點2: GDP-val:衡量 AI 經濟價值的新指標 OpenAI 推出了名為 GDP-val 的全新基準測試,旨在評估 AI 解決職場真實問題的能力。該測試涵蓋美國 GDP 九大產業中的多種職業,包含投行分析師、機械工程師及醫學研究等任務,要求模型交付具體的成品(如 PPT、Excel 財務模型或 CAD 檔),而非單純選擇題。GPT-5.2 在此測試中拿下了 70.9% 的勝率,不僅遠超人類專家的表現,且完成速度快了 11 倍,運算成本更不到人類薪資的 1%。

重點3:知識工作的「Vibe Working」時刻到來 GPT-5.2 展示了卓越的「長時程任務」(long-horizon tasks)處理能力,能獨立執行包含找資料、寫程式與整合結果的多步驟任務。來源將此現象稱為知識工作的 「Vibe Working」時刻,意指使用者僅需簡單指令,AI 即可產出完成度達 60% 至 70% 的初稿(如 Sales Kit 或 DCF 估值模型),人類只需在後續進行微調與修正。儘管 AI 仍會犯下如單位換算錯誤等致命傷,但其自主工作、自我修正及遵循指令的能力已展現出巨大的商業價值。

重點4:邁向「數位 AGI」的三年預測 GPT-5.2 的進步標誌著 AI 往「數位 AGI」(Digital AGI)邁進了一大步,即 AI 能完成所有在電腦前透過鍵盤滑鼠操作的認知工作。根據 Google DeepMind 共同創辦人 Shane Legg 的預測,未來三年內出現「最低限度 AGI」的機率高達 50%。這將是一個漸進的過程,從目前的 Vibe Working 模式開始,AI 提供的價值將從 30% 逐步提升至 80% 以上,最終全面改變人類的生產力結構與全球 GDP。

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button