科技浪｜大家都看錯了？解讀 GPT 5.2 真正的強項

2026-02-15

本集節目主要探討 GPT 5.2 模型的實際優勢與未來經濟影響。主持人指出，雖然市場目前較關注 Google，但 GPT 5.2 在全新的「GDP val」基準測試中表現卓越，能以極高效率完成長路徑且複雜的專業職場所需任務。文中透過實測產出銷售簡報（Sales Kit）與財務估值模型（DCF）的經驗，說明 AI 已進入能提供實質生產力的「Vibe Working」階段。此外，內容也預測數位通用人工智慧（Digital AGI）可能在三年內實現，並提及 SpaceX 考慮 IPO 與太空資料中心的發展趨勢。最後，節目也簡介了 Saily eSIM 漫遊服務的便利性與專屬優惠。

本集重點整理：

重點1：GPT-5.2 的市場冷遇與核心強項雖然 GPT-5.2 發表時市場反應冷淡，關注度遠低於過往，主因是媒體風向轉向 Google 以及消費者對模型更新感到疲勞。然而，來源指出 GPT-5.2 真正的亮點不在於傳統的跑分或個性表現，而是在於模型經濟價值的提升。它並非像 Gemini 3 般追求整體模型規模的飛躍，而是透過深度的「後訓練」（post-training），強化解決複雜任務的能力，成為 OpenAI 用於應對競爭壓力並對投資人交代的關鍵產品。

更多科技工作請上科技專區：https://techplus.1111.com.tw/

重點2： GDP-val：衡量 AI 經濟價值的新指標 OpenAI 推出了名為 GDP-val 的全新基準測試，旨在評估 AI 解決職場真實問題的能力。該測試涵蓋美國 GDP 九大產業中的多種職業，包含投行分析師、機械工程師及醫學研究等任務，要求模型交付具體的成品（如 PPT、Excel 財務模型或 CAD 檔），而非單純選擇題。GPT-5.2 在此測試中拿下了 70.9% 的勝率，不僅遠超人類專家的表現，且完成速度快了 11 倍，運算成本更不到人類薪資的 1%。

重點3：知識工作的「Vibe Working」時刻到來 GPT-5.2 展示了卓越的「長時程任務」（long-horizon tasks）處理能力，能獨立執行包含找資料、寫程式與整合結果的多步驟任務。來源將此現象稱為知識工作的「Vibe Working」時刻，意指使用者僅需簡單指令，AI 即可產出完成度達 60% 至 70% 的初稿（如 Sales Kit 或 DCF 估值模型），人類只需在後續進行微調與修正。儘管 AI 仍會犯下如單位換算錯誤等致命傷，但其自主工作、自我修正及遵循指令的能力已展現出巨大的商業價值。

重點4：邁向「數位 AGI」的三年預測 GPT-5.2 的進步標誌著 AI 往「數位 AGI」（Digital AGI）邁進了一大步，即 AI 能完成所有在電腦前透過鍵盤滑鼠操作的認知工作。根據 Google DeepMind 共同創辦人 Shane Legg 的預測，未來三年內出現「最低限度 AGI」的機率高達 50%。這將是一個漸進的過程，從目前的 Vibe Working 模式開始，AI 提供的價值將從 30% 逐步提升至 80% 以上，最終全面改變人類的生產力結構與全球 GDP。