其實ChatGPT誕生是個意外 OpenAI精心布局多年的野心是「它」
記者彭夢竺/編譯
OpenAI如何透過ChatGPT其首個推理模型,引發了矽谷對通用型AI助理的狂熱?OpenAI的下一步發展是什麼?外媒《Techcrunch》近日做了詳盡的報導。
從數學難題到通用型 AI 助理的起點
2022年,研究員Hunter Lightman加入OpenAI,當時他的同事們正忙著推出ChatGPT這款史上成長最快的產品之一。但Lightman卻在一個名為MathGen的小組裡,默默地教導AI模型如何解決高中數學競賽的難題。
如今,MathGen被視為OpenAI在AI推理模型領域取得領先地位的關鍵。這項核心技術,正是讓AI助理能像人類一樣在電腦上執行各種任務的基礎。Lightman回憶道:「我們當時努力讓模型在數學推理上表現更好,因為它們那時候真的很糟。」
儘管OpenAI最新的AI模型偶爾仍會出錯或產生「幻覺」,但它們在數學推理能力上已大幅進步。OpenAI的一個模型甚至在國際數學奧林匹亞競賽中奪得金牌,這項競賽專為全球最聰明的高中生而設。OpenAI相信,這些推理能力將能擴展到其他領域,最終實現他們夢想中的通用型 AI 助理。
從意外爆紅到精心佈局的 AI 助理之路
其實,ChatGPT的誕生是個意外,它原本只是個低調的研究預覽,卻意外成為病毒式傳播的消費性產品。然而,OpenAI打造AI助理的歷程卻是經過多年深思熟慮的成果。
OpenAI執行長Sam Altman在2023年的首屆開發者大會上曾說:「未來,你只需要告訴電腦你的需求,它就能為你完成所有任務。這些能力在AI領域常被稱為Agent(代理人)。這將帶來巨大的好處。」
雖然AI助理能否實現Altman的願景仍是未知數,但在2024年秋天,OpenAI發表了其首個AI推理模型o1,震驚了全世界。不到一年後,這21位主導突破性研究的研究員,已成為矽谷最炙手可熱的人才。
其中,Meta執行長Mark Zuckerberg便成功挖角了5位o1研究員,提供部分高達上億美元的薪酬方案。其中一位Shengjia Zhao,更被任命為Meta超級智慧實驗室(Meta Superintelligence Labs)的首席科學家。
強化學習的文藝復興 AI 突破的關鍵
OpenAI推理模型與AI助理的崛起,與一種名為強化學習(Reinforcement Learning, RL) 的機器學習技術息息相關。RL會在模擬環境中,根據AI模型的選擇是否正確來給予反饋。
RL技術其實已存在數10年。例如,早在2016年,Google DeepMind團隊就曾利用RL打造出 AlphaGo,擊敗了世界圍棋冠軍,引起全球關注。
然而,直到2023年,OpenAI才取得了重大突破,他們將 大型語言模型(LLM)、強化學習(RL) 和一種名為「測試時間運算(test-time computation)」的技術結合在一起。後者能給予模型額外的時間與運算力,讓它在提供答案前先進行規劃、檢視步驟並驗證。
這催生了OpenAI的新方法「思維鏈(chain-of-thought, CoT)」,顯著提升了AI在處理未曾見過的數學題時的表現。研究員El Kishky說:「我能看到模型開始推理了。它會發現錯誤並回溯,甚至會『感到沮喪』。這感覺真的像是在閱讀一個人的思緒。」
雖然這些技術並非全新,但OpenAI獨特的組合方式,創造出了o1的前身Strawberry。OpenAI很快發現,這種AI推理模型的規劃與事實核查能力,正是打造AI助理所需的關鍵。
擴展推理能力 投入資源與搶佔先機
透過AI推理模型,OpenAI發現有2個新的方向能提升AI模型:一是在後續訓練中投入更多運算資源,二是給予模型更多時間與運算力來回答問題。
Lightman說:「OpenAI 是一家非常著重『未來如何擴展』的公司。」
在2023年的Strawberry突破後,OpenAI成立了一個由研究員Daniel Selsam領導的「Agent」團隊,專注於這個新興領域的發展。這個團隊的工作最終融入了o1推理模型的開發,由共同創辦人Ilya Sutskever、首席研究長Mark Chen和首席科學家Jakub Pachocki等人主導。
為了開發o1,OpenAI必須投入寶貴的資源,尤其是人才和GPU。在OpenAI的歷史上,研究員們必須透過展示突破性成果,才能爭取到資源。「OpenAI的核心文化之一,是研究都是由下而上推動的。」Lightman 說:「當我們展示出o1的潛力時,公司就決定投入資源。」
一些前員工認為,OpenAI專注於開發通用人工智慧(AGI) 的使命,是其能在AI推理模型上取得突破的關鍵。由於公司將重點放在打造最聰明的AI 模型,而非單純的產品,因此o1得以被列為首要任務。這種對新想法的大規模投資,在其他競爭對手公司並不常見。
AI 的「推理」 一個全新的定義
在許多方面,AI 研究的目標是利用電腦重現人類智慧。自o1問世後,ChatGPT的使用者介面中,也充滿了「正在思考」和「正在推理」等更具人性化的提示。
當被問及OpenAI的模型是否真的具備推理能力時,El Kishky謹慎地說,他更傾向從電腦科學的角度來思考這個概念。「我們正在教導模型如何有效地運用運算資源來獲得答案。如果你從這個角度定義,那它確實是在推理。」
Lightman則傾向於關注模型的結果,而非其與人類大腦的關聯性。「如果模型正在處理困難的任務,那它就是在進行某種必要的『推理』。我們可以稱之為推理,因為它看起來像是在進行推理,但這一切都只是為了打造出真正強大、對許多人都有用的 AI 工具。」
OpenAI的研究員們承認,大眾對於「推理」的定義可能會有不同意見,但他們認為,模型的實際能力比命名爭議來得更重要。其他AI研究員也同意這點。非營利組織AI2的研究員Nathan Lambert將AI推理模型比作飛機。他認為,兩者都是受到自然啟發的人造系統(一個是人類推理,一個是鳥類飛行),但它們運作的機制完全不同。這並不影響它們的有用性,也不影響它們達成類似目標的能力。
AI助理的下一個挑戰:處理主觀任務
目前市面上的AI助理在處理定義明確、結果可驗證的任務(如程式碼編寫)時表現最佳。OpenAI的Codex助理目的在幫助軟體工程師處理簡單的編碼工作。然而,OpenAI的ChatGPT Agent等通用型AI助理,在處理人們想要自動化的複雜、主觀任務時,卻仍面臨挑戰。例如,在網路購物或尋找停車位時,這些助理往往耗時過久且容易出錯。
Lightman認為,這是一個「資料問題」。他說:「我現在很感興趣的研究,就是如何訓練模型去處理這些難以驗證的任務。我們已經有一些方向了。」
另一位o1的研究員Noam Brown表示,OpenAI已經開發出新的通用型強化學習技術,能教導 AI 模型一些不容易驗證的技能。他們成功打造出在國際數學奧林匹亞競賽中獲得金牌的模型,正是運用了這項技術。
OpenAI的IMO模型是一種新型的AI系統,它能衍生出多個助理,同時探索多種解法,然後選出最佳答案。這種技術正變得越來越流行,Google和xAI近期發表的模型也使用了類似方法。
Brown說:「我認為這些模型在數學和其它推理領域會變得更強大。進展速度一直非常快,我不覺得它會減慢。」
這些技術可能將在OpenAI即將推出的GPT-5模型中帶來顯著的效能提升。OpenAI希望透過GPT-5再次鞏固其領先地位,為開發者與消費者提供最強大的AI模型,來驅動他們的AI助理。
但公司的目標不僅於此。OpenAI希望能打造出直觀理解使用者需求的AI助理,無需使用者手動調整設定。El Kishky說,他們希望AI系統能自動判斷何時需要調用工具,以及需要花多長時間進行推理。
這幅願景描繪了一個終極版的ChatGPT:一個能在網路上為你處理一切事務,並理解你期望如何完成任務的AI助理。這與我們今天所知的ChatGPT截然不同,但OpenAI的研究方向正朝此邁進。
幾年前,OpenAI無疑是AI產業的領頭羊,但如今它面臨著許多強勁的競爭對手。現在的問題不僅僅是OpenAI能否實現其AI助理的未來,而是它能否在Google、Anthropic、xAI或Meta搶先一步之前,率先達成目標。
資料來源:Techcrunch