蘋果最新研究:讓LLM檢查自己的工作 「核對清單」大幅提升效能
記者彭夢竺/編譯
蘋果研究人員在一項最新的共同研究中發現,透過一個簡單的生產力技巧,讓開源大型語言模型(LLM)檢查自己的工作,能夠顯著提升其效能。以下整理這項研究的詳細內容。
LLM 訓練的現狀
根據外媒《9to5mac》報導,在LLM完成初始訓練後,其品質通常會透過一種名為「人類回饋強化學習(RLHF)」的後續步驟進一步優化。在RLHF過程中,每當模型產生一個回答,人工標註者會給予「讚」或「倒讚」來獎勵或懲罰它。隨著時間推移,模型會學習哪些回答能獲得最多「讚」,進而提升其整體實用性。
這個後續訓練階段與一個更廣泛的領域—「對齊(Alignment)」—有關。對齊目的在探索如何使LLM的行為既有用又安全。一個「未對齊」的模型可能會學會產出表面上看似正確,但實際上並未真正解決問題的答案,以騙取人類給予「讚」。
當然,在模型的事前訓練、訓練與後續訓練階段,有許多方法可以提高其可靠性和對齊程度。但在這項研究中,我們將重點放在RLHF上。
延伸閱讀:蘋果Siri 15年前的承諾雖遲但到?傳明年iOS 26.4迎來LLM驅動的AI大革新
蘋果的研究發現
這項名為《核對清單比獎勵模型更能對齊語言模型》的研究中,蘋果提出了一種基於核對清單的強化學習方案,名為「核對清單回饋強化學習(RLCF)」。
RLCF會根據回答滿足核對清單中每項要求的情況,給予0至100的分數。初步結果相當有前景。研究人員解釋道:「我們將RLCF與其他對齊方法進行比較,並將其應用在一個強大的指令遵循模型(Qwen2.5-7B-Instruct)上,在5個廣泛研究的基準測試中,RLCF是唯一能在每個測試中都提升效能的方法。包括在FollowBench上,困難滿足率提升4%;在InFoBench上,效能提升6%;在Arena-Hard上,勝率提升3%。這些結果確立了核對清單回饋是改善語言模型應對多重需求查詢的關鍵工具。」
最後這點對於未來將成為數百萬用戶與裝置互動的標準底層介面的AI助理來說,尤其引人注目。
研究人員再次強調:「語言模型必須遵循用戶指令才有用。隨著大眾將基於語言模型的助理整合到日常任務中,人們期望語言模型能忠實地滿足用戶請求。當用戶對模型完成複雜請求的能力更有信心時,這些模型將會被給予需要仔細注意規範的、豐富的多步驟指令。」
如何產生「核對清單」?
這項研究另一個特別有趣的部分是,每個核對清單如何產生,以及如何為每個項目分配重要權重。
這當然也是借助LLM來完成。根據先前的研究,蘋果的研究人員產生了「13萬個指令的核對清單(…),以創建一個新的資料集WildChecklists。為了生成我們方法的候選回答,我們使用了Qwen2.5-0.5B、Qwen2.5-1.5B、Qwen2.5-3B和Qwen2.5-7B。而Qwen2.5-72B-Instruct則是核對清單生成模型。」
簡而言之,研究人員會自動為用戶的每個指令補充一個簡短的、具體的「是/否」要求核對清單(例如:「這個是否已翻譯成西班牙文?」)。然後,一個更大的「老師模型」會根據核對清單中的每個項目來評分候選回答,這些加權分數就成為用於微調「學生模型」的獎勵訊號。
研究結果與侷限性
透過正確的系統為每個提示創建最佳核對清單,研究人員在其中一項基準測試中看到了高達8.2%的提升。不僅如此,與其他替代方法相比,這項解決方案在其他幾項基準測試中也處於領先地位。
研究人員指出,他們的研究重點是「複雜指令遵循」,RLCF可能不是其他用途的最佳強化學習技術。他們也提到,他們的方法使用了一個更強大的模型作為評審來調整較小的模型,這也是一個重要的侷限。或許最重要的是,他們清楚地表示:「RLCF能提升複雜指令的遵循能力,但其設計並非用於安全對齊。」
儘管如此,這項研究仍提供了一種有趣且簡單的新方法來提高可靠性,而這很可能會成為未來人類與基於LLM的助理之間互動中最重要的面向之一。
考慮到這些助理將越來越具備代理能力,屆時指令遵循(和對齊)將會是關鍵,這項發現的重要性因此更為突顯。
資料來源:9to5mac