蘋果重拾「標準流」技術 老技術將重新生成AI圖像新戰局?
記者孟圓琦/編譯
在擴散模型與自迴歸模型主導生成式AI圖像領域的今日,蘋果近期發布的兩篇研究論文,為 AI 圖像生成技術開闢了一條新路徑。蘋果研究團隊重新挖掘並改進了一項曾被邊緣化的技術——「標準流(Normalizing Flows, NFs)」,並在結合Transformer架構後,展現出前所未有的潛力,預示著未來 AI 圖像生成可能會有更高效、更個人化的發展。

標準流:被遺忘的技術重獲新生
標準流(NFs) 是一種透過學習如何將真實世界數據(例如圖像)轉換為結構化噪點,再反向操作以生成新樣本的 AI 模型。其核心優勢在於能精確計算所生成圖像的機率,這是目前主流擴散模型無法比擬的特性,使其在需要理解結果機率的應用中更具吸引力。儘管早期的標準流模型在圖像細節和多樣性方面表現不佳,但蘋果的最新研究有望徹底改變這一現狀。
延伸閱讀:
蘋果傳洽談收購AI新星Perplexity 挑戰史上最大併購案
蘋果AirPods系列迎重大更新!AirPods Pro 3有望今年秋季亮相
蘋果Vision Pro帶你體驗《F1》飆速!感受與布萊德彼特同步賽車
TarFlow:Transformer 賦能標準流
在題為《Normalizing Flows are Capable Generative Models》的論文中,蘋果推出了名為 TarFlow(Transformer AutoRegressive Flow) 的新模型。TarFlow 的關鍵創新在於,它以 Transformer 區塊取代了以往標準流模型中需手工設計的層。這種設計讓模型能將圖像分割成小塊,並以自迴歸的方式依序生成,每個區塊都基於其前面的所有區塊進行預測。
與 OpenAI 等公司將圖像視為離散「tokens」(類似文字符號)的做法不同,蘋果的TarFlow直接生成像素值,無需預先將圖像標記化。儘管這差異看似微小,卻能有效避免因圖像壓縮成固定詞彙表而導致的品質損失和僵硬感,從而提升生成圖像的細膩度和真實性。然而,TarFlow 在處理高解析度大型圖像時仍面臨擴展性的挑戰。
STARFlow:為高解析度圖像合成而生
為了解決TarFlow的限制,蘋果在第二篇論文《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》中,基於TarFlow進一步發展出 STARFlow(Scalable Transformer AutoRegressive Flow)。
STARFlow的最大改進,是它不再直接在像素空間中生成圖像,而是轉向在「潛在空間」進行操作。這意味著模型先處理圖像的壓縮版本,再由解碼器將其放大至完整解析度。這種方法讓 STARFlow 能更專注於掌握圖像的整體結構,而將精細紋理細節的生成交由解碼器完成,大幅提高了處理高解析度圖像的效率。
此外,蘋果也優化了模型處理文字提示的方式。STARFlow能直接整合現有的語言模型(如 Google 的小型語言模型 Gemma,理論上具備在裝置端運行的能力),來理解用戶的文字指令,使圖像生成模型能更專注於視覺細節的優化。
蘋果與 OpenAI 的 AI 圖像生成策略差異
儘管蘋果與 OpenAI 都正在探索超越傳統擴散模型,但兩者的策略方向截然不同。OpenAI 的 GPT-4o 模型將圖像視為一系列離散的「tokens」,可在單一統一的 token 流中同時生成文本、圖像和音頻,展現出極大的靈活性。然而,逐 token 生成的特性可能導致處理大尺寸或高解析度圖像時速度較慢,且運算成本高昂。由於 GPT-4o 完全依賴雲端運行,因此較不受延遲或功耗的限制。
相對地,蘋果的研究方向更傾向於裝置端(on-device)的高效能運算。STARFlow 的設計理念,特別是其處理潛在空間圖像和整合輕量級語言模型的能力,明確指出蘋果正致力於讓其 AI 圖像生成技術能在用戶的行動裝置上順暢運行,而非僅限於雲端數據中心。
資料來源:9to5mac
瀏覽 106 次