大模型鬧「數據飢荒」的因應之道｜漫談【主筆室】

2024-04-15

科技島主筆／蔡哲明

美國紐約時報本月發布一篇調查報導，直指 OpenAI收集了超過100萬小時的YouTube視頻，將其音頻轉錄成文本，提供GPT-4進行訓練，若無自產數據做為因應，未來恐將供不應求。

AI業者急需大量數據訓練模型，為了成本考量遊走灰色地帶，根據YouTube服務條款，並不允許使用者於YouTube平臺之外使用內容，大模型鬧「數據飢荒」的背後，凸顯的是浮濫使用。

OpenAI對於語言模型訓練的素材需求大增，先從網路上的文字內容著手，再用語音轉文字工具「Whisper」轉錄YouTube影片訓練GPT-4，若連影片平台都已出現使用飽和，恐怕AI業者必須思考如何自給自足。

AI業者必須思考如何自產數據，才能避免訓練使用入不敷出。根據研究機構Epoch AI調查顯示，可用於訓練的優質文本，可能會在2026年全數耗盡。內容原創者一旦停工，這批AI內容使用者又該何去何從？

OpenAI正與其他公司探索一種「數據生成模式」，透過兩個不同大模型的搭配進行，一個負責生產數據，一個來做數據檢查，相互驗證彼此品質。此法不僅可以因應「數據燃料」的使用速度，也將成為自產數據的內功心法。　　

大模型鬧「數據飢荒」在於供不應求，目前正值浮濫使用，AI若不自給自足，內容原創一旦罷工，恐讓訓練數據就此斷炊。

瀏覽 3,260 次

標籤

2024-04-15

推薦工作