只為訓練AI 傳OpenAI轉錄百萬小時YT影片

2024-04-08

編譯／黃竣凱

隨著訓練人工智慧（AI ）的資料耗盡，即使知道有道德和版權問題，AI巨頭OpenAI仍正在使用YouTube影片訓練AI，這引發了爭議。據悉，為訓練其最先進的大型語言模型 GPT-4，該公司透過 Whisper 音頻轉錄模型，轉錄了超過 100 萬小時的 YouTube 影片。

YouTube 1 — 外傳OpenAI轉錄百萬小時YT影片，用於訓練AI。示意圖。圖/123RF

資料耗盡

《紐約時報》指出，OpenAI在 2021 年耗盡了有用的數據供應，並在耗盡其他資源後討論了轉錄 YouTube 影片、Podcast和有聲讀物的策略。 OpenAI 發言人 Lindsay Held 在回應詢問時強調，該公司正在努力為其模型打造「獨特」的資料集，這些資料集來自各種來源，包括公開資料和合作夥伴關係。此外，該公司也正在探索產生合成數據。

更多新聞：撫平擔憂 OpenAI嘗試解決「聲音引擎」造假問題

法律問題

雖然該公司知道這可能在法律上有問題，但該公司仍本著「合理使用」的信念繼續推進，而OpenAI 總裁 Greg Brockman 也親自參與了影片收集的過程。YouTube 執行長 Neal Mohan則表示，他不知道 OpenAI 是否正在使用 YouTube 內容，訓練影片產生器Sora，但他說，如果該公司真的使用 YouTube 內容，那將「明顯違反」該平台的服務條款。

Google的回應

雖然YouTube 的所有者Google，也正在使用一些 YouTube 影片來訓練自己的AI平台 Gemini，但前提是平台上的個人創作者在合約中同意才可以。Google表示，「我們的robots.txt 文件和服務條款，禁止未經授權的抓取或下載YouTube 內容，當有明確的法律或技術依據時，我們將會針對OpenAI採取技術和法律措施，防止此類未經授權的使用。」

訓練資料難題

隨著AI產業的爆炸性成長，關於科技公司使用哪些內容來訓練AI模型的爭論越來越激烈，許多藝術家和創作者都認為，未經他們的許可，這些公司不得使用他們的受版權保護的作品。除了Google、OpenAI外，因劍橋分析醜聞受到限制的Meta 也正在面臨AI訓練資料可用性的限制，而無法自由的使用消費者資料，據報導，該公司正在採取一些措施，包括支付圖書許可費用及直接收購一家大型出版商等。

參考資料：Th e Verge、Insider

標籤

2024-04-08

只為訓練AI 傳OpenAI轉錄百萬小時YT影片

資料耗盡

法律問題

Google的回應

訓練資料難題

推薦工作

發佈留言取消回覆

茶、莓果、橄欖油都上榜！研究揭多酚助腦部「健康老化」

頂規規格震撼登場！SONY Cinema Line FX5 預購開跑

AI時代統計系大變身！加入「資料科學」培養跨域人才文理組生都能念

黃仁勳再造AI傳奇！輝達結盟NAVER擴建韓國主權算力

興大破解植物細胞外囊泡抗老關鍵有助修復肌膚、提升細胞能量

最新科技新聞快訊不錯過!!

資料耗盡

法律問題

Google的回應

訓練資料難題

推薦工作

延伸閱讀

茶、莓果、橄欖油都上榜！研究揭多酚助腦部「健康老化」

黃仁勳再造AI傳奇！輝達結盟NAVER擴建韓國主權算力

磐儀科技攜手統一資訊 智慧工廠成功導入WMS智慧倉儲解決方案

Google搜尋大洗牌 AI摘要出現率「一年飆升至43%」

臺日優勢互補！工研院攜手三井不動產、KSCM 強化半導體供應鏈韌性

工研院攜手三井不動產、熊本科學園區 拓展半導體供應鏈與應用市場商機

發佈留言 取消回覆

磐儀科技攜手統一資訊智慧工廠成功導入WMS智慧倉儲解決方案

工研院攜手三井不動產、熊本科學園區拓展半導體供應鏈與應用市場商機

發佈留言取消回覆