開源AI定義爭議如何界定AI的自由與透明？

2024-06-24

編譯／黃竣凱

基於在人工智慧（AI）中，尚無一致認定的「開源」的定義，AI是否開源仍存在許多爭議。儘管《紐約時報》高度評價Meta執行長馬克·祖克柏（Mark Zuckerberg）擁抱「開源AI」使其在矽谷重新受歡迎，但大多數評估認為，Meta Llama大型語言模型並不真正符合開源的標準，突顯了爭論的核心問題。

開源AI的定義之爭

據報導，將傳統的軟體授權和命名規則應用於AI領域存在許多問題。專家Joseph Jacks就指出，「開源AI」這個概念並不存在，因為「開源」是專門為軟體原始碼發明的，而「神經網路權重」（neural network weights）並不能與軟體相提並論。為此，Jacks與其同事Heather Meeker則提出了「開放權重」的概念，認為雖然一開始對於是否應該稱其為開源AI存在爭議，但由於這個術語已被廣泛使用，因此繼續沿用。

更多新聞：Llama 3後勢看好和GPT-4 比較結果令人驚喜

Meta的參與

儘管Meta因為聲稱其Llama模型是開源的，但事實上，Llama 3在發布時，Meta使用了「公開可用」和「公開訪問」等術語，而非「開源」。

模型再現性

在軟體中，原始碼和二進制代碼是同一程式的不同表現形式，但是在AI中，訓練數據集和隨後的訓練模型是不同的，因為訓練過程中涉及多種統計和隨機因素，即使是使用相同的數據集和代碼，也未必能再現完全相同的模型，使AI模型的再現性不像軟體一樣容易實現。

數據的開放性

此外，數據的開放性也是一個主要挑戰。開源AI系統應允許使用者自由使用、研究、修改和分享系統，但是否能將一個AI系統定義為開源，取決於公司是否公開其訓練數據集，並涉及幾個層面的問題：

數據來源透明度：了解數據的來源及其處理方式比單純擁有數據更重要，包括標記、重複數據刪除和過濾數據的方法。
數據共享的實際困難：許多數據集包含機密或受版權保護的資訊，開發者可能無法分享這些數據。此外，訓練機器學習模型的某些技術也不需要實際分享數據。

技術透明度和可操作性

最後，為確保其他人能夠理解和再現模型，開源AI也需要提供詳細的訓練方法和參數，並要比傳統開源軟體更高的透明度和技術細節的公開。

開源AI的定義和檢查清單

目前，開放原始碼促進會（OSI）正在制定開源AI的定義，包含三個核心部分：前言、開源AI定義本身和一個檢查清單，要求AI模型開發的具體組成，在適當的開源許可下公開，包括訓練方法和模型參數的細節，但仍有許多問題需要解決。

參考資料：Tech Crunch

瀏覽 836 次

標籤

2024-06-24

開源AI定義爭議如何界定AI的自由與透明？

開源AI的定義之爭

Meta的參與

模型再現性

數據的開放性

技術透明度和可操作性

開源AI的定義和檢查清單

推薦工作

發佈留言取消回覆

小島秀夫恐怖遊戲新作《OD》恐打破慶生彩蛋傳統經典面臨挑戰

中國半導體產業緊追台灣積極擴大廠房產能為關鍵

應對科技業連年缺工葉元之：應強化AI跨域整合教育政策

摩根大通、Visa、Mastercard爭相投入穩定幣以驚人速度邁入主流

索尼本田電動車Afeela上市前燒錢虧損倍增至3.62億美元

最新科技新聞快訊不錯過!!

最新科技新聞快訊不錯過!!

開源AI的定義之爭

Meta的參與

模型再現性

數據的開放性

技術透明度和可操作性

開源AI的定義和檢查清單

推薦工作

延伸閱讀

中國半導體產業緊追台灣 積極擴大廠房產能為關鍵

應對科技業連年缺工 葉元之：應強化AI跨域整合教育政策

摩根大通、Visa、Mastercard爭相投入 穩定幣以驚人速度邁入主流

Meta成立超級實驗室挖角11位AI大神 迎戰OpenAI、Google

全球穩定幣巨頭Circle申請國家銀行執照 有望大幅提升市場信任度

日半導體商Rapidus新2奈米晶片拚量產 季辛格：需有差異化技術才能追上台積電

發佈留言 取消回覆

中國半導體產業緊追台灣積極擴大廠房產能為關鍵

應對科技業連年缺工葉元之：應強化AI跨域整合教育政策

摩根大通、Visa、Mastercard爭相投入穩定幣以驚人速度邁入主流

Meta成立超級實驗室挖角11位AI大神迎戰OpenAI、Google

全球穩定幣巨頭Circle申請國家銀行執照有望大幅提升市場信任度

日半導體商Rapidus新2奈米晶片拚量產季辛格：需有差異化技術才能追上台積電

發佈留言取消回覆