PTT創世神杜奕瑾談DeepSeek發展史!和GPT-4o同血緣的它有哪些貢獻?

記者孫敬/綜合報導

就在今年農曆年期間,令國際一眾科技巨頭如輝達、台積電到市場投資人們為之震驚的深度求索(DeepSeek)掀起了全球AI風爆,一度在華爾街投下震撼彈,導致1月27日輝達(NVIDIA)股價狂瀉16.97%,市值蒸發5890億美元,台積電ADR(美國存託憑證)更是重挫13%。

DeepSeek標榜只花了2個月時間建置;成本不到600萬美元的中文大型語言模型(LLM),27日還躍升美國蘋果App Store下載次數最多的免費APP,引發市場對美國AI領域領導地位的質疑。

回顧這段AI產業的發展歷史,台灣人工智慧實驗室創辦人杜奕瑾以輕鬆的口吻談到,DeepSeek華麗的出場背後,其實有著非常完整的「大外宣」規畫,輝達、Meta到微軟都成了他發送假消息的工具,不難想像現在被多國禁止使用的DeepSeek,血液中藏著中國北京政府「超英趕美」的民族基因。

延伸閱讀:美眾院查出DeepSeek擁6萬晶片 輝達澄清:相關產品運往美國和臺灣

台灣人工智慧實驗室創辦人杜奕瑾。(圖/孫敬拍攝)

DeepSeek尚未被許多人發現的真相:誕生於GPT-4o

談到GPT-4o專有名詞你可能一頭霧水,但前陣子社群瘋狂洗版的「吉卜力風(宮崎駿創作風格)」圖片便是出於該模型之手。標榜推理模型的DeepSeek,基礎架構主要來自蒸餾OpenAI的GPT-4o模型,「這是個透過開源社群不斷堆疊出來的技術成果,藉由DeepSeek的包裝,讓開源社群成為DeepSeek的成果。」杜奕瑾一針見血的點出DeepSeek骨子裡,含有GPT-4o程式碼的「類抄襲」的真相。

雖然跟GPT-4o師出同門,但兩者間的功力還是有很大的落差。經實測,杜奕瑾發現DeepSeek較擅長從GPT-4o中蒸餾出來的內容,「這就像是去參加同一場考試,身為學霸GPT-4o做了某一份考題,而DeepSeek則跟著學霸做一樣的題目,一樣可以拿滿分,但跳脫那份卷子,它就回答不好了。」以開放原始碼為宣傳的DeepSeek,杜奕瑾坦言只能說開源一半,因為DeepSeek只有開放權重,而沒有將最重要的訓練資料、訓練程式公開,「這中間是否有加料,又或者有該國的文化促使模型有偏見,就不得而知了。」

DeepSeek對產業的價值推手:Meta Llama跟通義千問

雖然作為分身的DeepSeek存在著如資安、資料來源的爭議,但無法否認它對產業的貢獻。「全球有很多基於通義千問誕生的開源應用,這讓企業能擁有自己的專業地小模型。」杜奕瑾分析,DeepSeek旋風出世,雖未直接改變全球的AI供應鏈生態發展,不過大幅降低訓練AI模型的優勢,也讓Meta Llama跟通義千問能學習DeepSeek,進而開發企業專業用AI模型。

利用小型語言模型低成本優勢替產業貢獻,也呼應了台灣人工智慧實驗室的「聯邦式GPT」理念,杜奕瑾笑稱,聯邦式GPT基於開源模型訓練成果,融合繁體中文語料,已協助台灣醫療、金融、影視產業建立自己專屬的AI模型。「協助台灣產業定義他們的考題,讓它在每個領域做到第一名。」杜奕瑾贊同了DeepSeek的理念,它加速並簡化了AI模型建立前期,大量資料整理的需求,台灣人工智慧實驗室未來也將持續推行聯邦式GPT概念,布局台灣AI產業生態系。

瀏覽 3,183 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button