【7/4線上】PyTorch深度學習CNN與Transformer影像辨識與生成模型 – 工研院產業學院(台北)

訓練日期：2026-07-04
上課地點：線上課程
上課費用：線上洽詢

課程介紹：

1.熟悉Python此程式語言以及PyTorch此深度學習框架
2.協助具影像處理專長之學員切入電腦視覺/深度學習領域
3.學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
4.未來可銜接各類進階深度學習課程

課程內容：

PyTorch深度學習CNN與Transformer影像辨識與生成模型實作

■ 課程介紹

深度學習在過去十年徹底革新了電腦視覺領域。這一切的起點可以追溯到卷積神經網絡 (CNN) 的崛起，透過獨特的卷積核設計，層層堆疊，從邊緣、紋理到複雜的物件結構，構建出強大的視覺表示能力。從開創性的 AlexNet 誕生標誌著 CNN 時代的開啟，隨後 ResNet 等架構的提出更解決了深層網絡訓練的難題，將CNN 推向頂峰。

然而，隨著 Transformer 架構挾其強大的全局關聯捕捉能力 (Attention Mechanism) 開始引起視覺研究者的關注。Vision Transformer (ViT) 的誕生，證明了 Transformer 能直接處理圖像序列，並在多項任務中超越傳統 CNN，正式開啟了視覺領域從 CNN 到 Transformer 的典範轉移新篇章。

本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中，模型架構正經歷著從 CNN 到 Transformer 的深刻變革。在圖片分類任務中，Transformer 透過捕捉全局上下文信息，進一步提升了分類的準確性；在語意分割和物件偵測等需要精細定位的任務中，Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係，從而實現更精確的分割與偵測結果。生成模型領域，從早期的 GANs 到如今爆紅的 Stable Diffusion 等 Diffusion Models，Transformer 的引入使得生成高品質、高解析度的圖像成為可能，並帶來了強大的可控性。

應用案例將分享將針對自動駕駛這個高度整合多種感測技術的應用場景中，Transformer 更展現出處理多模態數據（如相機、雷達）和時序信息的巨大潛力，為更安全、更智慧的自動駕駛系統奠定了基礎。本課程將帶領您深入理解這些技術背後的原理，掌握如何應用這些先進模型解決實際問題，為進入高階 AI 應用領域奠定堅實基礎。

■ 課程大綱

課程大綱	內容
CNN與Transformer於圖片分類人臉辨識/瑕疵檢測之原理與實作	Alexnet VGG Googlenet ResNet Vision Transformer(ViT)
語義分割模型簡介	從FCN到DeepLabv3+，基於Transformer更為強大的SETR 可透過文字/UI介面實現的語義分割模型Segment Anything Model (SAM)
物件偵測模型簡介	基於CNN的2D物件偵測模型YOLOv1-v13, 3D物件偵測模型FCOS-3d Transformer-based的2D物件偵測模型DETR, Anchor DTR, RT-DETR以及3D物件偵測模型DETR-3D
GAN生成模型簡介	影像生成GAN，DCGAN, StyleGAN, BigGAN, VQ-GAN 影像轉換GAN，Pix2pix與CycleGAN; 超解析度模型:SRGAN 去模糊模型: DeblurGAN; 結合Transformer的GAN模型：VQ-GAN 基於Transformer與GAN的人臉模糊影像還原模型：CodeFormer。
Diffusion生成模型	影像生成DDPM, DDIM 與 Classifier-free guidance 影像轉換：Palette, Latent Diffusion Model 影像編輯：InstructPix2Pix; Stable Diffusion 及其微調：Controlnet, Dreambooth, LORA, Textual Inversion
自駕車的影像辨識模型	多攝影機之鳥瞰物件語意分割模型：SimpleBEV 多攝影機之3D物件偵測模型:DETR3D 基於Transformer，更為先進的3D物件偵測模型 PETR 多攝影機之車道線偵測模型：Lift, Splat, Shoot 骨幹網路共享之多任務模型：物件偵測+語意分割

師資介紹：

林哲聰 講師

學歷:

台灣大學應用力學研究所碩士/清華大學資訊工程研究所博士

現職:

瑞典自駕車軟體開發公司Zenseact(Volvo Cars)深度學習工程師

經歷:

馬來西亞偉特科技公司(ViTrox)研發顧問

馬來西亞10 EPOCH科技公司研發顧問

工研院機械所副研究員/研究員/資深研究員

加州大學聖塔芭芭拉分校資工系訪問研究員

上奇資訊-計算機概論共同譯者

2010 伽利略創新大賽台灣區季軍

2011 伽利略創新大賽特別獎(GNSS Living Lab)得主

2013 伽利略創新大賽瑞士區冠軍

2016 日本立命館大學英文演講比賽清華大學代表

2017 CVGIP 行人偵測競賽亞軍

2017 MOST 生成式對抗網路競賽佳作

2018第八屆兩岸清華研究生學術論壇清華大學代表

2019 IEEE ICIP Three Minute Thesis Competition (3MT®): Finalist

2020 AI智慧應用新世代人才培育計畫-人才解題實證(倒車攝影機影像識別-障礙物與逼近偵測)：佳作

2020 中華民國影像處理與圖形識別學會第十三屆博碩士論文獎博士論文佳作

專長:

Computer Vision, Image Processing, Pattern Recognition, Machine Learning, Deep Learning, GPS , Embedded System, iPhone Programming

已於車用影像安全警示系統領域中發表過二十五篇國際論文，十五篇國內論文，以及十三篇專利。

備註：
詳細內容及報名需知，請點選報名後見協會網站內容

1111人力銀行攜手1111進修網、中華人事主管協會及科技島,為您呈獻最優質的科技培訓平台。我們精選課程涵蓋程式設計、資安、AI、通訊、電子等熱門領域,助您掌握尖端技能。無論您是初學者還是資深工程師,都能在此找到理想的進階之路。立即探索,開啟您的技術躍升之旅!

標籤

【7/4線上】PyTorch深度學習CNN與Transformer影像辨識與生成模型 – 工研院產業學院(台北)

課程介紹：

課程內容：

師資介紹：

推薦工作

發佈留言取消回覆

體驗刺激黑市交易！《監獄商店模擬器》究竟該討好囚犯還是巴結獄警

哥布林女僕來了！合作清潔遊戲《Goblin Cleanup》2027 年登陸家機及 Switch 2

「新應材」再度投資臺灣！砸45億元擴大產能3類人才就業機會增

中興大學14組生技團隊進軍亞洲生技大展 AI醫療、抗癌新藥成亮點

AI科技結合鏡片升級！依視路發表2026系列新品打造全新視覺體驗

最新科技新聞快訊不錯過!!

課程介紹：

課程內容：

師資介紹：

推薦工作

延伸閱讀

【8/15台北場】零基礎 AI 網頁實戰：兩天打造會動、能上線的個人網站 – 國立台灣大學資訊工程學系

【8/16台北場】駕馭程式代理人：從原理到掌控自動化開發 – 國立台灣大學資訊工程學系

【8/17台北場】Python財務金融資料分析與處理 – 國立台灣大學資訊工程學系

【8/17台北場】AI協作 Java新手速成：從基礎到實戰 – 國立台灣大學資訊工程學系

【8/3台北場】AI 輔助軟體工程實務 – 國立台灣大學資訊工程學系

【7/23台北場】生成式人工智慧與資料科學實務 – 國立台灣大學資訊工程學系

發佈留言 取消回覆

發佈留言取消回覆