【課堂筆記】從Yolov4 到 Yolov7的發展過程｜廖弘源 (9/21)

Mine_Liu — Thu, 21 Sep 2023 06:07:37 +0000

2018年，時任科技部長陳良基撥出經費，開始了台灣的AI發展計畫，提供經費供學者進行AI研究。而廖弘源所長的團隊獲得科技部計畫補助，開始了Smart City Traffic Flow Solutions的計畫，其目標是首先是希望能把學界的研發能量帶進產業界，並幫助台灣廠商的產品進入國際市場。

講師：廖弘源

廖弘源1981年由國立清華大學取得物理學士，並於1990年取得美國西北大學電機博士。1991年7月應聘回中央研究院資訊所，2012年升為特聘研究員。他於1997年至2000年間擔任資訊所副所長，並於2018年8月受聘為資訊所所長。

廖博士致力於多媒體訊號處理、影像處理、以視訊為主的人類行為分析、三維圖形的分割及辨識等研究領域超過30年。曾任IEEE Signal Processing Magazine、 IEEE Transactions on Image Processing (2009-2013)、IEEE Transactions on Information Forensics and Security(2009-2012)等期刊的編輯，目前亦擔任ACM Computing Survey的副編輯。

廖博士曾獲得許多獎項，包括中央研究院年輕學者著作獎（1998），國科會傑出研究獎(2003、2010及2013)，以及中央研究院深耕計畫獎(2010)。他也獲得中華民國資訊學會博士論文指導獎。 2016年他獲得東元科技獎；他因在image and video forensics and security的貢獻，於2013 年獲選為 IEEE Fellow。廖博士另於2020年獲得教育部第六十四屆學術獎，並於2023年獲國科會傑出特約研究員獎。

一、前言

2018年，時任科技部長陳良基撥出經費，開始了台灣的AI發展計畫，提供經費供學者進行AI研究。而廖弘源所長的團隊獲得科技部計畫補助，開始了Smart City Traffic Flow Solutions的計畫，其目標是首先是希望能把學界的研發能量帶進產業界，並幫助台灣廠商的產品進入國際市場。該計畫是當時義隆電子提供廖所長的研究團隊其所蒐集的路口與路口間的交通參數，希望團隊可以利用這些參數，讓路口與路口間互相傳遞交通訊息，並用動態的方式控制路口的交通號誌。也因為這次的科技部計畫案，讓廖所長的研究團隊開發出出YOLOv4，有效提升全世界的影像偵測技術。

二、YOLOv4的發展過程

對於YOLOv4而言，物件偵測（object detection）是所有事情的第一步。早期在做影像處理時，電腦視覺（computer vision）所看到的並不是如同我們肉眼所看到的物件，而是0和1的組合。後來深度學習（deep learning）的出現，才改變了傳統電腦視覺的做事方法。最先開始將深度學習導入物件偵測技術的為兩位美國教授。他們於2007-2010年開始利用1,400萬張影像訓練了21,000個物件，建立了視覺字典，讓電腦可以在偵測到物件後，有一本字典可以參照，辨識出該物件是一部車子或人。後來，甚至還有人開始以短暫的視訊片段作為資料庫，製作出了動作字典。最後，在2018年，雷德蒙（Joseph Redmon）發展出YOLOv3。然而他志不在此，所以並未持續鑽研YOLO系列的發展，而是將技術轉移給他的同事Alexey Bochkovskiy，YOLO技術的發展於是沉寂了一陣子。

2019年六月，同為廖所長研究團隊的成員之一王建堯博士開發出CSPNet系統，並測試成功。後來，王博士將測試成功的消息告知Bochkovskiy後，Bochkovskiy希望廖所長與王博士開始撰寫YOLOv4的研究文章，並於2020年4月完成寫作，並於寫作完成隔日將YOLOv4公開。廖所長的研究團隊於是再次推進YOLO技術的發展。YOLO系列運作的最主要利用「一階物件偵測」技術。與「二階物件偵測」不同，一階物件偵測通常有三個部分，由骨幹（backbone）、脖子（neck）和頭（head）所組成。骨幹就是一個深層網路，負責將未知的影像編碼，或將訓練資料的特徵編碼放進骨幹裡。接著，當需要偵測物件時，脖子就會開始從骨幹提取習得的特徵，並將這些特徵整合處理，最後再由頭部進行動作。

YOLOv4現也被廣泛運用。例如，義隆電子便與中興巴士合作，利用廖所長團隊開發的YOLOv4技術，讓司機可以透過螢幕，看到視野盲區是否有摩托車、腳踏車或行人，有效避免交通意外的發生。另外，無人機也可以配備YOLOv4，由上往下偵測路面交通狀況，描繪車子的行駛軌跡（圖1）。若未來有交通糾紛產生，此技術也有助於釐清肇事原因，協助排解交通糾紛。

圖 1：無人機結合YOLOv4技術，可以描繪出行車軌跡，在產生交通糾紛時亦有助於釐清真相。

自廖所長研究團隊的YOLOv4研究報告發布後，此技術目前不僅已被廣泛應用，更有許多研究引用廖所長團隊的研究報告，可說是學術界的台灣之光！

三、YOLOv7的發展過程

CSPNet與YOLOv4的成功，標誌了軟體在「階段層次設計」（stage-level design）的一大進展。不過中研院廖所長的團隊並未停下腳步，而是開始思考如何設計一個更快又準的系統。由於要設計一個快又準的網路必須考慮網路架構（network architecture）、特徵整合方法（feature integration method）、偵測方法（detection method）、損失函數（loss function）、標籤分配方法（label assignment method）、和訓練方法（training method）的問題，於是廖所長的團隊便開始專注於提升網絡層次設計（network level design），發展YOLOv7，其研究貢獻就是將網路架構和訓練過程皆進行了優化。

在網路架構方面，研究團隊發現梯度路徑越短，網絡學習能力越強，於是研發了ELAN（Efficient Layer Aggregation Networks）。此原理即因為模型擴展（model scaling）會破壞網路穩定的狀態，所以YOLOv7利用ELAN來控制最短和最長的梯度路徑，透過擴展（expand）、隨機排序（shuffle）和合併基數（merge cardinality）等方式，讓網路更有效地學習和收斂，達到不破壞梯度路徑的目的，並增強網路學習能力。在訓練過程的優化部分，廖所長的研究團隊則是提出了YOLOR的概念，讓電腦可以在看過一次資料後，就將所有顯性（explicit knowledge）和隱性（implicit knowledge）知識記起來。

在實際應用方面，YOLOv7在姿勢偵測和實例分割（instance segmentation）等方面都是目前世界上最好的。舉例來說，由於YOLOv7可以準確地偵測姿勢，所以可以捕捉運動動作，幫助運動科學的發展。在農業方面，若要驅除某些長在果樹上的害蟲，就必須要快速精準地打擊其頭部讓牠瞎掉，在將牠驅除。而目前也有學者曾利用YOLOv7的偵測技術，利用雷射射擊長在果樹上的害蟲，讓牠瞎掉後死亡，減少其對果樹的傷害。

四、結語

從YOLOv4到YOLOv7，影像偵測的技術在近幾年來已有相當的發展，而從今天的課程中，我們可以發現台灣的研究團隊也為此領域做出重大的貢獻。偵測技術的進步不僅可以幫助我們釐清交通事故或糾紛的原因，也可以用來驅趕害蟲。從雷射結合YOLOv7的部分，我們更可以想像，或許未來影像偵測技術會被拿來運用於其他領域（如國防安全），而台灣若能持續保持科技技術的領先，也必能在未來科技的發展中做出顯著的貢獻。

【若想回顧完整版課程影音，請點選此連結；有任何問題或分享，也歡迎在本文底下留言。】

YOLOv7串起2大生態圈 3大關鍵突破問世

進化者 — Fri, 31 Mar 2023 09:41:00 +0000

YOLOv7串起2大生態圈 3大關鍵突破問世 5">

課程筆記/回顧需會員方可瀏覽前往登入

記者／陳士勳

YOLOv7於2022年亮相，超越各大SOTA物件偵測模型，其核心開發者中研院資訊所所長廖弘源、助研究員王建堯透露關鍵在於「輕巧有效率的網路架構ELAN」、「執行多任務的外掛YOLOR」及「自動學習和具備泛化能力的訓練策略」等3大突破，使YOLOv7串起PyTorch和Darknet等2大框架的生態圈。

中研院資訊所長期致力於YOLO模型的研發。圖片來源：中研院

王建堯表示，ELAN是款省時省力，還能讓模型在硬體資源受限的低階設備或是邊緣裝置上，執行物件偵測任務的特別優化類神經網路架構，「一般模型要準確辨識出物件，大都使用較為複雜的網路架構，來處理影像特徵，不過相對得耗費更多運算資源。」團隊設計ELAN時，改善了前一代模型中耗費記憶體頻寬的設計，藉由排除殘差，使類神經網路架構更為精簡、提高效能。

相較前幾代YOLO模型，王建堯指出，YOLOv7能夠執行物件偵測任務、實例分割及關節點偵測等3種任務，換句話說，就是透過畫面中用框，框出特定物件，像是行人、建築、交通號誌，還能更細緻地用顏色標出特定物件，且定位畫面中人體如頭部、手肘、膝蓋等關節點，「就像火柴人一樣，用來辨識動作和姿態。」

王建堯強調，良好訓練策略更是YOLOv7能打敗多款SOTA模型的主因，即是YOLOv7強調的Trainable bag-of-freebies，而Bag-of-freebies泛指用來提高模型準確度的訓練方法，或技術和策略，然而，該技術或策略雖加重訓練成本，卻不會累積模型推論時的運算成本，還能提高模型表現。

廖弘源觀察，現今許多先進深度學習技術，都採用TensorFlow和PyTorch等2種框架開發，「像Transformer和近期火紅的生成式AI。也因為這2種框架，而擁有大量使用者。」歷代YOLO物件偵測模型大都則採Darknet框架開發，YOLOv7則改採PyTorch框架來開發，也提供一套轉換器，能將PyTorch的YOLOv7模型版本，轉換成能與Darknet相容的版本，兼顧研發和部署需求，「大多數先進技術開發者，都使用主流深度學習框架，要做出影響世界的模型，得讓好用的東西能互補，加入到這個系統。」

YOLO模型 – 科技島-掌握科技新聞、科技職場最新資訊

【課堂筆記】從Yolov4 到 Yolov7的發展過程｜廖弘源 (9/21)

YOLOv7串起2大生態圈 3大關鍵突破問世