維元 – 科技島-掌握科技新聞、科技職場最新資訊

有了模型然後呢？從資料模型到數據產品，你還需要具備這一思考｜專家論點【維元】

維元 — Fri, 28 Oct 2022 08:10:00 +0000

資料科學是一種從資料到決策過程的方法，探討用模型去解讀不同的資料與其意涵。在管理學院中有一門知識管理的課程，將利用原始資料產生知識的過程分成四個階段。

圖片來源：freepik

從知識管理到資料科學

資料科學是一種從資料到決策過程的方法，探討用模型去解讀不同的資料與其意涵。在管理學院中有一門知識管理的課程，將利用原始資料產生知識的過程分成四個階段。根據維基百科的定義，知識管理（Knowledge Management，KM）包括一系列的定義、創建、傳播、採用新的知識和經驗的戰略和實踐，可以用於個人知識或組織中商業流程的實踐。知識管理的目標是幫助人類如何系統性地累積經驗、管理知識，成為一個更有智慧的人類，這其中「經驗」扮演重要的齒輪。

從知識管理到資料科學，知識或決策的產生方式正在改變。如果可以利用機器的優勢來轉換知識，降低對經驗的依賴，那人們就得以更加專注於「決策」。換句話說，資料科學是一種利用數據幫助人進行決策的方法。

數位化與人工智慧

「從資料開始，透過一連串的過程發現隱藏在資料中的規則，利用這些規則完成一些有趣的應用。」。

資料科學的的目的是從資料中找關係，具體來說可以分成幾個階段：「取得資料」→「資料前處理」→「資料轉換」→「資料分析」→「資料解釋」→『發現知識」的六個階段。就像以下這張圖來自 Fayyad 在 The KDD Process for Extracting Useful Knowledge from Volumes of Data 所提到的資料科學的處理流程。

不過這個過程並看似單一的線性流程，不過實際上並非從左邊一步一步做到右邊就可以打完收工。這個過程其實是需要重複不斷的嘗試，一層一層探索，最終才得以找到真正具有價值的知識。

The KDD Process for Extracting Useful Knowledge from Volumes of Data

KDD（Knowledge Discovery in Database）是資料庫領域在資料探勘（Data Mining）前慣用的一種名稱（也有人說 Data mining 是 KDD 的一個環節），資料探勘領域中的知名的會議就叫做 SIGKDD。這邊用「Knowledge」這個字其實就是呼應知識管理中的「Knowledge」。

從資料模型到數據產品

傳統的資料科學模型通常只考慮到「產出模型」為止，著重的是如何訓練一個「好」的模型，產生交付的通常是一個模型。但有了一個好的模型之後，然後呢？

從資料模型到數據產品

模型相對來說是抽象的數學公式或是程式演算法，其實不易直接讓面向使用者。大部分的情況是具有「資料素養」的專業工作者，例如資料分析師、資料科學家會將模型解讀成一般人可以理解的資訊。因此「產生一個分析報吿、說一個好故事」是許多資料科學工作者需要訓練的基礎能力，例如資料視覺化（Data Visualization）或說故事（Storytelling）的技能。

不過當你想要打造的是一個「數據產品」時，僅有資料模型的解讀靜態報告是遠遠不足的。我們需要的是更貼近使用者應用場景的解決方案。所以一般來說，從資料模型到數據產品需要思考的是「如何將模型部署成一個可持續使用的線上系統」。除此之外，也必須思考如何將模型應用更真實、更大量的資料中。

從實驗資料到真實資料

在初期模型訓練過程中，可能會有「比較嚴謹」的分析過程。例如資料會經過標準的抽樣過程，資料也必須滿足一定的統計代表性。但隨著大數據（Big Data）的觀念跟方法逐漸成熟，比起嚴謹可能更重視「可用」與「有效」。

在《Big Data》這本書中，告訴我們在資料量夠完整的情況下對於資料的誤差容忍性是比較強的。不過這不代表可以忽略資料搜集的量測誤差，建議對統計解讀有興趣的朋友可以參考那些關於「大數據」的謬論：不要再說樣本即母體了！和大數據與偏差樣本這兩篇文章。所以從實驗資料到真實資料的情境中，會有幾個現實需要面對：

收集到的資料可能更多、更快、更髒
產生的結果通常是比較模糊的

需要思考的是如何在有限的時間中，產生可以用的模型。

從模型到系統部署

模型跟報告是相對抽象跟靜態的，可能難以讓使用者直接有感。因此，從資料模型到數據產品的另外一個重點在於「如何將模型部署成一個可持續使用的線上系統」。例如像推薦系統或是圖形辨識系統之類的系統，就是以應用為目的，模型只是其中的部分而已。

從這些角度來看，是否可以更早期就把最終的應用考慮進來，或是需不需要讓資料料工作者也具備系統部屬的產出能力都是打造數據產品時的重點。

而最近流行的 DataOps、MLOps 和 AIOps 各種 Operation 方法，就是在探討如何導入敏捷開發的原則。讓資料開發的 Pipeline 可以有更好的分析、部署、迭代的過程，進而實踐自動化運行的目標。

嗨，我是維元，目前是一名資料科學與網頁開發的雙棲工程師。近期也擔任科技島社群的駐站專家，持續分享發表對 #資料科學、 #網頁開發或 #軟體職涯相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流，都可以追蹤資料科學家的工作日常 Facebook 粉專或 Instagram 帳號，也會不定時的舉辦分享活動，一起來玩玩吧！

資料科學工作者的階段性職涯，Junior 該如何走向 Senior？｜專家論點【維元】

維元 — Tue, 25 Oct 2022 08:30:00 +0000

如果說「從畢業到就業」是職涯路上第一個關卡，那下一個會卡關的點應該就是如何「從菜鳥升等成為資深開發者」。而這個題目的官方回應，可能會從前輩口中聽到「#能不能獨力解決問題」之類的答案。但究竟怎樣算是獨力解決問題呢？具體的衡量標準會是怎樣？

圖片來源：freepik

Junior 跟 Senior 的差別是什麼？

我自己會從三個階段來拆解這個問題：「#會什麼技能」→「#做得到什麼目標」→「#能夠達到什麼成就」

從一開始還是新人時，更多時候強調的是自我的能力與技能是否足夠，還有什麼需要加強的嗎？當技能累積到一定的實戰力之後，必須有相對應的實務經驗並且想一下能轉化為什麼明確的目標，這是一個從 #會什麼到 #做得到什麼的階段。第三個階段則需要進一步思考這個目標能夠達到怎樣的成就，能夠為團隊帶來多少的效益。換句話說，我會覺得從 Junior 到 Senior 其實是一種「#個人產出」到「#團隊貢獻」心態上的轉換。

不同背景的養成路徑

在之前的文章想進入資料科學領域的你，該如何起步？中，可以很粗淺地把資料專案中的角色分成「資料科學家」、「資料分析師」及「資料工程師」三種角色。他們彼此的技能可能部份重疊。從資料科學的技能樹的深淺來分的話，可以分成階段性的職涯成長：分析師 → 工程師 → 科學家。只要有心，人人都可以成為資料科學家。

資料科學是一個跨領域的技能，需要同時有跨域的能力與開放的思維。如果你本來就是軟體工程師的話，可以從程式需求大的資料工程師開始。統計／數學背景的話，適合研究資料科學模型。另外大部分的話，就會建議從資料分析師的起點逐步規劃。這邊列出了一些常見的背景，與適合的養成路徑：

實際上資料專案需要的是一支團隊，一般會將資料科學的技能拆成多個不同的職缺。根據資料科學的技能，拆成四個主要的任務：資料探索、資料工程、分析模型與理論研究。經過完善的各司其職可以完成強大的工作，達到明確的守備範圍。不過理想很豐滿、現實很骨感，在許多小團隊當中都會先配備一個角色打全場：

要完成一個好的資料專案，靠的不能只是一個厲害的強者，需要的是一支合作無間的資料團隊。跨領域的整合也是一個重要的應用關鍵。無論資料的多寡，資料專案都是建基在資訊、統計、視覺化等不同的領域專業上面。不過現實層面上來說，很難有人可以同時具備那麼多能力，因此在資料專案中更需要團隊合作。

資料科學家技能比重分佈公開！資料工作者要學習不同面向的能力，還是專精於某項職能？｜專家論點【維元】

維元 — Fri, 21 Oct 2022 02:00:00 +0000

一個資料科學家的能力需要兼具「#工程開發」+「#數學統計」+「#領域知識」三種能力，DA / DS / DE 角色在於擅長的重點不同。擅長的重點不同不代表「只」專精於某一個領域，而是在全盤有一定的能力情況下可以彈性的調整以及互相補位。所以對於資料工作者的技能樹養成來說該選擇「#學得廣」還是要「#學得深」的確是一個蠻難的問題。

圖片來源：freepik

但想成為一個好的資料工作者，我認為「廣」+「深」並不是一個選擇題，而是要如何都要。所以自己會建議可以採取專案式的螺旋形學習，透過目標導向逐步優化迭代讓自己每次都多學一點。

作為一個資料工作者不要畫地自限，把「有能力完成整個資料專案」作為目標前進，再慢慢根據興趣收斂到特定的技能。

成為資料科學家的技能比重分佈

接下來想點出一個初學者在專案準備的過程中可能會存在的誤區，那就是「學生思維」與「職場思維」的關注點。

一般在學習階段的技能通常會以「技術」為主，比較專注在單一技能的養成，對於學習的程度上也會要求的更為深入。反之，轉職導向或是坊間的養成班多半會有時程上的壓力，在課程的安排上就會更強調目標導向，廣度可能比深度來得重要

成為資料科學家的技能比重分佈

但就如同我們前面所述，廣度與深度並不是一個選擇題，重要的是該如何展現「有能力完成整個資料專案」。以工作現場來說，我們看的是這些技術該怎麼使用，能否在正確的場景中使用適當的技術。

怎麼挑選適合的資料專案呢？

那該如何挑選適合的資料專案呢，才能夠有效地證明有「完成整個資料專案」的能力呢？資料科學是一門跨領域的學科，有許多不同背景的人想踏入資料的產業。但對於沒有相關經歷或是背景的自學者，很容易苦於不知如何累積實戰經驗的問題。

最快的方式就是直接實作 Side Project，持續累積的作品集與實戰案例。不過該如何準備作品集以及怎麼挑選適合的題目呢？在之前的「#數據職涯加值計畫 - 系列講座」中，建議有兩種方向是可以嘗試的起手式：

① 從日常的問題開始

以中長期而言，會建議直接 #從日常的問題開始，電商產業工作者能夠利用資料解讀商品的銷售、行銷人員也能夠導入分析方法衡量廣告的成效。

② 模仿經驗案例

如果是短期目的的話，不妨可以試著 #模仿經典案例。像是信用卡風險預測、電商商品推薦系統或鐵達尼號死亡預測題目，能夠藉由模仿的方式學習實作。

資料科學的關鍵字轉移，這些年我們追逐過的技術 Buzzword｜專家論點【維元】

維元 — Thu, 20 Oct 2022 07:50:00 +0000

前幾天分享「資料分析技術的過去與現在：關鍵字雖然在更迭，但背後的技術不會消失」圖文中的有些用字「不精準」造成一些誤解，背後也隱含著對於資料科學使用上的誤區。就如同我們前一篇文章所說：「隨著資料科學技術的快速演進，很多人可能會擔心被淹沒在新技術的浪潮中」，我們也反諷盲目追逐 Buzzword 現象，在一些技術用字上是比較模糊的也因此造成誤解。想說花點時間整理我心中的想法、以及分享自己觀察到的脈絡

圖片來源：freepik

技術並不是現在取代過去，演進應該是 #技術堆疊而成的
技術演進其實想表達的是 #關鍵字轉移，技術背後想解決的問題才是重點
技術普及的同時定義也會更加模糊，謹慎判別 #關鍵字的濫用

資料科學的關鍵字轉移

① 技術並不是現在取代過去，演進應該是 #技術堆疊而成的

資料領域的關鍵字發展快速，從大數據、深度學習的技術演進或是像 AlphaGO、Midjourney AI 之類的 AI 應用，都讓大家感受到資料驅動的科技力量。

當然也有更多的人會擔心是否被無情的技術演進拋下了呢？擔心過去學過的統計學、資料庫會不會過時，這些技術是不是已經被淘汰了呢？但新技術的發展並不是橫空出世、一步到位的，就像現在流行的深度學習背後也用到許多機器學習和統計學的觀念。你不需要焦慮你學過這些技術會被淘汰，而是關注在如何站在巨人的肩膀上往前看。

② 技術演進其實想表達的是 #關鍵字轉移，技術背後想解決的問題才是重點

以資料收集、資料來源的技能需求來說，早期的資料分析通常侷限在應用場景比較單純，使用的資料來源多半來自內部的資料庫系統。

這個時期的技能要求是能用利用 SQL 從資料庫撈資料、再搭配各式各樣複雜的迴歸模型解讀資料。但現在資料的來源更加廣泛多元，如何收集、疊合更多來源的資料已經成為資料分析人員的必備技能。不過技術不管怎麼演進，終究還是需要回扣到想要解決的問題是什麼。

③ 技術普及的同時定義也會更加模糊，謹慎判別 #關鍵字的濫用

最後一點也是這張圖最初想要表達的點，坊間很常聽到 AI、 Big Data 的關鍵字，好像不使用就跟不上時代一樣。但是這些大數據真的是你心中想的那種大數據嗎？

深入了解之後，你會發現大部分看到的 Big Data 好像就是部分資料只是畫畫圖表而已，而這其中反映的是某些 Buzzword 在普及的同時、定義也會更加模糊，很多時候會有被誤用或濫用的現象。

資料分析技術的過去與現在：關鍵字雖然在更迭，但背後的技術不會消失｜專家論點【維元】

維元 — Fri, 14 Oct 2022 08:00:00 +0000

資料科學是近期相當熱門的技術關鍵字，是一種「從資料中找關係」的科學方法。但其實資料分析並不是一個新的概念，統計學的量化方法早就廣泛應用於各行各業中。

圖片來源：freepik

資料科學是近期相當熱門的技術關鍵字，是一種「從資料中找關係」的科學方法。但其實資料分析並不是一個新的概念，統計學的量化方法早就廣泛應用於各行各業中。如果你問我為什麼這幾年資料科學再度被重視的話，那我會說，所謂的現代資料科學是指的大數據加上機器學習的方法，其中的關鍵在於這些技術的到位，讓我們看見的從資料驅動人工智慧新的可能性。

資料科學的技術演進

技術驅動的演進

隨著計算機技術演進，資料量快速成長、儲存成本下降和雲端環境成熟等客觀條件就位。電腦計算能力大幅提升，帶來的是資料量快速的累積，也因此造就了資料科學的新時代思維。
具體而言，過去科學發展使用演繹方法研究，根據推論求得規律。隨著面臨的問題變得越發復雜，透過演繹的方式面臨瓶頸。然而，透過歸納方法形成另外一種解決問題的觀點。因此，將資料科學與巨量資料推上了顯學。巨量資料分析不同於傳統統計抽樣方法，考慮的是資料母體。利用比實證研究更耗費計算成本的資料驅動的方法，透過全面地分析從資料中挖掘出資料背後的關係。

當前，我們正處於人類有史以來發展最快的時代。透過「資料」與「分析」，運用新的思維，將帶來一場新型的改變。技術驅動的演進，帶著經濟進行結構性改革，走向一個充滿變化的未來。最重要的是，我們必須要把握「創新」的機會，而且是「技術驅動創新」的機會。

巨量資料的技術到位

「根據研究機構 IDC（國際數據資訊公司）的分析，這個世界上的資料正在以每兩年就翻倍的驚人速度增加中。了解大數據、如何利用巨量資料，成了人人關心的重點議題。

麥肯錫全球研究中心的全球巨量資料研究報告指出，全球資料量光是在 2010 年就增加了 70 億 GB，相當於 4 千座美國國會圖書館典藏資料的總和。（7 個你不可不知的大數據定義、巨量資料時代的煉金術）」

我們在前幾期的文章資料科學，你會想到什麼？｜專家論點，也有提到所謂的大數據到底是什麼？一般而言，巨量資料的定義是 Volume（容量）大、 Velocity（速度）快和 Variety（多樣性），但也其他幾種不同的特性，像是 Veracity（真實性）和 Value（價值）等等。
基本上來說，巨量資料和傳統資料最大的不同是，資料來源多元、種類繁多，大多是非結構化資料，而且更新速度非常快，導致資料量大增。而要用大數據創造價值，不得不注意數據的真實性。

為什麼巨量資料是一件重要的事情？在麥爾苟伯格在《大數據》一書中這樣說明：「透過更完整的資料分析，透過接近母體的資料量，可以大幅降低傳統抽樣所產生的統計誤差。」換言之，會需要付出更多更快的運算機器，所以巨量資料與計算機技術的進步是相輔相成的。

不過，資料科學也不盡然要盲目地追求「巨量」這件事。大企業能享有巨量資料的規模優勢，但小團隊也有成本及創新上的優勢，因為速度夠快、靈活度高，就算維持小規模，還是能夠蓬勃發展。重要的是，能否掌握資料時代的思維與創新。

關鍵字在更迭，但技術不會消失

隨著資料科學技術的快速演進，很多人可能會擔心被淹沒在新技術的浪潮中。不過有時候只是關鍵字的更迭，背後想解決的問題是不變的 (•̀ᴗ• ) 資料時代席捲而來的不只是資訊界，而是一場全面性的革新。巨量資料帶來的是各個領域的改變，像是 FinTech (金融+科技)、Growth Hacking (行銷+科技)、Health Care（醫學+科技）等等都是隨著資料時代下在跨領域整合下而興起的趨勢。

換句話說，巨量資料／資料思維，需要的是一種跨域的宏觀視野。從幾個市場熱門的討論議題來看，都可以看到資料應用扮演的角色。

資料分析起手式「資料爬蟲」：分享 Python 網頁爬蟲的學習地圖與策略｜專家論點【維元】

維元 — Thu, 13 Oct 2022 08:30:00 +0000

資料爬蟲是資料分析的起手式，必須有好的、可用的資料才得以進行高品質的資料科學專案。而過去的資料來源多半來自公司內部的資料庫或資料倉儲系統，仰賴於工程師跟 IT 部門的支援。

圖片來源：freepik

資料爬蟲是資料分析的起手式，必須有好的、可用的資料才得以進行高品質的資料科學專案。而過去的資料來源多半來自公司內部的資料庫或資料倉儲系統，仰賴於工程師跟 IT 部門的支援。
但隨著 Big Data 的技術到位，實務上對於資料的要求更加大量也更加多元。因此，利用程式與資料爬蟲收集資料，是目前資料來源的一個重要的管道。
本篇文章將針對「網頁收集的開發工具生態系」、「學習資料爬蟲的幾個階段」以及「打造爬蟲是資料人的基本技能」三個段落，分享 Python 網頁爬蟲的學習地圖與策略。

網頁收集的開發工具生態系

網頁爬蟲的工作核心目標是：「將網路的資料下載回本地的電腦上」，過程中可能會涉及幾個工作：「怎麼把資料下載回來」、「怎麼整理成想要的資料」以及「資料要存在哪裡」幾個項目。
將網路的資料下載回本地的電腦上得過程式基於HTTP（HyperText Transfer Protocol）的規範，採用 Request 與 Response 的交換機制得到資料。

網路爬蟲其實就是模擬使用者的行為，發出一個請求後把收到的資料攔截起來，基本上可以簡化為以下流程：

許多人會選擇 Python 做為程式開發或資料科學的入門語言，因為其「語法容易」與「第三方資源豐富」兩個特性。所謂的「第三方資源豐富」是指，Python 可以搭配許多套件來完成特定領域的工作。
所以 Python 在爬蟲領域也如此，以下大概可以分為幾種不同的應用場景與對應的工具：

模擬請求與攔截回應

靜態網站的資料取得：Requests / urllib

第一步模擬請求（Request）與攔截回應（Response），可以利用 Requests / urllib 兩個工具來實現。這兩個套件都是在 Pythoon 中模擬 HTTP 的套件，可以用來處理網頁的溝通。

整理/清理資料

網頁資料的解析爬取：BeautifulSoup / Pyquery / Xpath

第二步是取回資料之後，該怎麼辦？利用 HTTP 得到的網頁資料是網頁的 HTML 原始碼，包含許多網頁的標籤。我們可以利用 BeautifulSoup、Pyquery 或 Xpath 幫助我們從網頁原始碼中解析出需要的資料，並進行整理。

動態網站的資料取得

動態網站的資料取得：Selenium / PhantomJS / Ghost

動態網頁與靜態網頁最大的不同，是資料在什麼時間點取得的。
動態網頁是在瀏覽器已經取得 HTML 後，才透過 JavaScript 在需要時動態地取得資料。因此，爬蟲程式也必須要考慮動態取得資料這件事情，才有辦法正確地找到想要的資料。這種情況可以搭配 Selenium 、PhantomJS 或 Ghost 模擬瀏覽器產生資料的過程。不過 PhantomJS 和 Ghost 都沒有持續更新，可以改用

多頁面的爬蟲框架

多頁面的爬蟲框架：Scrapy / Pyspider

資料爬蟲最早期的需求是來自於搜尋引擎，把整個網路視為是一個蜘蛛網，那麼在網上爬來爬去的就是蜘蛛。從搜尋引擎所設計的網路爬蟲程式，通常會用於整個網站的收集。如果需要的是超過一種頁面的網頁爬蟲的話，就必須導入 Scrapy 或 Pyspider 之類的工具。

學習資料爬蟲的幾個階段

Python 實現資料爬蟲是非常熱門的一項工作，也有許多相關的工具出現可以使用。真實資料爬蟲其實比想像中的更複雜，流程大概會像這樣：

但對於新手來說，該如何尋找到適合的工具其實是很麻煩的。關於初學爬蟲的新朋友來說，我會這樣建議學習：

熟悉 Python 語言的基本應用
找到想要實現資料爬蟲的網站
初步理解哪些資料是靜態的、哪些是動態的
先利用靜態爬蟲收集資料
在開始處理動態網頁資料
試著把爬蟲變成自動化與多頁面收集
持續練習⋯

總結來說，就是先採小規模的收集。再逐步處理更多的資料，導入更複雜的工具，不用一開始就想要什麼都處理。

打造爬蟲是資料人的基本技能

過去的資料來源多半來自於公司內部的資料庫或資料倉儲系統，仰賴於工程師跟 IT 部門的支援。但隨著 Big Data 的技術到位，實務上對於資料的要求更加大量也更加多元。
現在對於資料的使用者其實很廣泛，通常很多資料的需求也都是實現性的。這種情況下可能沒有那麼多的工程師或開發人力能夠隨時提供彈性的資料，因此打造資料收集力已經成為所有資料工作者的必備技能了。

資料科學的2種流派：機器學習與統計模型｜專家論點【維元】

維元 — Fri, 07 Oct 2022 08:15:00 +0000

資料科學就是一種「從資料中找關係」的科學方法，目標是利用資料學習知識的學科目標是通過從資料中提取出有價值的部分來生產資料產品。雖然這句話看起來很簡單的，不過其實背後的水很深。

圖片來源：freepik

資料科學就是一種「從資料中找關係」的科學方法，目標是利用資料學習知識的學科目標是通過從資料中提取出有價值的部分來生產資料產品。雖然這句話看起來很簡單的，不過其實背後的水很深。
我們來說文解字一下，#資料可能是「過去」、「現在」或「未來的資料」，或是從量級分成「大數據」、「小資料」或「厚資料」；另外也有「開放資料」跟「內部資料」的不同來源，更不用說各種不同的資料型態。#找關係也有很多種找法，例如「#可以解釋的因果關係」、「#很常一起出現但不一定有關係的關聯關係」或是「#很像又不能太像的預測關係」都是資料科學中不同的方法。
前幾期的文章我們有跟大家分享過「機器學習模型的想法與導入」和「資料科學的基石知識 – 統計學」兩篇文章，今天想再跟大家往下來比較這兩者間的差別。

機器學習與統計模型有什麼不同？

一般來說，這兩個項目所研究的目標相近，不同的是使用的背景不同。機器學習是資工領域發展的議題；統計模型是統計學所探討的領域。這是一張有趣的圖來說明資料科學中之間錯綜複雜的交織關係：

SAS institute: the universe of data science

首先，不管是機器學習或是統計模型都有一個共同的目標－ Learning from Data. 這兩種方法的目的都是透過一些處理資料的過程中，對資料更進一步的瞭解與認識。

來看看這兩者在科學上的簡單定義：

Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.

換個角度，看看實際上使用上有什麼差異。這是一張 McKinsey 用於客戶風險預測問題的結果，有 A 、 B 兩個變數。綠色線是統計方法得出的規則；等曲線是機器學習方法發現的，兩者皆能夠指出風險較高的趨勢。

McKinsey: Understand the risk level of customers churn over a period of time for a Telecom company

統計方法用一個方程式去描述分類問題，將資料找出一個分割線將結果分成兩類。然而，從機器學習的方法找出來的是一圈一圈的等曲線，看起來似乎可以得到更廣泛的結果，而不只是簡單的分類問題。

機器學習是從資工及人工智慧中發展而來的領域，透過非規則的方法去學習資料分布的關係。統計模型是統計學中利用這種變量去描述與結果的關係。統計模型是基於與說嚴格的限制下去進行的，稱為假設檢定，這也是與機器學習方法上的不同。

基於假設檢定下的發展，使得統計模型能找出更貼近「現有資料」的趨勢。然而，預測的目的是為了找出「未來資料」或所有資料，但假設會使得資料太貼近現有資料（機器學習中稱為過擬和的一種問題）。
嚴格的假設也成了統計學習的一種雙面刃，有一句資料科學中流傳的名言是這樣講的：the lesser assumptions in a predictive model, higher will be the predictive power.

從數學觀點解讀兩種模型

機器學習

一種不依賴於規則設計的數據學習算法；計算機科學和人工智慧的一個分支，通過數據學習構建分析系統，不依賴明確的構建規則。

Output Y = f( Input X ): X -> Y

統計模型

以數學方程形式表現變量之間關係的程式化表達；數學的分支用以發現變量之間相關關係從而預測輸出。

Dependent Variable Y  = f( Independent Variable X ) + error function

資料科學的思考流程 —「資料驅動」與「問題驅動」｜專家論點【維元】

維元 — Wed, 05 Oct 2022 07:45:00 +0000

資料科學的流程基本原則就是：「從資料開始，透過一連串的過程發現隱藏在資料中的規則，利用這些規則完成一些有趣的應用。」大致的流程可以分為「取得資料」、「資料前處理」、「資料轉換」、「資料分析」、「資料解釋」和「產生結果」。

圖片來源：freepik

資料科學的流程基本原則就是：「從資料開始，透過一連串的過程發現隱藏在資料中的規則，利用這些規則完成一些有趣的應用。」大致的流程可以分為「取得資料」、「資料前處理」、「資料轉換」、「資料分析」、「資料解釋」和「產生結果」 。
不過這個看似單一的流程，其實是需要重複不斷的嘗試、一層一層探索，最終才得以找到真正具有價值的黃金。

取得資料：從原始資料到決定存放資料庫的過程，一般來說會涉及到資料獲取（data acquisition）、資料爬蟲（data crawler）、資料庫管理（data management）、資料倉儲（data warehouse）等等議題。
資料前處理：對從資料庫根據規格（API、SQL）取出的資料集，進行資料清理（data cleaning）處理資料中包含的雜訊或錯誤訊息，或是想使用到多個資料集也會在這邊進行整併。
資料分析：可以分為兩個階段，探索性分析（Exploratory Data Analysis）與資料探勘／機器學習（Data Mining/Machine Learning），可以把探索性分析視為是一種前期的觀察，在經由資料探勘進行近一步地挖掘。
資料解釋：通常會透過資料視覺化的方式及圖表方式呈現前述的結果，運用一些可能的原因進行解釋，然後把這一整套東西串起來。

資料驅動與問題驅動

問題驅動

過去，我們在科學課本上有學過一個問題的解決流程，稱為問題驅動（Problem Driven）。基本上是透過專業知識的假設，將問題限縮在比較小的範圍下去解題。
包含觀察 -> 假設 -> 實驗 -> 證明 -> 結論的思考步驟。

資料驅動

不過以資科科學會從另不同的觀點切入，其流程大概是這樣。
資料科學前期不仰賴專業介入，單純地從資料上著手。不過也是因為這樣，會使得解題範圍變得很大，也因此存在幾個問題。

因為資料量過於龐大機器無法負荷，利用抽樣進行分析，可能會有抽樣誤差的問題出現。
一開始的資料集就有問題，造成 Garbage-in-Garbage-out 的現象。

不過一切仰賴的計算機運算技術的進步以及巨量資料概念的興起，使得資料驅動再度受到矚目。

統計學、資料探勘、機器學習

一般說到資料分析，我們會聯想到統計學、資料探勘與機器學習，也可以從資料科學的流程中，看見他們扮演一個承先啟後的角色。
資料分析可以是很簡單的算術，也可以是很複雜的數學模型。那究竟這幾個主題有什麼異同呢？以及他們又討論些什麼呢？這是 SAS 關於資料科學的一張解釋，大概呈現了幾個常見議題間錯中複雜的關係。

Difference between Machine Learning & Statistical Modeling

資料探勘與機器學習是從資工及人工智慧中發展而來的領域，透過非規則的方法去學習資料分布的關係。統計模型是統計學中利用這種變量去描述與結果的關係。
本質上來說，他們做的事情是差不多的，也互有重疊。差別大概就是一開始想要達成的目的不同（一個是想從資料找出東西，一個是從資料中學習規則），不過現在的發展大至上沒有不同了，也算是一組不可分割的學科。

統計方法用一個方程式去描述分類問題，將資料找出一個分割線將結果分成兩類。然而，從機器學習的方法找出來的是一圈一圈的等曲線，看起來似乎可以得到更廣泛的結果，而不只是簡單的分類問題。統計模型是基於嚴格的限制下去進行的，稱為假設檢定，這也是與機器學習方法上的不同。

資料分析的起手中，你可以這樣觀察資料｜專家論點【維元】

維元 — Fri, 30 Sep 2022 07:50:00 +0000

資料科學是以知識探索為目的的一種方法，如何將資料一層一層挖掘出有價值的知識？搭配電腦科學的角度來看，「數位化」與「人工智慧」的導入，其實是在加快知識管理的流程。

圖片來源：freepik

資料科學是以知識探索為目的的一種方法，如何將資料一層一層挖掘出有價值的知識？搭配電腦科學的角度來看，「數位化」與「人工智慧」的導入，其實是在加快知識管理的流程。簡單來說，資料科學一種從資料到決策的過程。在資料科學當中有一句名言是這樣說的：

資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已。

因此，資料在整個分析的過程中扮演非常重要的角色。在真正開始進行分析之前，會建議先透過一些簡單的觀察對資料先有初步的認識。

如何定義一個「資料」專案？

開始一個資料為主的專案時，心中必須先快速想過幾個問題：

我們想要解決的問題是什麼？
會需要用到什麼數據？
資料的來源有什麼？
數據的類型跟種類有什麼？
適合用什麼樣的模型？

你會發現「模型」是最後才會想到的，前面比較重要其實是「資料」這件事。因此整個資料科學的核心，還是從資料開始定義問題。

以同一份的資料來說，可以定義成監督式學習，也可以用非監督式學習的角度切入，就看你從哪個問題切入。

觀察資料的 N 件事

那真正要開始一個專案的時候，會先收集一堆的資料準備分析。而在真正開始進行分析之前，會建議先初步觀察手邊資料，讓自己對資料先有第一層的認識。一方面有助於我們進行資料預處理，另一方面在進行特徵工程時可以給我們一些思路。

這邊向大家分享我自己在拿到資料之後的操作流程，希望透過系統性的方式來建立對資料的感覺。身為資料分析者的敏銳，我們在意的點環繞在「資料的樣⼦是什麼？」，主要可以分為兩個大方向：

有多少資料？
處理上可能會遇到什麼問題？

再往下思考，可以分成更多的小問題：

根據我自己的實務經驗，透過以下的步驟看快速的查閱資料：

先認識資料欄位
快速檢閱資料樣貌
定義資料類型
類別資料看分佈、連續資料看範圍
比較資料間的關係

① 先認識資料欄位

首先，在使用資料之前請務必詳閱「資料說明書」。所謂資料說明書也就是向「資料提供者」請益，很多資料再使用者會經由編碼、縮寫處理，可能難以從資料內容就看懂資料是什麼涵義。或者有些資料本身就具備高度專業性，例如：醫學、製程這一類的數據，初期多半需要仰賴專家的知識補充。

需要知道每個欄位所代表的涵意與數值範圍是什麼。

② 快速檢閱資料樣貌

接下來開始打開資料來看一下，快速檢閱資料的樣貌、形狀。在這裡的樣貌指的是資料有多大多寬，換句話說這一份資料當中有多少個欄位與多少筆資料。

資料量決定使用怎樣層級的工具，假如是 20 筆資料可能手算一算就好。但是如果是 2 萬筆資料、200 萬筆資料，甚至是 2 億筆的資料在工具的選擇上就會有差。差別主要是可以分成三個階段：「用套裝軟體」→「自己程式」→「分散式架構」，根據資料大小來決定工具的需求。

最近就有一個經典的案例：英國少算近1.6萬武漢肺炎病例疑因資料超出Excel上限、英國少算逾1.5萬名武漢肺炎確診患者，疑因超過Excel限制，就是一個沒有考慮的資料量與工具所導致的嚴重問題。

③ 定義資料類型

外部的形狀看完之後，就會進入資料內容來看。會建議用欄位為單位去看，因為在這個階段時我們還沒辦法好好去看資料內容，先從「感覺」的部分觀察就好。

這裡我們先把所有的欄位分成不同的類型：

類別型：資料內容是有限個字串所組成的集合
數值型：資料內容是可以計算的數字

或是其他非結構型資料，例如時序型、文本型或影像型的資料。

④ 類別資料看分佈、連續資料看範圍

接下來會針對不同的類型的欄位來看，如果是類別型的資料的話會看分佈的情形，有多少種資料、資料的分布狀況等等的。如果是連續資料的話看範圍，會去看一下最大最小值或是標準差的大小，其實就是用統計的方式去看資料。

⑤ 比較資料間的關係

個別欄位看完之後，會來一下「欄位間」的關係，其實就是去比較欄位跟欄位之間的相關係數。有一種常見的手法會計算任兩個欄位的相關係數形成一個相關係數矩陣（Correlation Matrix），通常會搭配熱點圖（Heatmap）做視覺化。透過圖表，可以讓我們一目瞭然哪些欄位是高度相關的。

你懂資料，資料就會幫你

使用資料前，要先跟資料培養感情。對資料的熟悉程度，是可以幫助你在後續的資料前處理或模型分析都先有一層的把握。以上雖然列出很多項目，不過實務上可以在拿到資料後快速的檢查這五點項目。整體看過一輪，差不多就是一個小時內的工。

先認識資料欄位 → 確定資料欄位的意義跟來源
快速檢閱資料樣貌 → 資料量決定使用怎樣層級的工具
定義資料類型 → 將欄位分成數字跟類別
確認類別資料分佈 → 非數值欄位資料我們在意分佈
確認連續資料範圍 → 數值欄位資料我們在意範圍
比較資料間的關係 → 利用相關性矩陣跟熱點圖觀察欄位間的關係

資料科學的基石知識 – 統計學｜專家論點【維元】

維元 — Wed, 28 Sep 2022 02:20:00 +0000

隨著雲端與大數據的技術逐漸成熟，數據科學已然成為數位時代下不得不具備的技能。但資料科學的概念其實並不是一個全新的技術，其中最核心的基礎「統計學」，就是一個從過去持續發展至今，且已融入各行各業的重要解法。

圖片來源：freepik

隨著雲端與大數據的技術逐漸成熟，數據科學已然成為數位時代下不得不具備的技能。但資料科學的概念其實並不是一個全新的技術，其中最核心的基礎「統計學」，就是一個從過去持續發展至今，且已融入各行各業的重要解法。
統計學（Statistics）是由數學系發展而來的學科，作為資料分析的基礎。目標從一組數據中經由研究測定、收集、整理、歸納和分析反映數據資料，找出資料背後的訊息。統計學藉由科學的方法，在不確定的情況下由樣本資料所獲得的結果來推論母體的性質與事實，從而做出適切決策的一門學科。

統計學（Statistics）作為數據科學中的基石，能夠「從資料中萃取出資訊」用以幫助決策，學好統計學是建立對數據科學思維的第一步。統計是由數學系發展而來的學科，可以分為類型「敘述統計」和「推論統計」兩種類型，依其性質可再分為：理論統計學或應用統計學。
不過對於許多人來說，統計學總是存在一道無形的門檻，統計學中的數學公式往往令人卻步。你是否也曾經擔心自己數學不好，而無法學好統計或是資料科學呢？但如果我們跳出為了考試目的的學習，試著從生活案例中解釋統計學，你會發現其實並沒有想像中的可怕與困難。

統計學中的五個層次思考

統計學其實就是大量生活中的日常經驗，從觀察到思考都能夠看出統計學的影子。而所謂的「數據思維」，也可以說是一種從「我覺得」到「看數據說話」的解決問題策略，簡單來說就是當你面對一堆數據與圖表時，你該如何進行思考與推論進而決策呢？如果我們始終仰賴於經驗與主觀的判斷，會很難實現系統性的成長。
統計學是基於歸納法所發展而來的，能夠從累積的資料中觀察趨勢，讓我們從資料中「鑑往知來」而不再只是主觀的判定。從探索過去、了解現在到預測未來可以分層五個層次的統計思考脈絡。更重要的是能夠從統計學建構的敏感度，更精準的資料解讀避免我們陷入資料的盲點與誤區。而作為來自數學習中成熟的方法，統計學也是最早期的資料科學方法，並且廣泛的應用於各行各業中。

維元 – 科技島-掌握科技新聞、科技職場最新資訊

有了模型然後呢？從資料模型到數據產品，你還需要具備這一思考｜專家論點【維元】

從知識管理到資料科學

數位化與人工智慧

從資料模型到數據產品

從實驗資料到真實資料

從模型到系統部署

資料科學工作者的階段性職涯，Junior 該如何走向 Senior？｜專家論點【維元】

Junior 跟 Senior 的差別是什麼？

不同背景的養成路徑

資料科學家技能比重分佈公開！資料工作者要學習不同面向的能力，還是專精於某項職能？ ｜專家論點【維元】

成為資料科學家的技能比重分佈

怎麼挑選適合的資料專案呢？

① 從日常的問題開始

② 模仿經驗案例

資料科學的關鍵字轉移，這些年我們追逐過的技術 Buzzword｜專家論點【維元】

① 技術並不是現在取代過去，演進應該是 #技術堆疊而成 的

② 技術演進其實想表達的是 #關鍵字轉移，技術背後想解決的問題才是重點

③ 技術普及的同時定義也會更加模糊，謹慎判別 #關鍵字的濫用

資料分析技術的過去與現在：關鍵字雖然在更迭，但背後的技術不會消失｜專家論點【維元】

技術驅動的演進

巨量資料的技術到位

關鍵字在更迭，但技術不會消失

資料分析起手式「資料爬蟲」：分享 Python 網頁爬蟲的學習地圖與策略｜專家論點【維元】

網頁收集的開發工具生態系

模擬請求與攔截回應

整理/清理資料

動態網站的資料取得

多頁面的爬蟲框架

學習資料爬蟲的幾個階段

打造爬蟲是資料人的基本技能

資料科學的2種流派：機器學習與統計模型｜專家論點【維元】

機器學習與統計模型有什麼不同？

從數學觀點解讀兩種模型

機器學習

統計模型

資料科學的思考流程 —「資料驅動」與「問題驅動」｜專家論點【維元】

資料驅動與問題驅動

問題驅動

資料驅動

統計學、資料探勘、機器學習

資料分析的起手中，你可以這樣觀察資料｜專家論點【維元】

如何定義一個「資料」專案？

觀察資料的 N 件事

① 先認識資料欄位

② 快速檢閱資料樣貌

③ 定義資料類型

④ 類別資料看分佈、連續資料看範圍

⑤ 比較資料間的關係

你懂資料，資料就會幫你

資料科學的基石知識 – 統計學｜專家論點【維元】

資料科學家技能比重分佈公開！資料工作者要學習不同面向的能力，還是專精於某項職能？｜專家論點【維元】

① 技術並不是現在取代過去，演進應該是 #技術堆疊而成的