「資料工程師/科學家」一定要懂的三種必要領域|專家論點【黑貘】
2012 年開始, CRM 與 Data Mining 逐漸沒落,取而代之的 Big Data 與 A.I. 如朝陽般緩緩興起,於是「資料工程師/資料科學家」這兩個新名詞,在職場上開始被廣泛的討論。因為只要牽涉到有人在使用的「產品」,就會有跟人的行為相關的分析、或者只是資料之間的關係。儘管該領域需要的「技能點」跟程式設計師或工程師有一定的類似,實務上還是存在著很大的差異。
通常在職場中的工程師或是程式設計師,往往會被認定是在程式寫作或是網路操作有一定專長的人就可以做好的職業,只不過這是在「產品」單純只是個產品的傳統觀念下,是可以運作的。但慢慢的當產品不再只是單純的產品,而是要整合成「服務」、或是一個生態鏈、又或者變成一種社群時,如何「經營」已經是這類產品必備的加值服務。倘若這個服務躍升成該產品的「核心」時,單單只靠一個程式設計師或網路工程師,已經無法面對這種挑戰與轉變。
無論是「資料探勘」或是「大數據」,光是如何處理資料並讓資料變得有意義這一件事,就不是一般程式設計師或網路工程師的技能點能夠處裡;除了必要的電腦與程式設計技能,還需具備數學與統計的相關能力,並且無論是應用範圍或是操作、開發,都要對資料的本質、領域有一定概念的認知。
最早期的概念大概是像這樣:
上圖中的實際經驗,說的是是否具備該領域的知識,因為無論是要用甚麼樣的分析方式,或是要怎樣搜集資料、整理資料,這些都需要對其資料源有一定的理解,不然做出來的內容可能會離實際狀況很遠。
不過還是有一種傳統研究,指的是沒有 Hacking Skill 大量資料搜集與分析的實作能力,也就是沒有系統開發的概念時,就得像傳統研究那樣,需要仰賴分析者的實際經驗了。事實上,當沒有對資料搜集清理有足夠脈絡時,就會發生類似上圖「危險領域」的狀況,因此資料科學家/工程師真的需要具備「這三方面」的能力。
另一個角度是比較偏商業思維,當然這是以商業產品為導向時,而強調的跨領域性。儘管有時更需要的是更貼貼近這項商品的背景知識,包含設計或更切近人類行為的消費說不定更好一些,但也是要看用在什麼領域。
當用不同的定義來看所謂的實作與 Hacking Skill 時,我認為利用工具或透過操作就足以應付「資料」,只不過當碰到大量資料流時容易出現「誤區」,尤其是當有人為介入或主觀因素時,更容易造成資料偏差;上面這張圖就是以商業邏輯角度來切入。
但無論文中那張圖,我要強調的是,若想成為一個好的資料科學家,不只是要多領域、跨領域、混領域,甚至是要「超領域」,畢竟現在市場上的任何產品、服務都跟社會、使用者越來越緊密,甚至有些產品的本身就是「使用者/社群/社會」,所以如果不去了解這個社會,是很難做出好的產品。而一個好的工程師就要具備這樣的能力。
而我在 2014 年也在鐵人賽寫了一系列的文章,來講資料工程師所須要的 28 門課,現在看起來只會更多不會更少。
瀏覽 1,287 次