<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	
	xmlns:georss="http://www.georss.org/georss"
	xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#"
	>

<channel>
	<title>資料驅動 &#8211; 科技島-掌握科技新聞、科技職場最新資訊</title>
	<atom:link href="https://www.technice.com.tw/tag/%e8%b3%87%e6%96%99%e9%a9%85%e5%8b%95/feed/" rel="self" type="application/rss+xml" />
	<link>https://www.technice.com.tw</link>
	<description>專注於科技新聞、科技職場、科技知識相關資訊，包含生成式AI、人工智慧、Web 3.0、區塊鏈、科技職缺百科、生物科技、軟體發展、雲端技術等豐富內容，適合熱衷科技及從事科技專業人事第一手資訊的平台。</description>
	<lastBuildDate>Thu, 15 Feb 2024 09:10:35 +0000</lastBuildDate>
	<language>zh-TW</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.4.2</generator>

<image>
	<url>https://www.technice.com.tw/wp-content/uploads/2022/12/cropped-wordpress_512x512-150x150.png</url>
	<title>資料驅動 &#8211; 科技島-掌握科技新聞、科技職場最新資訊</title>
	<link>https://www.technice.com.tw</link>
	<width>32</width>
	<height>32</height>
</image> 
<site xmlns="com-wordpress:feed-additions:1">223945996</site>	<item>
		<title>資料科學的思考流程 —「資料驅動」與「問題驅動」｜專家論點【維元】</title>
		<link>https://www.technice.com.tw/opinion/21438/</link>
					<comments>https://www.technice.com.tw/opinion/21438/#respond</comments>
		
		<dc:creator><![CDATA[維元]]></dc:creator>
		<pubDate>Wed, 05 Oct 2022 07:45:00 +0000</pubDate>
				<category><![CDATA[專家論點]]></category>
		<category><![CDATA[產業]]></category>
		<category><![CDATA[雲端]]></category>
		<category><![CDATA[問題驅動]]></category>
		<category><![CDATA[科技業]]></category>
		<category><![CDATA[維元]]></category>
		<category><![CDATA[資料科學]]></category>
		<category><![CDATA[資料驅動]]></category>
		<guid isPermaLink="false">https://www.technice.com.tw/?p=21438</guid>

					<description><![CDATA[<p><img width="1200" height="627" src="https://www.technice.com.tw/wp-content/uploads/2022/10/image-2-2.png" class="attachment-post-thumbnail size-post-thumbnail wp-post-image" alt="image 2 2" decoding="async" srcset="https://www.technice.com.tw/wp-content/uploads/2022/10/image-2-2.png 1200w, https://www.technice.com.tw/wp-content/uploads/2022/10/image-2-2-300x157.png 300w, https://www.technice.com.tw/wp-content/uploads/2022/10/image-2-2-1024x535.png 1024w, https://www.technice.com.tw/wp-content/uploads/2022/10/image-2-2-768x401.png 768w" sizes="(max-width: 1200px) 100vw, 1200px" title="資料科學的思考流程 —「資料驅動」與「問題驅動」｜專家論點【維元】 1"></p>
<p>資料科學的流程基本原則就是：「從資料開始，透過一連串的過程發現隱藏在資料中的規則，利用這些規則完成一些有趣的應用。」大致的流程可以分為「取得資料」、「資料前處理」、「資料轉換」、「資料分析」、「資料解釋」和「產生結果」 。<content><!-- wp:image {"id":21449,"sizeSlug":"large","linkDestination":"none"} --></p>
<figure class="wp-block-image size-large"><img src="https://www.technice.com.tw/wp-content/uploads/2022/10/image-2-2-1024x535.png" alt="" class="wp-image-21449"/><figcaption>圖片來源：freepik</figcaption></figure>
<p><!-- /wp:image --></p>
<p><!-- wp:paragraph --></p>
<p>資料科學的流程基本原則就是：<strong>「從資料開始，透過一連串的過程發現隱藏在資料中的規則，利用這些規則完成一些有趣的應用。」</strong>大致的流程可以分為「<code>取得資料</code>」、「<code>資料前處理」、「<code>資料轉換</code>」、「資料分析」、「資料解釋」和「產生結果」</code> 。 <br />不過這個看似單一的流程，其實是需要重複不斷的嘗試、一層一層探索，最終才得以找到真正具有價值的黃金。</p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:image {"align":"center","width":600,"sizeSlug":"large"} --></p>
<figure class="wp-block-image aligncenter size-large is-resized"><img src="https://imgur.com/XINZJjn.png" alt="" width="600"/></figure>
<p><!-- /wp:image --></p>
<p><!-- wp:list --></p>
<ul>
<li>取得資料：從原始資料到決定存放資料庫的過程，一般來說會涉及到資料獲取（data acquisition）、資料爬蟲（data crawler）、資料庫管理（data management）、資料倉儲（data warehouse）等等議題。</li>
<li>資料前處理：對從資料庫根據規格（API、SQL）取出的資料集，進行資料清理（data cleaning）處理資料中包含的雜訊或錯誤訊息，或是想使用到多個資料集也會在這邊進行整併。</li>
<li>資料分析：可以分為兩個階段，探索性分析（Exploratory Data Analysis）與資料探勘／機器學習（Data Mining/Machine Learning），可以把探索性分析視為是一種前期的觀察，在經由資料探勘進行近一步地挖掘。</li>
<li>資料解釋：通常會透過資料視覺化的方式及圖表方式呈現前述的結果，運用一些可能的原因進行解釋，然後把這一整套東西串起來。</li>
</ul>
<p><!-- /wp:list --></p>
<p><!-- wp:heading --></p>
<h2>資料驅動與問題驅動</h2>
<p><!-- /wp:heading --></p>
<p><!-- wp:image {"align":"center","width":500,"sizeSlug":"large"} --></p>
<figure class="wp-block-image aligncenter size-large is-resized"><img src="https://imgur.com/ZBRzzWz.png" alt="" width="500"/></figure>
<p><!-- /wp:image --></p>
<p><!-- wp:heading {"level":3} --></p>
<h3>問題驅動</h3>
<p><!-- /wp:heading --></p>
<p><!-- wp:paragraph --></p>
<p>過去，我們在科學課本上有學過一個問題的解決流程，稱為問題驅動（Problem Driven）。基本上是透過專業知識的假設，將問題限縮在比較小的範圍下去解題。<br />包含觀察 -> 假設 -> 實驗 -> 證明 -> 結論的思考步驟。</p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:heading {"level":3} --></p>
<h3>資料驅動</h3>
<p><!-- /wp:heading --></p>
<p><!-- wp:paragraph --></p>
<p>不過以資科科學會從另不同的觀點切入，其流程大概是這樣。<br />資料科學前期不仰賴專業介入，單純地從資料上著手。不過也是因為這樣，會使得解題範圍變得很大，也因此存在幾個問題。</p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:list --></p>
<ul>
<li>因為資料量過於龐大機器無法負荷，利用抽樣進行分析，可能會有抽樣誤差的問題出現。</li>
<li>一開始的資料集就有問題，造成 Garbage-in-Garbage-out 的現象。</li>
</ul>
<p><!-- /wp:list --></p>
<p><!-- wp:paragraph --></p>
<p>不過一切仰賴的計算機運算技術的進步以及巨量資料概念的興起，使得資料驅動再度受到矚目。</p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:heading --></p>
<h2>統計學、資料探勘、機器學習</h2>
<p><!-- /wp:heading --></p>
<p><!-- wp:paragraph --></p>
<p>一般說到資料分析，我們會聯想到統計學、資料探勘與機器學習，也可以從資料科學的流程中，看見他們扮演一個承先啟後的角色。<br />資料分析可以是很簡單的算術，也可以是很複雜的數學模型。那究竟這幾個主題有什麼異同呢？以及他們又討論些什麼呢？這是 SAS 關於資料科學的一張解釋，大概呈現了幾個常見議題間錯中複雜的關係。</p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:image {"align":"center","width":500} --></p>
<figure class="wp-block-image aligncenter is-resized"><img src="http://i.imgur.com/Vm5oIfj.png" alt="SAS institute: the universe of data science" width="500"/><figcaption><a href="https://www.analyticsvidhya.com/blog/2015/07/difference-machine-learning-statistical-modeling/">Difference between Machine Learning &amp; Statistical Modeling</a></figcaption></figure>
<p><!-- /wp:image --></p>
<p><!-- wp:paragraph --></p>
<p>資料探勘與機器學習是從資工及人工智慧中發展而來的領域，透過非規則的方法去學習資料分布的關係。統計模型是統計學中利用這種變量去描述與結果的關係。<br />本質上來說，他們做的事情是差不多的，也互有重疊。差別大概就是一開始想要達成的目的不同（一個是想從資料找出東西，一個是從資料中學習規則），不過現在的發展大至上沒有不同了，也算是一組不可分割的學科。</p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:paragraph --></p>
<p>統計方法用一個方程式去描述分類問題，將資料找出一個分割線將結果分成兩類。然而，從機器學習的方法找出來的是一圈一圈的等曲線，看起來似乎可以得到更廣泛的結果，而不只是簡單的分類問題。統計模型是基於嚴格的限制下去進行的，稱為假設檢定，這也是與機器學習方法上的不同。</p>
<p><!-- /wp:paragraph --></p>
<p><!-- wp:separator --></p>
<hr class="wp-block-separator has-alpha-channel-opacity"/>
<!-- /wp:separator --></p>
<p><!-- wp:paragraph --></p>
<p>嗨，我是維元，目前是一名資料科學與網頁開發的雙棲工程師。近期也擔任科技島社群的<a href="https://www.technice.com.tw/tag/%e7%b6%ad%e5%85%83/">駐站專家</a>，持續分享發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流，都可以追蹤資料科學家的工作日常&nbsp;<a href="https://pse.is/3cazqk" target="_blank" rel="noreferrer noopener">Facebook 粉專</a>&nbsp;或&nbsp;<a href="https://www.instagram.com/___dsdaily___/" target="_blank" rel="noreferrer noopener">Instagram 帳號</a>，也會不定時的舉辦分享活動，一起來玩玩吧！</p>
<p><!-- /wp:paragraph --></content></p>
<p>這篇文章 <a rel="nofollow" href="https://www.technice.com.tw/opinion/21438/">資料科學的思考流程 —「資料驅動」與「問題驅動」｜專家論點【維元】</a> 最早出現於 <a rel="nofollow" href="https://www.technice.com.tw">科技島-掌握科技新聞、科技職場最新資訊</a>。</p>
]]></description>
		
					<wfw:commentRss>https://www.technice.com.tw/opinion/21438/feed/</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">21438</post-id>	</item>
	</channel>
</rss>
