速記AI課程-統計與資料分析(四)

高智敏
4 min readFeb 9, 2018

探索式資料分析與統計圖表

恐龍再現!(不同資料分佈,平均變異數相關係數等都相同)

拿到資料時,除了資料整理以外,最常被忽略的其實是探索式資料分析( Exploratory Data Analysis,簡稱EDA)。EDA是由有統計界畢卡索之稱的Tukey所提出,主要概念是透過敘述性統計、統計繪圖、視覺化等快速簡易的方式,從各種面向先了解資料的狀況,以利後續分析。

不過,因為EDA技術上並不難,故經常被一些資料科學家所輕視。這對我來說真的是一記警鐘,畢竟實務上我們這段都做得太少,都想趕快大展身手,用一些炫麗複雜的技巧找出洞見。殊不知洞見與分析技巧複雜度並非高度正相關,EDA不僅可以提早發現資料品質問題,找出重要變數,也可以替未來深入分析提供更明確的方向。正如同練武之人必先掃地、蹲馬步、提水桶爬樓梯,EDA也是我們必須熟練的基本功。

因此,我們看到很多分析案例,實際上並沒有用太厲害的技巧,會讓人產生如魔術揭密後,「原來不過是如此」之感。吳講了一個故事,哥倫布立蛋。哥倫布發現新大陸返回英國後,女王為他舉辦慶功宴。席宴上,許多大臣與名流看不起他,紛紛出言諷刺,不是說如果是我出海我也行,就是說只要朝一個方向前進就可以發現新大陸。於是哥倫布請大家玩一個小遊戲,把蛋立在桌上,但沒有人成功。哥倫布輕輕敲了一下雞蛋某一端,讓它可以立在桌上。其他人嚷嚷說拜託這也太簡單了吧!哥倫布則說,那你們為什麼之前沒想到呢?因此,在評論別人的分析案例時,如果心生也不過如此之感時,請想想哥倫布的蛋。

接著以杜河之魚的案例來說明EDA的概念,像是透過30個捕魚點觀測27個品種,上游磷酸鈣較少,因此魚較少等。不過因為跟生物不熟,所以比較無感。比較有感的是工程師David Robinson分析川普的推特。

簡單卻效果奇佳的EDA(From David Robinson

David懷疑川普的推特透過不同手機發表時,簡直判若兩人。Android手機習慣早上發文、習慣用雙引號、不常附圖片或連結、負面情緒較多,而iPhone則較常在下午或晚上發文、常附圖片或連結、情緒較正面。透過簡單的統計與視覺化分析,大概就能夠判定川普本人使用Android,而助理或團隊使用iPhone來發推特。

另外提到資料視覺化的一些重點。首先介紹安斯庫姆四重奏(Anscombe’s quartet),即如首圖的進化版恐龍,有四組基本統計特性(平均、變異數等)一致的數據,但繪製出的圖表卻截然不同,所以僅看統計量而不視覺化,會認為這四組數據非常接近。

接著是幾個常被誤用的視覺化案例。首先是文字雲,如果只是想單純表達文字出現的次數,直方圖會遠比文字雲來得好。再來是圖表若是立體,要考慮遠近對於大小的影響。最後,圓餅圖的各切塊加總要是100%。(福斯新聞加油好嗎…)

也是醉了…

常用的視覺化圖表包含Index Plot(尺度要一樣方能比較)、直方圖(Histogram)、延伸散佈圖(利用顏色或圈圈大小當第三個變數)。R提供了一些好用的套件,如3D模擬的RGL、heatmap、Complexheatmap等。

巨量資料的視覺化在Index Plot跟直方圖比較沒問題,但散佈圖會看不出意義。因此要先經過抽樣或摘要,方能進行。R的tableplot套件可以協助巨量資料的視覺化,下圖是5萬多顆鑽石的資料,一眼看穿。

最後謹以統計界畢卡索的名言,給EDA一個最佳註解:

對正確的問題有個近似的答案,勝過對錯的問題有精確的答案。

--

--

高智敏
高智敏

Written by 高智敏

商管 * 科技 | 顧問 + 稽核 | AI X Fraud | baubimedi@gmail.com

No responses yet