速記AI課程-統計與資料分析(二)

高智敏
7 min readFeb 4, 2018

--

參數估計與假設檢定

用餐交流區的產業氣球

聽說是堂講了太多數學式而被客訴的課,內容真的非常多數學跟符號,非本科系如我確實很吃力。不過,如果沒有這些代數,還真的不知道要如何把這樣的概念一般化/抽象化。看來,只能努力提升自己的實力了!

前面講了統計基本概念,也知道可以透過樣本的機率分布,來推測觀察現象的本質(重要參數)。因此,利用樣本統計量(如平均),來猜測母體重要參數,即為所謂的參數估計(Parameter Estimation)。比如說,我想知道全台灣男性的平均體重(母體參數),但實務上不可能得知,因此抽樣了100位男性,計算其各種統計量,試圖推論全台灣男性的平均體重。下圖非常清楚描述了這樣的概念。

很清楚的參數估計圖示(From Jacob Montgomery

要進行參數估計,有兩大類的方法。一種是直接猜母體參數是多少(學名為點估計),另一種是猜母體參數介於哪個區間(區間估計)。

點估計的方式有很多,要成為好的點估計方法必須符合不偏(Unbiasedness)、有效性(Efficiency)與一致性(Consistency)。吳介紹了其中一種點估計方法-最大概似估計法(Maximum Likelihood Estimation,簡稱MLE)。

繼續剛剛全台灣男性體重的例子。假設全台灣男性體重是常態分配,但我們不知道平均是多少公斤,而透過我們抽樣的100位男性之體重(分布如下圖紅點),我們可以找到一個最接近、最配適(也就是最可能、最概似)的某個常態分配,而這個常態分配之平均就是我們的MLE估計值。假設這100位男性體重都不超過55公斤,那麼母體平均是70公斤的可能性(Likelihood)是非常低的!(除了你是奶油桂花手)

MLE圖像解釋(From Joshua

而區間估計則是在一信賴水準(Confidence Level)下,估計母體參數會落哪哪個區間。以台灣男性體重為例,我可以說在95%的信賴水準之下,平均體重會介於51公斤至52公斤。那麼,什麼是信賴水準,又為什麼我可以說平均體重是介於51至52公斤呢?

信賴水準95%,表示進行100次抽樣,並計算100 次信賴區間,該區間會包含母體參數95 次(外星語again)。以下圖為例,假設台灣全體男性平均體重為50公斤,而我們每次抽樣台灣男性10位,計算體重信賴區間(95%信心水準),並畫成下圖的一條線,該線(區間)若包含50公斤,則為橘色,若不包含則為紅色。就這樣進行300次,那麼其中有287次為橘色,機率約95%(次數約多應該越接近95%),這就是信賴水準。

決定了信賴水準,就可以計算信賴區間了。會影響信賴區間大小的因素包含了樣本平均、樣本大小、樣本變異數與信賴水準,透過這幾個參數就可以算出區間了。詳細計算則可透過類似這樣的網頁工具來了解。

沒圖沒真相(From Online Statistics Education

另一種區間估計法則是貝葉斯推斷( Bayesian inference)。我個人認為以下由Jimmy Lin翻譯之文章 「貝葉斯推斷的運作原理 」已經非常清楚且易懂,不敢掠美,謹附上連結。

接下來介紹假設檢定(Hypothesis Testing)。舉例來說,我們想知道美國麻州的加油站汽油平均售價是否為每加侖2.5元,因此隨機抽樣了20家加油站,結果平均每加侖是2.2元。那麼,這30%的差異,只是因為抽樣的偏誤,還是其實母體平均(麻州所有加油站)根本不是2.5元?

這時候假設檢定就派上用場。首先我們把想要檢驗其正確性的設為虛無假設(Null hypothesis,簡為 H0),也就是麻州汽油均價2.5。相對於虛無假設者即為對立假設(Alternative hypothesis,簡為H1),此例為麻州汽油均價大於、小於或不等於2.5。

而假設檢定有可能犯下兩種錯誤,一是型一錯誤(Type I error,又稱偽陽性),表示拒絕了真的虛無假設,二是型二錯誤(Type II error,又稱偽陰性),表示支持了錯誤的虛無假設。以下圖為例,若虛無假設為未懷孕,左邊誤判男性懷孕(拒絕相信這位很Man的男生沒懷孕…)為Type I,右邊誤判孕婦未懷孕(支持這位大腹便便的女性只是水腫而不是懷孕…)則為Type II。其中型一錯誤的機率又稱為 α,又稱為顯著水準(Significance level),可想成是容忍犯錯的空間。

圖跟文字配合得非常好(From https://effectsizefaq.com/

有了假設,以及容許犯錯的空間,接下來就可以決定採用何種檢定統計量(Test Statistics),來決定要不要接受虛無假設。不同情況下,該採用何種檢定統計量可參看下表。如假設麻州加油站之汽油售價是常態分配,但不知道其標準差,那麼我們就應該採用第二種t檢定統計量(符合自由度為n-1之t分配)。其他常見的檢定統計量還包含Z、F與卡方。

背後有很多數學證明…(From Six Sigma Material

而決定要不要接受虛無檢定之方法有兩種,拒絕域法(Rejection Region Approach,又稱Classical Approach)與p值法。拒絕域法是先計算出拒絕區域(如汽油均價大於2.4元),然後檢驗檢定統計量是否落入這個區域,若是則拒絕虛無假設,反之則接受。 接受域與拒絕域的接點,稱為臨界點( Critical Point)。

清楚的拒絕域法圖示(From Mr. Opengate

比較常用的是p值法。假設虛無假設為真,觀察到檢定統計量比取樣得到的值更為極端的機率即為p(火星文再現)。以麻州汽油均價為例,p值是指假設母體均價為2.5,那我們抽樣之平均大於2.2的機率是多少。當機率(p值)越低,表示我們越有信心可以拒絕虛無假設。

Yen-Chi Chen說得非常好,p值是一種無單位的通用指標,讓我們在各種不同資料的檢定中,只要比較p值與α之間的關係就好。

--

--