統計分析與我何干 - 憐君解比人間夢許我時逃醉後禪

字體：小中大

統計分析與我何干

2023/03/29 20:00:00瀏覽312｜回應0｜推薦10

統計分析可以離我們很遠，也可以很近。如果你完全相信媒體報導，習慣道聼塗説，人生中不做任何判斷和決定，那麼可以完全忽視。

股市、確診、賭盤、品管、市佔，不管你喜不喜歡，我們都活在機率世界裡，而且隨時隨地都可能需要賭一把。換句話說，人人都是賭徒，而賭徒需要學的技術，除了作弊之外，應該就是統計分析。

也許你報名參加機器學習或深度學習的課程，希望能夠預測股票甚至未來，但你還是很討厭統計分析。你覺得把資料收集起來，扔到模型裡面，然後泡杯咖啡得到答案就行了，何必需要去拒絕虛無假設，或者求95%信賴區間呢。

如果麥當勞號稱他的市占是35%，你負責做市調，發現隨機抽取350名消費者中，有120人選擇麥當勞，請問你是拒絕還是接受這個市佔的假設？(本問題以及之後的問題，都假設顯著水準 α = 0.05)

如果某藥廠號稱他的Covid-19新藥具有50%以上的治癒率，作為檢定人員，你隨機抽取了用者30人，發現有12人痊癒。他的聲稱是否有效？

你是個戶口普查員，5年以前某個社區有20%的家庭屬於貧困。現在你又對同一社區調查。隨機抽取400戶為樣本，結果發現70戶為貧戶。請問這個社區貧戶比率是否和5年前一樣？

這三個題目都是要去檢定母體(真實情況)比例。用簡單的求平均數，你可以直覺上否定這三個假設。但是從統計學的角度來看，這三個假設都無法拒絕，祇有接受。

聽起來很荒謬是嗎？其實一點也不，因為別忘了，你蒐集到的數字衹是樣本，而樣本值是隨機變數，不能看成一個固定數值，也就是不能只用樣本比例就去判斷母體比例。

由樣本比例去推斷母體比例，也就是真實狀況，統計學家用二項分佈去計算平均值和標準差，然後用常態分佈的假設，去判斷統計值是否落在臨界值之內或之外。

以麥當勞的例子來說，樣本比例是 p = 120/350 = 0.3428, 不等於0.35。我們忽略運算過程，最後算出的統計值 z= -0.274，落在臨界值±1.96區間之內，所以無法否定市占35%的假設。

其他的題目做法完全一樣，統計告訴我們，雖然直覺上是有差距，但是從統計角度看是沒有的。

要解決以上的問題，我們得學會「二項分佈」的平均值與標準差，以及用「常態分佈(z-分佈)」估算母體的比例的方法。

除了估算母體平均值之外，品管員也經常會需要估算母體的變異數，為的就是要瞭解生產過程當中的產品穩定度。這時我們會需要用「卡方分配」來計算結果。

包裝奶粉的企業品管部門，衹要包裝奶粉容量的變異數超過120，品管部門就要下令停止包裝，檢修包裝奶粉機器。現在品管隨機抽取30包奶粉，計算出變異數是132，(顯著水準α = 0.05)，此時要不要停止生產呢？

直覺上當然要(132 > 120)。但是在自由度(df)等於29(=30-1)的情況下，我們計算出卡方統計值等於29x132/120 = 31.9，而查表得知臨界值等於42.56，大於統計值31.9。我們無法拒絕變異數等於120的虛無假設，機器不需要停下來。

同樣道理，在生產管理過程當中，某工廠所生產出Oring，它號稱直徑是標準差不得超過0.007公分，現在取28個Oring，結果發現標準差是0.0086公分，那麼在顯著水準α =0.05的前提下，工廠的宣稱是否值得採信？

直覺上是有問題，0.0086>0.007。這卡方統計值等於40.75。而自由度等於27(=28-1)的卡方臨界值應該是40.11，統計上也認為剛剛好超過。也就是拒絕虛無假設，工廠的宣稱不值得採信。

所以無論是是市場調查人員或者是品管人員，統計分析知識是不可缺的。上回在下寫的一篇關於「一次快篩陽性是否確診」的文章，也說明統計知識在生活上也不可或缺。

不會統計可以學機器學習嗎？應該還是可以的，衹是有統計基礎，可以學得更扎實。統計是用樣本去推斷母體，而機器學習，其實也是用訓練集去預測測試集。預測母體(實情)本來就是我們的目的，統計比較傾向於用數學方法去做假設檢定，步驟嚴謹；而機器學習的演算法相當多元，直接就去做迴歸、分類、分群的動作，量測方法也有不少。在機器學習中其實也用了不少的統計知識，比方貝氏定理、混淆矩陣、最大似然，相關係數等等。

( 知識學習｜科學百科 )