字體:小 中 大 | |
|
|
2023/07/23 20:00:00瀏覽795|回應0|推薦14 | |
你我皆賭徒,必要時人人都得賭一把,就算不賭也是一種賭。而機率統計,其實就是因賭而產生的學問。我們從擲銅板、撒骰子開始,延伸到吃角子老虎、輪盤,到投資股票以及選舉,每一局賭博結果,總可簡化為贏或輸。而二項分佈(binomial distribution),就是專門為「賭徒」估算出得勝機率的模型。它的參數就是一次成功的固定機率p(比方擲銅板就是0.5)和嘗試的次數n,而希望求得的答案,就是成功次數為k的機率P(X=k)。冷靜的賭徒,一旦將n,p,k這些參數代入,他心中就對達到預期目標的機會有個底。換句話說,二項分佈就是他預測成敗的模型,其重要性不言可喻。
但是當n變得很大的時候,二項分佈的計算會非常繁雜。為了簡化計算,我們往往會用常態分佈(normal distribution)的方式,逼近二項分佈的結果。除了計算起來方便,工具很多之外,我們還可以利用常態分佈所特有的信心區間(confidence interval)以及假設檢定(hypothesis test)來做更多的分析。各位還記得街頭民調的分析報告,總會説本結論以1000人做樣本,在95%的信心指數下,誤差3%,其實用的就是以常態分佈計算二項分佈的結果。
也許你會好奇,二項分佈和常態分佈是不一樣的東西,怎麼可以用常態分佈去估算二項分佈呢?這個原因的背後,其實是所謂的中央極限定理(central limit theorem)。這個定理告訴我們,無論樣本是何種分佈,衹要取樣的數目夠多,樣本的平均值將會形成常態分佈。在我們的例子裡,樣本取樣是二項分佈,但是衹要樣本的數目夠大,一般來說大於50,它的平均值將會形成常態分佈。我們想得到的,其實就是樣本平均值的分佈,所以可以用常態分佈來完成。我們這裡不談公式,但可以簡單的說,這個常態分佈的平均值μ,等於二項分佈的 np(μ= np),而常態分佈的標準差σ,則會等於 np(1-p)的平方根(σ = sqrt(np(1-p)))。
利用常態分佈去計算二項分佈,其實也是有一些限制的,首先就是母體(population)的平均值和標準差是有限值(finite);其次就是p不能太接近0或1,最好靠近0.5;再來就是np以及n(1-p)都大於或等於5;最後就是前面說過的,樣本大小(sample size)至少要50。在確定能夠做逼近之前,我們得先確認這些條件都能吻合,否則計算出來的數目並不可靠。
以上個人淺見,懇請指教。
|
|
( 創作|散文 ) |