看電影學統計：「多重宇宙」與統計學「隨機變異」的概念 - 林澤民的部落格

字體：小中大

看電影學統計：「多重宇宙」與統計學「隨機變異」的概念

2023/03/13 20:57:52瀏覽3050｜回應0｜推薦1

「多重宇宙」是我教統計時常用到的名詞，我用它來解釋隨機變異（stochastic variation）的概念：例如民調抽得一個樣本，此樣本的受訪者固然是一群特定人士，但理論上我們可以抽出許多許多樣本，這些樣本之間雖然會有隨機變異，但樣本彼此的宏觀性質仍會相近。這些不同的隨機樣本，可以以「多重宇宙」一詞來形容。即使事實上只有一個樣本（一個宇宙），我們可以想像在多重宇宙的每個宇宙裡，都有一個微觀上隨機變異的樣本存在。

其實，數理統計學中「隨機樣本」（random sample）的概念指的是「一組獨立且同一分布的隨機變數」（a set of independently and identically distributed random variables）。在這個定義之下，樣本的每一個單位（資料點）都不是固定不變的數值，而是一個依循某機率分布的隨機變數。「隨機樣本」的要求是樣本所有的Ｎ個單位不但要互相獨立，而且要依循同一的機率分布。我們可以想像我們平常所謂「一個樣本」的Ｎ個觀察值，每一個觀察值背後都有一個產生這個數值的隨機變數，也可以說所謂「一個樣本」其實只是這「一組獨立且同一分布的隨機變數」的一個「實現」（realization）。那麼，不同的樣本就是這「一組獨立且同一分布的隨機變數」的不同「實現」。這樣了解之下的不同樣本、不同「實現」，我喜歡把它們稱為「多重宇宙」。

多重宇宙中的隨機變異，是我們在分析一個樣本的資料時必須作統計推論的原因。

比如我們分析本屆所有113位立委的議事行為，既然立委一共只有113人，我們分析的對象不就是立委的母體嗎？那是不是就不必做統計推論？不是！原因是我們仍然可以想像有多重宇宙存在，每個宇宙都有113位立委，而同一位立委在不同的宇宙裡其議事行為會有隨機變異。正是因為這隨機變異的緣故，我們即使分析的是所謂「母體」，我們仍然要做統計推論。

「多重宇宙」的概念可以說就是「假如我們可以重來」的反事實思想實驗。被分析的單位不是在時間中重來一次，而是在多重宇宙的空間中展現「假如我們可以重來」的隨機變異的可能性。

名為Monday的這集X檔案電視劇中，主角的夢境不斷重複，每次夢境的結構大致類似，但細節卻有所不同，這正是「多重宇宙—隨機變異」概念的戲劇化。

【媽的多重宇宙】（Everything Everywhere All at Once）也是。

「看，這是你的宇宙，一個漂浮在存在宇宙泡沫中的泡泡。周圍的每個氣泡都有細微的變化。但你離你的宇宙越遠，差異就越大。」——【媽的多重宇宙】對白

這是說：變異程度越小的是離你越近的宇宙，程度越大的是離你越遠的宇宙。這裡所謂變異的程度，在統計學裡可以用誤差機率分布的標準差來衡量。

關於「隨機變異」這個概念，我最喜歡的例子是研究所入學申請的評審。

例如有120人申請入學，我詳細閱讀每人投遞的申請資料（包括性別、年齡等個人特質還有SOP、大學成績單、GRE分數、推薦信等），然後打一個Y=0-100的分數。全部評閱完畢，我便得到一份N=120的資料。這個資料包括了所有的申請者，那麼它是樣本呢？還是母體？

如果我要分析我自己評分的決定因素，我會把分數Y回歸到性別、年齡等個人特質以及資料中可以量化的變數，例如大學成績平均分數（GPA）和GRE分數。跑這個迴歸時，需不需要做統計推論，看迴歸係數是不是有統計的顯著性？

我的看法是這份N=120的資料是樣本而不是母體，做迴歸分析當然要做統計推論。

那麼我資料的母體是什麼？

迴歸分析資料的母體其實是所謂「母體迴歸函數」（population regression function），也就是通常所說的「資料產生過程」（data generating process, DGP）。這個DGP就是我在評閱每份資料時腦海中的思考機制，它考量了許多量化和質化的變數，賦予不同的權重，然後加總起來產生Y。

量化變數的權重就是母體迴歸函數的係數，質化變數則是母體迴歸函數的係數的誤差項。如果有很多質化變數攏總納入誤差項，我們通常可以根據中央極限定理，假設誤差項是呈現常態分布的隨機變數。這個誤差項就是「隨機變異」的來源。

評審入學申請，我通常只把所有資料評閱一次。這一次評審結果，會有幾家歡樂幾家愁，這便構成了一個「宇宙」。如果我第二天又把所有120份資料重新評分一遍，得到第二個樣本。因為我腦中的「資料產生過程」包括隨機變數，這個新樣本保證跟第一個樣本會有差異。用白話說：我的評分機制不精確，我自己甚至不知道我給每個量化變數多少權重，而且第二次評閱所用的權重也會跟第一次不盡相同，更不用說質化變數如何影響我的評分了。

這第二個樣本，申請者的排比不會跟第一個樣本一樣，雖然也是幾家歡樂幾家愁，歡樂與愁悶的人也可能不一樣。這是第二個宇宙。依此類推，我們可以想像同樣的120位申請者，因為我「資料產生過程」的隨機變異，活在多重宇宙裡。

這些宇宙有的差異不大，根據【媽的多重宇宙】的說法，它們的泡泡互相之間的距離就較近，差異較大的宇宙，距離就較遠。如果申請者可以像電影所述那樣做宇宙跳躍，他們會看到自己在不同宇宙裡的命運。

我擔任德州大學政府系的研究部主任時，常耽心有申請者拿我們入學評審委員的評分資料去做迴歸分析。如果分析結果顯示種族、性別等變數有統計顯著性，說不定會被拿去控告我違反所謂「平權行動」（affirmative action）的相關法律。如果沒有顯著性，我就不耽心了。

多重宇宙之間會不會有「蝴蝶效應」？也就是宇宙跳躍時，隨機變異產生的微小差異，會不會造成新舊宇宙生命路徑的決然不同？在【媽的多重宇宙】中，伊芙琳只要當初做了一個不同的決定，以後的生命便可能跟現世（home universe）有很不一樣的命運。這在統計學也不是不可能。時間序列分析中，有些非線性模式只要初始值稍微改變，其後在時間中的路徑便會與原來的路徑發散開來。

你做時間序列分析時，會不會想想：時間序列資料究竟是樣本還是母體？如果你的研究興趣就只限於資料期間，那要不要做統計推論？當然要的，因為隨機變異的緣故。

如果你今年申請外國研究所不順利，也許在另一個宇宙裡，你不但獲名校錄取，得到鉅額獎學金，而且你的人生旅途將自此一路順遂，事業婚姻兩得意呢。

( ｜ )