用「改變點」及「紀錄」探討台北暖冬的異常現象 - 林澤民的部落格

字體：小中大

用「改變點」及「紀錄」探討台北暖冬的異常現象

2021/01/29 06:01:45瀏覽2029｜回應0｜推薦3

(Phote Credit: 林澤民)

台灣這幾天比較冷，但暖冬仍然是全球暖化過程中一個明顯的趨勢。一般以為全球暖化始於19世紀末葉先進國家積極工業化的時候，但世界各地工業化的進程不同，暖化的趨勢也會有所差異。當工業化在全球範圍內日益普及，各地暖化趨勢便益見明顯，但還要等到20世紀下半葉這趨勢才明顯到引起各國的注意。

在美國，一直要到1988年氣候變化才正式成為官方關切的議題。這一年的6月23日，NASA太空研究所（GISS）主任James E. Hansen在參議院能源及自然資源委員會作證指出：「全球暖化的程度已經顯著到讓我們確信溫室效應與暖化趨勢具有因果關係。依我的意見，我們已經偵測出了溫室效應，而且這效應正在影響我們的氣候。」

以筆者居住的德州奧斯汀市而言，氣溫紀錄始於19世紀末期。我用統計學「改變點」（change point）的方法分析每年最高溫及最低溫的時間序列，檢測出年低溫最顯著的改變點在Hansen作證之後3年的1991年，而年高溫的改變點還要更後，在1998年。這與筆者個人體驗大致相符。

一、台北氣溫變化趨勢的改變點

「改變點」的檢測是時間序列分析的統計方法，它用來判定時間序列的資料產生過程是否有不連續點的存在。它在1930年代就曾被產業界用來監控產品的製造過程，其後經過數學家的深入研究，在近20年來蓬勃發展，廣泛被應用於環保、疫情、醫療、軍事、反恐等各領域。筆者個人就曾用類似的研究方法發現美國歷史上，選民的投票行為在二十世紀20-30年代之間曾經發生過質性的變化。去年五月，頂級學術期刊Science也有研究論文檢測新冠肺炎在德國傳播趨勢的改變點，肯定了政府干預措施的有效性。CBS電視影集【數字】（Numb3rs）甚至有一集演出「夢幻棒球」玩家用改變點方法檢測大聯盟球員使用禁藥提高打擊率的故事。

台灣的氣溫紀錄也始於19世紀末。根據Jasmine Kuo提供的台北市年低溫歷史資料，台北市每年最低溫的改變點在1975年，而年高溫的改變點則要到2001年。台北市年低溫的改變比奧斯汀要早，這也許跟地形、地理位置、人口、以及工業化程度有關。

理論上，年高溫及年低溫都不是常態分布，而是呈現所謂極端值分布（extreme value distribution）。圖一及圖二以上述改變點為斷點，分別估計年高溫及年低溫在各自改變點前、後的極端值分布。這兩張圖讓我們清楚看出改變點前後的明顯差異：改變點之後，年高溫及年低溫的分布均明顯往高溫方向移動。年高溫在2001之後的平均值增加了攝氏1.44度，而年低溫在1975之後的平均值則更誇張地增加了將近兩倍的2.81度!

時間序列資料產生過程的變化除了可以用改變點的統計方法來檢測斷點以外，也可以用「紀錄」（record）發生的機率理論來分析異常現象。事實上，事件發生頻率的改變也是改變點研究的數學方法之一。本文以下即以紀錄理論進一步探討台北市年低溫在1975年之後新紀錄節節升高的現象。

二、破紀錄次數的機率分布

台北市1897-2020年低溫時間序列顯示，1897年台北市的最低溫是攝氏5度。以此為資料中的第一個紀錄，124年來，有9個新的紀錄出現，分別是：1899（7.2度），1905（7.6度），1909（8.1度），1912（8.2度），1976（8.5度），1983（9.3度），1988（10度），2017（10.4度），2019（11.6度）。見圖三時間序列中的黑點。

124年間有10個紀錄是正常現象嗎？這個問題，可以用機率理論做精確的回答。

機率理論對「記錄」的研究有很完整的系統。其數學繁複，但相當有趣，有興趣的讀者可以找相關書籍來看，例如 Jiri Andel（2001）的Mathematics of Chance。

這個理論從一個前提出發：觀察序列中的資料是遵循相同機率分布而且相互獨立（iid）的隨機變數。在這個假設之下，我們可以導出在n個資料點中有r個紀錄（包括第一個資料點）的機率分布。這個前提可以說是「正常」狀況的「虛無假設」：它代表觀察序列中資料的產生過程完全相同，沒有任何異常現象或動態趨勢。如果我們的經驗資料與這個假設之下的機率分布不相諧，根據傳統次數主義（frequentist）統計推論的方法，我們可以在一定的統計水平之下拒絕虛無假設而判定異常現象的存在。

以台北市年低溫的歷史資料來說，我們可以算出在n=124個觀察值的序列資料中出現r （r=1，2，3，…，124）個紀錄的機率分布，然後從這分布算出r大於或等於10的右尾機率。如果這個機率小於相約成俗的顯著水平0.05，我們判定歷史資料與虛無假設不相諧，從而排除台北市年低溫變遷沒有異常現象的前提。依照傳統統計推論，我們可以做出台北市年低溫變遷有異常現象的結論。

以Rn代表在iid假設之下，n=124個序列資料中有r個紀錄的隨機變數，圖四便是Rn=r的機率分布。從這個機率分布我們可以算得Rn的期望值是E(Rn)=5.40，變異量是Var(Rn)=3.76，也很容易直接算得右尾機率P(Rn≥10)=0.025。因為這個機率小於0.05，單尾檢定讓我們得到台北市年低溫屢破歷史上限紀錄是異常現象的結論。（如果一定要用雙尾檢定，這個結論就有點勉強。）

Rn的機率分布並不容易算，有一個遞歸公式，當n較大時，需要很大的計算能量或很久的時間才算得出。要迅速算出，必須用到所謂「第一類史特靈數」（Stirling Numbers of the First Kind）。如果你的軟體沒有這個函數，可以利用這兩個很漂亮的公式來算Rn的期望值和變異量:

利用這兩個公式也可算出當n=124時，E(Rn)=5.40，Var(Rn)=3.76。如果我們假設Rn的分布是常態分佈，則可以輕易算出以以期望值為中心的95%信心區間為（1.49，8.88）。因為經驗值10個紀錄在信心區間之外，這個分析也支持台北市年低溫變化異常的結論。不過因為Rn的分布並非常態，這個分析並不精確。

三、新紀錄的等待時間

應用紀錄之機率理來分析台北市氣溫變化也可以看出1975年前後是一個轉捩點。

在1897年之後的9個新紀錄當中，出現在1975年之後短短45年之間的就有5個，平均每9年就有一個新紀錄。而在1976年前的80年中，則平均要將近16年才有新的紀錄。事實上，1912年的紀錄保持了64年才被打破。

也許你會說1897-1912，在短短16年之間不是就有4個新紀錄嗎？然而新紀錄的頻率在紀錄開始之時本來就會比較頻繁，日久後要破紀錄會越來越難。紀錄的機率理論可以算在一定時間之內舊紀錄會被打破的機率，其公式如下:

這公式所求的是在第r-1個紀錄發生之後，下一個紀錄的等待時間小於或等於m之機率。表一之第六行顯示：從第一個紀錄發生在1897年開始，第二個紀錄等待了兩年就發生了，按照上式，第二個紀錄在2年之內發生的機率為0.67。第二個紀錄發生在1899年之後，第三個紀錄等待了6年發生，而其在6年之內發生的機率也是0.67。第三個紀錄發生在1905年之後，第四個紀錄要等待13年才發生，而其在13年之內發生的機率是0.31。依此類推。這些機率都不小，雖然紀錄頻頻被打破，並不令人意外。尤其是第五個紀錄發生在1912年之後，第六個紀錄要等64年才在1976年發生，因為等了夠久了，其在這一段期間發生的機率是很高的（0.80）。

但從1976年以後，這個等到下一個紀錄的機率就急遽下降了。第七個紀錄在7年內發生，其機率是0.08；第八個紀錄在5年內發生，其機率是0.08；第九個紀錄等了29年，其機率稍大，但它發生之後，第十個紀錄只等了2年就發生，其機率小於0.03。這樣的小機率事件發生了，如果還說氣候沒有異常，在統計學理上是無法接受的。如果我們換一個角度來看，把1976年當作氣候質變之後的第一個紀錄，則其後發生在1983、1988、2017的新紀錄其等待時間的機率（0.88，0.38，0.69）都不小，不算奇怪。只有2019的紀錄還在0.05的水平之內，不過這也可以說氣候變化越來越厲害了。

從新紀錄的等待時間來探討氣候變遷還可以看看新紀錄發生的平均時間。不過很奇妙的是：機率理論告訴我們，新紀錄雖然一定會發生（發生的機率為1），其發生時間的期望值或理論平均數卻是無窮大，即使第二個紀錄也是一樣。以第二個紀錄為例，其發生時間為2，3，4，…，t，…年的機率分別為1/2，1/6，1/12，… 1/t(t-1)，…，所以期望值為 1+1/2+1/3+…+1/(t-1)+…。這是有名的無窮和諧數列，它不是收斂數列，其和無窮大。其它的紀錄也是一樣。

不過我們雖然不能算發生時間的期望值，卻能算中位數，也就是發生機率最接近1/2的時間點。表一的第七行列出各紀錄發生時間的中位點。我們可以看到，一直到1976年的第六個紀錄為止，中位時間點都還算合理。此後，第七個紀錄的中位發生點要在1897年算起的第424年，第七個紀錄在第1166年，第九個紀錄在第3200年，第十個紀錄在第8717年。這些紀錄的中位發生時間在這麼久遠之後，如果說沒有氣候變化，誰能相信？

四、餘論

附帶一提，1897-2020之間台北市年低溫往下探的紀錄，包括1897年的第一個紀錄，124年之間只有三個：1897（5度），1898（3.3度），1902（-0.2度）。從1902年以來，118年之中，-0.2度的紀錄沒有被突破！（不過P(Rn≤3)=0.162並不足以作為氣溫變化異常的統計證據。）

( 知識學習｜科學百科 )