哈!原來是統計的魔術 - 小馬哥的家 - udn部落格
小馬哥的家
作家:馬哥 問候您
文章分類
    Top
    哈!原來是統計的魔術
    2021/07/20 12:15:16
    瀏覽:3039
    迴響:3
    推薦:81
    引用0

    很久很久以前,還在念大學的時候,看了一本薄薄的小書,書名叫作「統計的魔術」。

    書中所述,並不是一位穿著黑色衣裝,在有著黑色背景的舞台上,拿著「統計」這種道具,幻化出一齣齣巧奪神工魔術戲碼的魔術師。而是說只要運用「統計數字」就能巧妙的傳達主事者想要表達的意境。這些「統計數字」是百分之百真實的,卻能告訴讀者一些完全不同、近乎虛幻的解答。

    就以最常見且普遍被理解的「平均數」和「中位數」來說好了。

    幾年前有一個例子,官員表示國人平均薪資四萬八千元。嚴格來說,這個數字並沒有錯,錯就錯在這個數字沒有加入中位數和整體所得分配型態說明。怎麼說呢?先來看看平均數和中位數代表的意義好了。

    此處以簡單易懂、使用最多的「算術平均數」為例。算術平均數的定義就是將母體中全部數值相加,求出總和,再除以這個母體中總個體數得出的平均值。從這個定義不難想像,如果群體中有極端值,不管是最高值或最低值,都會對平均數造成扭曲。

    中位數」,顧名思義,就是將一組資料從小到大排序後,最中間的數。但一般為了便於說明,對於數量龐大的資料都會加以分組,所以中位數也就是位置居中的那一組數字。它代表的意思是將所觀測到的資料分成相等個數的兩部分,一半個體數的值比中位數小、另一半個體數的值比中位數大。

    好了,了解了這兩個常見的統計數字,咱們仍用官員說的國人平均薪資來看看數字是怎麼變魔數吧!在變魔術之前,先看看兩張分配圖,一是典型的常態分配圖,二是民國105年可支配所得與人數折線圖。

    常態分配是最均勻的分布,分配圖型是一個鐘型,也就是說在這種分配之下,平均數和中位數都位在鐘型中間最高點上。但一般數列不可能如此均勻,真實的分配圖型比較可能是左偏或右偏的非常態分配。

    再來看看「105年可支配所得與人數折線圖」。從圖型分布很容易發現明顯左偏,左偏是因為所得為13.3k的極端值人數太多,又有大約63%的人民所得低於平均數43.3k,加上受到只有少數5%的國民所得超過100k(其中超過200k的人數更大約只有8萬人左右)的牽引,使得平均數拉高。這時候如果說我國平均月所得為43.3k,看起來好看,但卻不能表達真實情形。

    接著我們把中位數加進來說明,當年我國所得中位數是33.3k(比平均數少了10k),表示有一半的人口所得低於此,有四分之一的人口所得低於25k、有近150萬的人口數所得低於20k呢!

    看來,中位數比較能反映真相,平均數則魔術般的美化了結論。

    卻也未必。來看看網路上的兩副漫畫吧!原來不追究真相的結果,中位數也和平均數一樣會騙人呢!

    有趣吧!

    再來看看最近沸沸揚揚的覆蓋率吧!

    已注射第一疫苗覆蓋率[i]

    = 已注射第一疫苗人數 / 台灣人口總數

    = 4,242,075 / 23,487,509

    = 18.06 %

    疫苗劑次人口比:

    = (已注射第一疫苗人數 + 已注射第二劑人數[ii])/台灣人口總數

    = (4,242,075 + 95,197) / 23,487,509

    = 18.47 %

    現有疫苗覆蓋率:

    = 現有疫苗數 / 台灣人口總數

    = 8,897,200 / 23,487,509

    = 37.88 %

        好了,這三個比例比較接近平均數的概念。如果您是魔術師,你會選那一個呢?

        難怪馬克吐溫要引述英國前首相Disraeli的話:「謊言有三種,謊言、該死的謊言,以及統計數字」。

        如果沒能了解數字背後的真實意義,就算「真實」的「統計數字」也能讓人掉入虛幻的美麗陷阱。


    [i] 註:已注射第一劑、第二劑疫苗人數:衛福部110年7月14日資料

    現有疫苗數:110年7月15日奇摩新聞。參:https://tw.news.yahoo.com/187%E8%90%AC%E5%8A%91%E7%96%AB%E8%8B%97-%E5%82%B3%E4%BB%8A%E6%97%A5%E6%8A%B5%E5%8F%B0-221516049.html

    台灣人口總數:主計總處110年6月我國戶口統計速報料

    [ii] 註:劑次人口比代表的意義是分子的人數中「已注射第二劑人數」與部分第一劑人數重疊。 

    回應
    全站分類:心情隨筆 心情日記
    自訂分類:只因為曾經走過
    上一則: 曬書
    下一則: 當民主殿堂成了貴婦百貨
    你可能會有興趣的文章:
    迴響(3) :
    3樓. 城市小農
    2021/07/30 16:24
    當統計開始玩魔術
    就是要我們認真思考,探究真相的時候。
    2樓. 愛馬
    2021/07/21 10:10

    知識就是力量,沒有知識就無法判斷好壞與真假。

    然後到了選舉的時候,造勢大隊唬弄一下票就來了!

     

    謝謝指教。如果不了解真相,誠如那本小書「統計的魔術」說的。數據是會變魔術的,一定得看清數據背後的真義才行啊! 馬哥 問候您2021/07/21 12:26回覆
    1樓. 【無★言】雲遊到世界的另一端
    2021/07/21 07:54

    現有疫苗數 / 台灣人口總數

    這是連倉庫中的疫苗,尚未施打的,也計算在內嗎?這有何意義?

    本來就沒有意義,但是當想要告訴人民準備了「足夠」 的疫苗。這比率就能唬人了。第二個數據不也是如此嗎?第二劑施打人數和第一劑人數重複計算,但比率變高了。

    所以這篇文章只是想告訴讀者,要了解數據背後代表的真實意義,別被數據唬弄了。

    馬哥 問候您2021/07/21 12:23回覆
    發表迴響

    會員登入