網路城邦
上一篇 回創作列表 下一篇   字體:
甲和乙有相關嗎?
2015/10/16 22:42:56瀏覽253|回應0|推薦0

統計學上有一個公式是用來計算兩件事之間的相互關係(correlation)。

這個公式現在常被用在做大數據(Big Data)的分析。
它的理論是你可以用相關公式來計算相關係數。當甲和乙兩件事之間的相互關係越接近時,相關係數就越高。
舉例來說,肚子餓和上餐廳吃飯的相關係數就很高。
一個人因為肚子餓,就比較可能會上餐廳吃飯。這是很合理的判斷。

但是用相關公式在做大數據分析時,要小心避免下面的誤用:

1.   相互關係可能是單向的。

     以前例而言,一個人因為肚子餓,就比較可能會上餐廳吃飯。但是一個人上餐廳吃飯,  不見得是肚子餓。他(她)去可能是請客應酬。

2.    看似有關係可能沒關係

舉例來說,有人用大數據分析出來的結論是,當有很多車禍時, 賣傘的生意特別好,因為他們的相關係數很高。
如果你用數據來畫統計趨勢線,他們看起來走向很相近。
但是你相信嗎? 車禍和賣傘有何相關? 答案是沒有直接關係。

基本上用相關公式來分析時,還得考慮另外一個非統計因素,那就是因果(casuation)關係。就賣傘的例子來講,賣傘的生意特別好是因為下雨,而不是有很多車禍。賣傘和車禍之間並無因果關係。所以不能用相關公式來做分析。會造成這種錯誤的結論是因為錯誤的連想性:
以常理來判斷,下雨和賣傘生意的好壞有因果關係,下雨和車禍多少也有因果關係,所以結論變成是賣傘生意的好壞和車禍多少相關。從圖表來看,雨量和賣傘的數量趨勢線走向很相近,雨量和車禍次數趨勢線走向也很相近,當然賣傘的數量和車禍次數趨勢線走向也會很相近,才會産生這種「假相關」(spurious correlation) 結論。

所以用相互關係的公式來來做大數據分析時,如果相關係數高時,一定要把要因果關係也考慮進去才不會産生錯誤的結論。但是很不幸,因果關係沒有公式可以算,所以有時候要證明因果關係得舉很多例子來證明甲和乙有關。不過有人發明了一個新的公式說可以察覺「假相關」。但是我沒試過,不知道實際運用效果如何。上網查「spurious correlation detection 」就可以找到該論文。

P.S.: 中文在 www.worchid.com 打的。

( 知識學習商業管理 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=dmw1688&aid=33265563