字體:小 中 大 | |
|
|
2015/10/16 22:42:56瀏覽253|回應0|推薦0 | |
統計學上有一個公式是用來計算兩件事之間的相互關係(correlation)。 這個公式現在常被用在做大數據(Big Data)的分析。 但是用相關公式在做大數據分析時,要小心避免下面的誤用: 1. 相互關係可能是單向的。以前例而言,一個人因為肚子餓,就比較可能會上餐廳吃飯。但是一個人上餐廳吃飯, 不見得是肚子餓。他(她)去可能是請客應酬。 2. 看似有關係可能沒關係舉例來說,有人用大數據分析出來的結論是,當有很多車禍時, 賣傘的生意特別好,因為他們的相關係數很高。 基本上用相關公式來分析時,還得考慮另外一個非統計因素,那就是因果(casuation)關係。就賣傘的例子來講,賣傘的生意特別好是因為下雨,而不是有很多車禍。賣傘和車禍之間並無因果關係。所以不能用相關公式來做分析。會造成這種錯誤的結論是因為錯誤的連想性: 所以用相互關係的公式來來做大數據分析時,如果相關係數高時,一定要把要因果關係也考慮進去才不會産生錯誤的結論。但是很不幸,因果關係沒有公式可以算,所以有時候要證明因果關係得舉很多例子來證明甲和乙有關。不過有人發明了一個新的公式說可以察覺「假相關」。但是我沒試過,不知道實際運用效果如何。上網查「spurious correlation detection 」就可以找到該論文。 P.S.: 中文在 www.worchid.com 打的。 |
|
( 知識學習|商業管理 ) |