字體:小 中 大 | |
|
|
2019/08/22 00:14:22瀏覽3505|回應0|推薦4 | |
這是本又厚又貴的書,七九折還要五百多哩。 傻蛋買書常常就是翻翻,看看眼緣,感覺對就買回來啃。 因為姿勢的關係,翻書大多翻完目錄,再翻翻中段吧。 這本書呢,中間幾章還不錯,不能說沒有收穫,但整體感覺則是一個坑。
這本書一開頭氣勢很強。 因果階梯有三層,作者認為他發明了超級數學工具,足以改變整個科學界。 現在的深度學習人工智慧,只在第一層而已,上限,也只是第一層。 整個主流的科學研究方法,統計分析流派,就只能到第一層,關聯囉。 第二層是介入。 定義是介入,這就和傳統的統計方法有所矛盾衝突。 介入,就是做假設與實驗,猜想可能的原因並嘗試介入,來驗證假設。 這個可以說更加複雜,需要自行建構假想的模型,並嘗試去深入研究。 這也可以算是一種主動觀察學習吧。 第三層叫反事實。 如果沒有怎樣,那又會怎樣,那樣的推理。 第二層是實際的實驗,第三層則可以跳過實際的實驗,直接用想像與推理來建構對現實的理解。 說得很像很厲害,但實際上有無應用價值,還得往下看才知道。
接著是痛批現在的統計分析學派。 這個學派為了追求所謂的客觀,拒絕任何的主觀,也拒絕所謂的因果推論。 這是作者這個學派想打擊的點。 堅定的傳統統計學認為,世上沒有因果,只有相關性。 而所謂的因果,只是相關係數為接近一或負一的一種特殊狀態而已。 這確實也是一種問題,有的時候,事物之間確實是有因果的。 光合作用消耗二氧化碳產生了氧氣,這是實在的因果,而不是統計現象而已。 統計的客觀性在於我們對真理的理解層次不足時,保持謹慎客觀,有用。 但統計分析的關聯思考法也很容易讓我們得到表像的,錯誤的認知。 例如,萊姆汁與柑橘類水果能防止壞血病。 這是經驗總結出來的,從關聯學習到的。 但實際上,是維生素C防止壞血病。 有人發現,吃新鮮的肉,而沒有吃萊姆柑橘,也沒有得壞血病。 於是,做出了,酸的水果是因為防止肉類腐壞才避免了壞血病。 因為吃新鮮肉類的船員也沒有得壞血病,所以只要肉類新鮮就可以了。 新理論唷! 也是統計關聯分析學到的,新的知識。 結果害死了南極探險隊的成員,沒帶柑橘類水果,就只準備新鮮的肉類而已。 因為當時不知道維生素C這個直接因素,所以只能觀察歸納,猜測可能的原因。 然後,剛好,新鮮的鯨魚的魚肝有豐富的維生素C,所以剛好產生了誤導。 做出了錯誤的推論,然後就害死人了。
就這一點,傻蛋覺得倒是有些道理。 很多的碩博士論文,看來看去都是那個模式。 做出一個能讓自己Pass的假設,然後想方設法的證實自己的新穎假設是對的。 其實這種態度本身就不甚客觀,研究能夠真正有意義的機率,不是很理想呢。 關聯,相關性就只是相關性,並不是因果性。 看到某個指標和想要追求的目標的指標有高相關性,然後設法讓關聯的指標提高或降低,希望藉此達成目的,本身是有風險的。 對透過煙霧偵測的火災警報器來說,火產生煙,煙觸發警報。 警報是針對煙,而不是火。 在火災警報器旁裝抽風裝置,把煙吸走,可以讓警報不響,但真的發生火災時,警報不響並不代表火勢被控制。 如果只是盯著自己的目標,只是一心想要達成自己的目標,很容易會出現用消滅煙霧的方式來防治火災唷! 簡單說,就是自欺欺人啦! 無怪乎,有人會拿統計數字當笑話,認為比謊言與更大的謊言更假的,就是統計數字了。
下一段說的是因果圖。 是把因果推論變成圖形。 節點和箭頭組成的因果圖。 作者認為這是偉大的發明。 柑橘類水果指向維生素C再指向防止壞血病。 火災指向產生煙霧再指向煙霧偵測的火災警報器報警。 這是因果推理的基本型。 接著是有點意思的變形。 當一個因素,指向兩個現象,因而造成兩個現象之間有關聯性,那個因素稱作干擾因子。 當一個因素同時受到兩個因素影響,這對因果推論則是一種衝突。 干擾因子與衝突因子,作者提出了這些概念。 在某些情況,這些好像有點用。 但干擾因子之後,就變得更複雜抽象了。 作者甚至提出了一些經過不知道怎樣複雜的數學證明的方法,可以用某些因果圖形結構,稱作後門路徑前門路徑的,可以封鎖兩個因素之間的影響。 這些論述就比較繞,傻蛋看得暈頭轉向的,其實也沒完全跟上。 事實上傻蛋覺得這套推論系統,是狗屁不通的複雜製造機器罷了。 用來輔助思考與推理,那還行。 然而,找出一些數學規則,證明某些圖形代表某種因果性,則有點匪夷所思。 我們最常見的問題,就是我們沒有找到,或目前還沒有能力找到真正關鍵的原因,只能觀察到相關現象做推論而已。 要用這套圖形工具來做自動的推論預測達成自動學習的能力,這本身就值得懷疑。 資訊不足是常態,資訊充足時也不需要辛苦的分析推論建模作預測了吧? 一堆都只是假設的東西,能用圖形公式,就做分析判斷? 而且這種數學公式,還是是與否的因果判斷,正確與否的推論呢? 觀測的目標常常是受到多個因素共同影響的,我們想追求的目標,同時受到很多因素的共同影響。 我們能夠透過複雜的數學公式證明後,鎖定其中一個因素,然後強化那個因素就保證目標的達成嗎? 應該沒有這種魔術。 傻蛋的看法是,只有對每個因素的本質進行更深入的了解與掌握,我們才能得到進一步的推論能力。 過程中有很多假設與猜想,我們會在腦海中構建一個推論模型,多種要素共同發力,決定結果。 這是一個複雜的平衡狀態。 我們可能漏了,或者沒有能力找到關鍵重要的要素,於是我們的模型就會解釋力低落,預測能力不佳。 這些數學證明技巧,因果圖形工具的技巧,傻蛋認為只是複雜思考的數學遊戲,把自己繞暈再繞暈別人而已。 如果漏掉關鍵因素,在現有因素裡再怎麼玩出花來,也無法產生實際的改善。 所以傻蛋覺得這本書的主題與工具技法,沒啥卵用。
另外有一個傻蛋覺得學到技巧的部分,是在說貝氏網路與條件機率的地方。 傻蛋個人對貝氏網路條件機率不是很理解與認同。 不過有個例子對傻蛋倒是有頗有啟發性。 手機訊號傳輸時,需要校驗,因為訊號強度或干擾而需要重傳的情況是常見的。 舊的方法是多編一些資訊反覆校驗。 而利用機率的方式呢? 利用隨機亂數加密後傳輸,只要解密後不是正常格式,高機率是傳輸過程弄壞了,要重傳啦。 加密後的結果是完全打亂的,如果因為精確度漏傳或誤傳其中一兩碼,而解出不對但符合格式的內容的機率,那會低得不像話。 利用這個特性,能夠大幅節省傳輸成本提高效率。 其實用來做資訊安全的一些底層設計,這個運用亂數加密後還原正常的極低機率特性,或許挺有實用的空間呢。 傻蛋都有點躍躍欲試了的說,雖然,這和這本書主題,沒關係啦!
這本書中間有提到一個悖論,蠻有趣的。 有沒有一種情況,一個處方,對整體是改善的,但將數據分組,對每一組都是惡化的? 這邏輯是不通的,如果全部都變差,整體怎麼可能會變好? 好像是神奇的悖論,對吧? 哈,是被騙了而已。 傻蛋仔細一看,樣本數的結構有問題。 實驗組和對照組的樣本分布比例就有問題。 男性心臟病機率比女性高很多。 然後呢? 心臟病的新藥,只要實驗組的女性占比較高,然後對照組男性占比較高,即使新藥完全沒有用,服藥比沒服藥更糟,因為樣本結構的關係,統計出來的心臟病機率也會得到改善唷! 這其實就是一種騙術啦! 哪裡是什麼神奇的悖論呢? 這種騙術到處可見。 例如,高成長性的股票,因為高成長性,享有較高的溢價或者說本益比。 那要怎麼追求成長性? 加強研發,加強行銷,提升管理,可能有用,但都不容易。 但騙術則是保證有效的。 只要去併購那些缺少成長性,但獲利能力高,本益比低的企業,財報一合併,魔法就出現了。 營收,增加了,成長了喔! 利潤也增加了,對吧? 計算成長率,更是全面提高了吧? 這麼好的事,只要勇敢併購就能得到成長,變出魔法了? 這同樣是騙術啦。 因為買進來的公司本身成長性就比較低,不能預期這些公司會和併購方的新興市場享有同樣的成長空間與成長速度。 用同樣的成長期待來估計透過併購提高的成長率和利潤數字,不精明的投資人大概會覺得要高潮了吧? 這其實和心臟病新藥實驗刻意扭曲樣本結構來達成自己想要看到的成果一樣,是自欺欺人啦!
這本書後段是對因果圖的工具的更加複雜的演繹,傻蛋普遍來說,是看不懂。 覺得有點瞎。 而這要和強人工智慧扯上邊,更是顯得突兀。 傻蛋能夠想像的強人工智慧,應該是一種網路結構,能夠自我強化,產生動機與價值的複雜網路。 這些網路結構本身就是知識,只是我們人類未必能輕易看得懂就是了。 這個網路結構本身就是一個模型,這個模型可以做出各種問題的預測模型,模型的效率有好有壞,強人工智慧是透過存在與自我強化的模式來自主優化自身的模型的。 這比較接近生物結構,好像沒有複雜的數學公式可以發揮的空間喔!
整體來說,就傻蛋個人的觀點,這本書有點瞎,但這本書同時夠聰明與複雜,應該能夠吸引一些思想複雜的人的追求吧! 但至少這本書在中間段的部分給了傻蛋一些樂趣與啟發,雖然傻蛋還是覺得這本書貴了點,瞎了點就是了! |
|
( 不分類|不分類 ) |