網路城邦
上一篇 回創作列表 下一篇   字體:
機率統計學習中
2020/11/20 07:05:22瀏覽702|回應0|推薦9

雖然公司業務在持續進行中,但是我和RD正在跟隨南台資工系的林泓宏教授學機器學習相關技術,不是隨便說說的!她每天都有功課在做,我每隔一段時間也會去「驗收」她學會的東西,她會我不會的就教我,她也不懂的就一起討論。讓她讀研究所是公司的「投資」項目,我和她都學會ML時就是獲利了結了!

算是發表一點學習心得吧?入門的第一關就是機率統計的概念!一開始看到上面的公式真的是滿頭霧水!我們一向習慣討論「確定」的事情,要解決問題就是找到確定的線索,有幾分證據說幾分話,好像拼圖,也好像讀物理系時解複雜的物理習題,總是「知之為知之,不知為不知」,不確定的事情就先擱置。

但機率統計的概念不是這樣的!他們理論的核心就是「不必問成因,只要有資料數據就開工」,依據既有的資料預測還未看到,或尚未確定的事情。像上面的「先驗概率」就像不考慮任何條件下,你在街上隨機碰到一個人,你要當他是好人或壞人呢?正常的社會當然是好人較多,所以我們會預設對方是好人!但如果他目露凶光,還拿根球棒呢?那就是額外的條件「後驗概率」了!

機率統計就是機器學習的核心精神,很像我們買彩券,希望盡量提高中獎機率,當我們無法像解決確定有答案的問題那樣,抽絲剝繭逐步逼近一定對的答案時,就用猜的嘛!但是猜也有學問的,要盡量參考已知的數據資料,譬如白天中獎的人多,就給他乘上一個比例,女生容易中獎,那就再乘一個比例,建立很多這種機率條件後,用大量資料算出各種條件下答案為何的機率,當有新事件發生時就可以提供你「怎麼買?」的參考依據了!

事出必有因,數據資料是不會騙人的,所以利用數據推測答案有其可靠性,是沒錯啦!但是資料數據也沒有直接告訴你為何白天中獎機率比較高?在某地可能是晚間根本不賣彩券,統計出來的機率,可以用在不夜城的地方嗎?你拿美國的機器學習大師的作品用時,不必考慮這些現實差異嗎?真實世界的變數太多了,連機率條件式也會跟著時空變化的!想偷懶套公式放諸天下皆準?想得美了!

傳統科學家的習慣一定是追問研究每一個現象的原因?不太會依賴機率做決策,除非成功率真的大到不可能猜錯!不只是科學家,一般人根據自己的常識與直覺也不會太相信那些原因不明的統計機率,只有極少數人會天天不上班研究「明牌」,期待中獎而不是期待領到薪水,不是嗎?所以當你知道這些神秘的AI技術核心原來是這種東西?應該八成的AI迷信就會回歸理性了!

當然,機器學習專家們,對於這些機率條件的建立與掌握度一定比業餘的玩家精確合理,其實他們也一定會(被迫)用很多可靠的事實條件,排除一些他們建立的機率統計準則中的不確定性,不然答案可能會很難收斂聚焦,或根本很離譜!所以我判斷他們遲早會和傳統科學殊途同歸。讓我反感的是,談ML技術的人都太強調資料統計的部分,其實已知事實條件的理解與掌握運用,比那些複雜的統計運算更加重要!前提不對不準確,再怎麼「訓練學習」都不會生出一個蛋來!

雖然我還是覺得將研究事實擺在研究機率前面比較合理,但是隨著對機率統計有點概念之後,回頭審視自己的影像辨識研究,也發現很多我的演算法中的參數,其實可以用機率統計的概念由數據自己決定(Data Driven)

譬如做動態辨識時,需要穩定的無物件背景影像作為參考。我以前用的方式多半很粗糙武斷,譬如用前面十格的影像作平均,或取中值之類的!其實也隱含了機率統計的概念,但是顯然用較精緻的機率統計可以做得更穩定更好!林教授的博士論文主題之一就是研究這種東西,所以也正在指導我的RD研究這個題目。

截至目前,我對於這些新技術的了解日益加深,但是我的整體觀感認知還是沒有改變,機率統計與機器學習等技術應該只能站在解決AI問題的輔助角色,而且是在我們對某個問題「知識很少,資料很多」的前提下使用才會有效率!如果已知的原理、事實與條件夠明確的狀況,一定要用科學的邏輯方法研究,不必也不能用「猜」的!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:http://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=153499412