機器學習是人工智慧研究的逆流 - 鄉下老師

字體：小中大

機器學習是人工智慧研究的逆流

2018/06/01 04:58:05瀏覽6120｜回應0｜推薦11

我現在的本業是做包含車牌辨識在內的各種影像辨識，公司開了三年半，到業界發展四年半，從博士論文(1997)研究地形辨識演算法算起，斷斷續續研究影像辨識技術超過20年了！現在資訊界最熱門的話題就是人工智慧(AI, Artificial Intelligence)，而影像辨識正是人工智慧領域相關研究的核心項目。如果我的公司沒倒，生意還越來越好，我對於這個領域的見解應該有些參考價值。

在台灣，甚至全球，能對於各種影像辨識需求，自由接案做研發的公司團隊可說是鳳毛麟角，我們是奇葩！公司雖小，但常常都是在大公司的影像辨識軟體表現不符客戶需求時，等在後面將影像辨識專案完成。或者大公司的軟體彈性不足，不能處理的「小案子」，我們就撿起來做，至今也都沒漏氣！

我們也不是甚麼影像辨識都能做，譬如很熱門的人臉辨識就從來不曾接案，原因不是我們不能做，但是要將人臉辨識做到有商業競爭力，大概需要一兩年，車牌辨識我就做了三年半才開始賺錢。當教授時可以研究任何議題，國家會買單！當然我是說頂大教授，不是我啦！當老闆就不能貿然接下需要長期研究的案子，公司不能長時間沒收入的！

我跟RD說過很多次，我們最大的競爭對手不是哪一家公司，而是「機器學習」(或稱深度學習)這種現在備受推崇的研發技術，我們從來沒用過，也沒打算引進使用過。但是我估計我們必勝使用機器學習闖業界的對手，而且是大勝！我不擔心被打敗，反而很憂心學界與業界過度依賴推崇這種理念，會讓人工智慧的研究停滯一個世代，就是大約二三十年！

現實上，我們小公司根本沒有這種財力、人力與時間做這種機器學習的「研究」，研究兩字所以被括號，是因為我認為機器學習根本不是嚴謹的科學研究，他只是一種統計的技術，而且成本極高。如果你不懂機器學習，網路上會有多到不行的介紹資訊，但是我要給大家看的角度會大不相同！如果用機器學習作影像辨識真的有效率，就絕對不會有我們這種公司存活的空間！我們就必須改弦易轍做別的業務，這是很嚴肅的公司發展方向決策。

基本上機器學習的本質與正統的科學研究根本不一樣！他們追求的是找一種程序與模式「答對最多題目」！真正的科學研究則是追求真的理解案例事實「準確地解決問題」！機器學習的理念就像補習班輔導升學或證照考試，標準程序就是：建立題庫(很多題目與標準答案)，讓電腦程式「學習」，但學甚麼呢？就是如何建立一套邏輯與參數組合，可以據以「答對最多題目」！答對問題的邏輯與參數是不是合乎幾百年來研究建立的科學原理？他們是不在乎的！

這很像我當年考高中前兩個月，英文數學成績還是不好，也沒時間打好基礎了，就買兩本超厚的英數總複習參考書，不懂的題目就用背的，背解法，甚至背答案！懂不懂無關緊要，重要的是：考試時可以作對最多題目，這樣我就考上建中了！至於我是不是真的理解我自己在幹嘛？誰在乎呢？分數夠高，我上建中了啊?

看出來了嗎？我當年就在實作「機器學習」的理念了！無數只求考上好學校的學生也都是這樣做的！但這樣讀書的方式就讓台灣科技水準超英趕美了嗎？下圖是介紹機器學習的概念圖，你可以看到的只是數學與統計的概念，答案不對就更改分類、迴歸分析、「強化學習」還不就是迫使程式邏輯更趨向「標準答案」的技巧。但是真實世界每一個狀況案例都是與不同的物理條件相關的！這種機器學習理念，在我的觀點完全沒有幫忙更理解問題本質，協助解決任何實際問題的啟發性。

在我眼中，每一個影像辨識的案例都是獨立事件，我直接會去理解他們要辨識的目標情境中，到底「發生了甚麼事情？」我可以從這些事件影像中「找到甚麼資訊？」其中哪些資訊可以讓我確定客戶要我們辨識的目標？按圖索驥，找到數學方法與程式技術呈現出我要的資訊，案子就對症下藥的解決了！

相對的，妄想用含糊籠統的統計概念，不必知道與分析事實，只要有夠多的「狀況」與「答案」，用統計的觀念歸納出辨識邏輯就能完成影像辨識，那叫做盲人騎瞎馬！張開眼睛看就知道A+B=C，你卻要電腦程式連微積分都考慮進去，機器學習學出來的軟體有可能比我直指目標清晰研究出來的程序好嗎？

即使能一樣得出正確答案，他們的效率會比我高嗎？辨識過程中不必做的傻事我是一定不會做的，但是機器學習要兼顧題庫中所有可能的答案，他有可能精確掌握根本不可能發生的狀況，而省略很多不必要步驟嗎？如果機器學習的研究者要跟上我的腳步，那他也必須跟我一樣對問題本身有精確的研究分析，那其實他就不必用這麼大的題庫或超級電腦了！

更何況多數機器學習的案例是資料一多，答案就難以收斂，更改模型的複雜度會提高成本，於是多數廠商選擇縮小資料集到可以收斂的程度，這又讓產品辨識能力變得太過簡略，無法正確處理實務問題，譬如電子圍籬軟體碰到風吹草動就濫發警報之類的，所以才會呼叫我們這種「只會針對問題研究解決方案」的小公司來嘗試補救啊！

所以我認為：科學研究的本質從來就沒有因為機器學習這個概念的流行而有改變！在你將所有傳統科學研究能做的事情都做完後，機器學習確實可以幫你做大量的數位實驗與統計，用嘗試錯誤的方式提供統計資料，但是他們依據事實「分析解決」問題的能力依舊不可能超越腦筋清楚的物理或數學科學家。

即使能！辨識正確率達到99%，電腦程式也無法跟你解釋他們是怎麼作到的？最糟糕的是：機器學習學派的人根本覺得這些原理與事實不重要，只要答案正確就好了！這真的是正統科學研究的逆流，人類堅持「知之為知之，不知為不知」的科學研究精神就此被忽視貶抑了！或許要等個幾十年，他們才會發現「算命」再準都不如認真研究事實，真正的科學家才能再度獲得重視。

我們是做科學研究找正確解法的公司，用機器學習幫你服務的，是作命理推算的公司。如果答案對了！兩者效果對客戶來說都一樣。如果出錯了，我會知道為何錯了，幫客戶繼續解決問題，機器學習派的公司則根本不知道發生了甚麼事情？當然也無法立即幫你解決問題。他們會說：「我需要更多資料去 Trainning 我的系統。」就是跟你要更多資料繼續抓瞎而已！我的堅持可能會敗給機器學習嗎？

沒錯！機器學習的精神就是追求最準確的算命結果！那可以說是某種命理玄學或統計學，但絕對不是我們以為的物理、化學、生物等真正的科學。我的公司就是真正研究物理科學與影像事實之間對應關係的「傳統」公司，如果你相信算命比科學研究有效就不必來找我了！影像辨識產品的決勝戰場，絕對不是那些虛無飄渺的機器學習演算法，而是正確、精確與準確的物理分析，與針對事實現象的辨識演算法研究，孰是孰非？各位自己判斷吧！

( 心情隨筆｜工作職場 )