我挑戰的AI是人腦視覺辨識的「直覺」捷徑！ - 鄉下老師

字體：小中大

我挑戰的AI是人腦視覺辨識的「直覺」捷徑！

2024/05/12 05:26:58瀏覽641｜回應0｜推薦9

影像辨識可以說是資訊量最多、結構最複雜，又同時需要最高準確度的AI終極挑戰！現在大家流行使用的AI技術ML、DL與CNN等等，基本上不是追求解析人類視覺中真正的智慧內涵，只是想利用電腦可以取得大量資訊與幾乎無限運算量的優勢，忽略研究真實智慧的科學過程，直接得到類似人類視覺能力的軟體！其實本質比較接近算命，與明確的科學研究距離較遠！

這就是我的影像辨識理念與目前主流派最根本的差異！我想知道為什麼人類(生物)的視覺如此神奇有效的科學機制，我無法直接Download人腦中視覺思考的程式，但是我相信科學可以解釋所有智慧的過程，所以努力用科學原理去揣摩組織猜測視覺智慧如何實現的所有可能性，設計出演算法寫成程式加以驗證。

這種理念與工作方式我已經持續了十年，也已經有相當好的成果，雖然距離真正的視覺智慧還有很長的路要走，但是我很確定我比那些嘗試使用ML、DL與CNN，在無知狀態下想直達視覺智慧頂端的天真人士進度快很多！大概是遙遙領先的狀態！事實上我的作法就是數百年來的科學家的標準作法，標新立異很跳Tone脫軌的是ML、DL與CNN，不是我！

如上的一個車牌辨識案例如果回到10年前，就是會讓我瞠目結舌無法言語的神奇AI了！現在卻已經是我非常能夠理解與掌握的日常工作！看起來背景複雜字元還非常小(17畫素高)的車牌，我的軟體可以像人眼一樣，「一眼」(37毫秒)就抓到重點看出正確答案！

事實上這張影像經過前處理之後，有多達1827個可能是某種目標的物件，但是人的視覺可以很智慧的快速篩選資訊，馬上聚焦在我們預定要找的車牌目標上！所以即使人腦加減乘除的計算速度遠低於電腦，但是人眼還是可以不假思索似的，立即正確辨識出這種難度的車牌！

我設計的演算法可以在37毫秒內將1827個可能目標縮減到只有七個車牌字元，我心目中追隨的大師(大神？)就是我自己腦中如何抓到視覺目標重點的思考過程了！回到十年前，我的軟體根本無法處理這麼「複雜」的畫面；回到六七年前，我可以辨識到了，但至少需要近200毫秒！然後就是我的程式越來越聰明快速演化到現在的37毫秒！

跟那些所謂的「AI」影像辨識專家相比，我最驕傲的是：我知道我的軟體中所有的AI細節過程是如何實現的！如果你有耐心聽，我可以像給國中生上物理課一樣清清楚楚地說給你聽！但是我知道那些使用ML、DL與CNN的「AI」專家根本不知道自己創造出來的「AI」是怎麼辨識出目標的！而且大多數時候他們根本無法產出有用的東西！

所以我的研究很像心理學，即使你可以解剖人體也無法知道人類大腦思考的過程，只能像心理學家一樣不斷的推理、實驗與驗證事實結果，逆推出人腦運作的方式過程？根據我們探索到的這些科學知識，我就可以精準有效的設計成演算法，寫成程式軟體來賣了！

很多我們還無法理解的人類智慧我們會稱之為「直覺」！但是我相信直覺也是事出必有因，有合理科學過程的，不是玄學或神學的領域！我也真的逐步逼近這些視覺上的直覺了！這就是我的工作最神奇有趣的部分了！我稱之為「AI」研究！即使我知道這跟大家目前講的AI內涵不盡相同，但我認為我的看法才是對的！

( 心情隨筆｜工作職場 )