舉例說明：影像辨識的技術核心應該是認知的過程 - 鄉下老師

字體：小中大

舉例說明：影像辨識的技術核心應該是認知的過程

2021/02/03 06:07:45瀏覽3418｜回應0｜推薦4

上面這張圖是來自一個笑話，話說美國總統拜登接掌白宮之後，看到辦公桌上有個字條寫著一個奇怪的密碼：370HSSV 0773H，他不知道是幹甚麼用的？又不想去問他討厭的川普，請FBI，CIA，甚至NASA解讀都不知所云，最後是英國的情報單位說：你看反了啦！原來只是川普罵拜登的一句髒話！

拜登很笨嗎？其實對於辨識軟體來說這是幾乎必然會發生的常見錯誤，我的那個很厲害的車牌辨識核心，如果只用標準基本的辨識程序(模式)，一旦碰到顛倒的車牌也會看錯的，辨識符合度還高達93%咧！單純以影像資訊本身來說，這種高符合度你實在很難直接判定它是「錯」的答案！更多略為模糊的影像中正確答案的符合度可能還不到90%。如下圖：

一般人看到這種影像會覺得怪怪的，所以會繼續在腦中做影像處理，或直接將影像翻轉過來看出正確的答案。那是因為我們的眼睛與腦袋會接收處理很多除了影像顏色、亮度或輪廓之外的資訊，譬如掛牌用的螺絲孔應該在上面的，怎麼跑到下面了？字型本身照筆畫來看，顛倒的2與正常的2是有像啦，但是圓角與尖角的位置不對吧？應該右上是圓角，左下是尖角才對嘛！

事實上即使是現在所謂最先進的AI影像辨識，深度學習或類神經網路之類的技術，也絕對不會有「螺絲孔在哪一邊？」這種考慮條件，辨識字元目標的尖或圓角特徵也絕對不會是正常的辨識程序之一。但是我的辨識技術邏輯就是常常會像人的腦袋一樣，確實會考慮這些因素！譬如我的車牌辨識中對於B8或D0的區別能力還不錯，就是因為有加入尖或圓角的特徵辨識，字元左上或左下是呈現明顯直角的，當然就是B或D了！

我認為我才是走在正確的AI影像辨識的正途上！那些所謂的深度學習反而是走火入魔走偏了！影像辨識應該沒有甚麼神祕的數學技術，或「機器學習過程」，可以直接使用不用人的主導介入就可以做出跟人一樣聰明的軟體，任何好的有效率的影像辨識，就是應該要一一解析模仿人對於那種辨識的思維方式與過程！沒有其他更好更合理的途徑。

生物視覺的演化都幾億年了！放任機器自我學習進化就可以很快追上這幾億年的複雜演化，甚至猶有過之？很多人都相信了，但是我不相信！這種事實根本也還沒有發生過，Not even close! 我不必浪費時間去證明，就知道用ML即使最終可以做出跟我一樣有效率的產品，研發期也會非常的長！可能是我的十倍以上！因為他們在嘗試跟上演化進度，我則是直接拿幾億年演化的成果來做成演算法，所以我贏定了！

以上面的例子，實務上我也不會真的每次辨識車牌時連螺絲孔都去辨識，懷疑車牌可能會顛倒？那太浪費時間了！但是如果客戶提醒我，在他們的辨識情境下，車牌是「有可能」會顛倒哦！那我就會在正常程序的車牌辨識完後，將同一個車牌旋轉180度再辨識一次！就像前面的笑話一樣，我有可能拿反了，那就翻轉過來再讀一次就好了嘛！

翻轉後辨識的結果符合度更高，當然就選擇後者當作正確的答案了！我不去辨識細微的周邊資訊來決定車牌是否顛倒？直接做兩次辨識看哪一個比較好？這也是一般人都有的智慧之一！因為不管正反，我們認字的速度都會比觀察周邊條件來決定車牌是否顛倒的速度要快，就是「比較不傷腦筋」！按此流程寫成的軟體當然也就不必太複雜，消耗太多的電腦資源。

我的辨識軟體不但辨識率很高，也都跑得很快，這個結果絕對不是偶然的！也不是我有甚麼密技，我只是認真學習一般人做事的方法而已。不要被酷炫的數學所迷惑，以為深度學習等等技術的數學秘笈會直接帶我們找到甚麼蓬萊仙島或桃花源？迷信數學你只會花很多時間與經費，最後做出一個連你家幼稚園的小孩都會嫌它笨的影像辨識軟體！

影像辨識的英文是：Image Recognition，這已經清楚說明了這是一個「認知」的過程，認知才是重點！但是當你努力學習那些機器學習或深度學習相關技術時，大半時間是沉浸(深陷？)在如何找到特徵與將它們分類的深奧數學實驗裡！這些數學其實不會「自動」知道哪些特徵？或如何分類？才可以幫你最快最精準地找到你要的認知結果。

相反的！如果你把重心放在思考你辨識某種目標需要的認知過程時，你其實可以很快找到相當簡單有效的方式做好前處理，如同走捷徑一樣的抓出對你有用的影像特徵，然後很快的在這些少量特徵中做出很正確，也很穩定可靠的分類，最後比對預期的目標模型得到你要的答案！

如果你已經學會非常多機器學習機率統計或類神經網路的搜尋技術，那當然很好！但是如果你像我一樣，成功處理過很多影像辨識實務，你會發現通常只需要用你知道的最簡單的幾種技巧就已經綽綽有餘了！重點不是越複雜的數學越有神效，而是最符合你認知過程需要的方法才是好的方法！想清楚你要辨識的是甚麼？想清楚一般人會如何認知這種目標？那才是學習影像辨識的重點！

我現在正跟RD一起努力學習機器學習的相關技術，但是我們都知道公司未來的發展不會太依賴這些技術，只是學會更多武功招式，也一定可以在我們已經熟悉熟練的認知流程影像辨識技術之上錦上添花！我們好像是已經學到了正確心法的內家高手，但是對別的門派使用的套路招式所知很有限，如果可以學會更多招式，當然更能游刃有餘更輕鬆的將影像辨識的工作做得更好囉！

( 心情隨筆｜工作職場 )