我們的腦袋做影像處理是常態！只是一眨眼的事！ - 鄉下老師

字體：小中大

我們的腦袋做影像處理是常態！只是一眨眼的事！

2022/09/05 05:38:34瀏覽1393｜回應0｜推薦8

如上的辨識案例就是會讓我捶心肝的狀況！以人眼辨識的標準，這應該是毫無問題的簡單辨識，但是大家也看到，抓到的車牌影像每個字都有點太瘦了！我可以歸咎於反光太強？角度太斜？或解析度不夠高？但結果就是好尷尬的：任何人的眼睛都看得好清楚的車牌，我的軟體卻辨識不到？我糗大了！

當我用目標大小範圍抓到目標字元時，我是成功的！但是當我假設我從正規化的車牌子影像中也可以抓到合理的字元標準影像時，我就失敗了！那些字元都太瘦到甚至筆畫都斷斷續續了！所以如果我不動用違章建築的字模比對之外的特徵辨識，是一定不會得到正確答案的。

我最近的大改版努力方向，就是我不想再用額外的特徵偵測技術，也就是我說的違章建築來辨識字元了！那我就會問：人的眼睛為何如此聰明？不必用字元哪邊有缺口之類的特徵就知道那是甚麼字？明明字體瘦到筆畫有點斷斷續續，我們之中的任何人，都還是可以輕鬆辨識上圖的七個字元？但我的演算法就被徹底擊敗了！

我的理解是：我們的腦袋會自動做影像「膨脹」處理！把那些偏瘦到有點斷斷續續的字元都變胖連成一個合理的字元，接下來要做字元辨識當然就很簡單了！我其實在基本概念上是很排斥使用所謂的「膨脹侵蝕」之類的影像處理技巧的！因為那是讓影像失真的處理過程！

但是如果我已經鎖定我想在全圖鎖定的字元目標之後呢？我找到合理的一列字元，但是顯然因為其他環境因素它們實在「太瘦」了！我不能用膨脹的影像處理方式，讓它們變得胖一點嗎？從飢荒國家救出來的飢民，不能吃胖一點之後再接受體檢與媒體訪問嗎？

果然，我把辨識程序的這一階段加上一個偵測動作，當我發現字元普遍偏瘦時，就來個「膨脹」影像處理！是不是車牌正規化影像就變得合理一點？也很輕鬆的辨識出正確的字元答案了！經過數千個資料的統計，這一個處理將辨識率提升了接近一趴！

事實上，我們的腦袋是可以自動將上圖一中偏瘦的字元，自動變胖再加以理解的！我只是努力跟上我們所有人的腦袋運作方式而已！這就是我的影像辨識研發理念！而且每一次都很有效！只要經過統計副作用不大，就會變成我的辨識流程之一，我真的不必跟隨ML、CNN或YOLO等所謂的主流AI影像辨識技術的！它們的效益當然遠遠不如幾億年生物視覺的演化結果。

( 心情隨筆｜工作職場 )