AI影像辨識就是將所有小聰明程式化的累積 - 鄉下老師

字體：小中大

AI影像辨識就是將所有小聰明程式化的累積

2024/07/03 07:18:44瀏覽452｜回應0｜推薦8

如上圖這樣一張車牌影像會無法辨識？這應該是客戶很難接受的！因為任何「人」辨識都很容易的車牌，號稱「高科技」的AI軟體卻反而束手無策？實在太漏氣了！可是即使是號稱車牌辨識技術頂尖的我，到昨天的版本為止都還確實是無法辨識的！放大來看就知道原因了！

一道不知是故意還是意外造成的刮痕橫切過LZF三個字，按照OCR的邏輯每個黑色的色塊會被當成一個獨立目標，也就是一個字元來辨識，斷成兩截的字元當然無法被辨識成任何正常的英文字母！而我的車牌辨識軟體就是使用OCR技術為主軸的！很詭異的是：這種車牌拉遠一點點看那道刮痕就不夠清楚，反而就可以辨識了！

如果我是使用熱門的CNN技術辨識，也是可以克服這種「雜訊」干擾的！但是因為我不會預知字元的大小，也不會預知字元是否傾斜，所以要用CNN的方式正確辨識出這種破碎字元的運算代價會大到必須去買輝達的產品！也就是客戶的硬體(電腦)成本會高得嚇人！這就是那套AI技術最大的痛點！一旦沾上ML、DL或CNN電腦就非升級不可了！很貴的！

所以我最合理的努力方向是在現有基礎上避免使用CNN來克服這個問題！我的作法其實是將破碎的字元融合起來，經過合理的選擇性目標融合，LZF的辨識就很容易了！但是這種演算法的風險很大，如果限制條件不合理，任何不該合併的字元目標與其他字元或背景一融合，原本可辨識的字就會反而無法辨識了！

所以兩個實際分離的目標要不要融合？必須有合理的條件！首先必須知道的是車牌字元的合理大小，在上例之中就是必須先正確辨識出可以確認內容的608等字元，知道車牌字的合理寬高後再拿來與破碎的目標做比較，如果兩個破碎目標拚合後的寬高與預期的標準字元近似，才能將它們送作堆！

好玩吧？就是這樣我不必被迫採取運算量太大的CNN來解決我的問題，我的作法依舊是非常省時正確有效率的！但是當然必須是可以先確認車牌字元的大小，如果是太歪斜的車牌，我無法在原圖未經幾何校正之前就辨識出字元內容，沒有已知的字元寬高做參考，這個融合演算就會被放棄了！

所以我說AI應該是所有人類小聰明加以程式化的集合！沒有非常抽象困難！也不是一定要用某些特定的演算法才能處理影像辨識的問題！八仙過海各顯神通才是常態，嚇唬你非用某些技術才能做AI的人都是騙子！不必理他！他們很像毒販，讓你以為做AI影像辨識一定要用ML、DL與CNN？目的是讓你染上毒癮，變成只會用這些需要極大運算量需要昂貴硬體支援的技術，這樣輝達等公司的股票才能長紅嘛！但事實是AI可以不必那樣玩的！通常效果還更好更精確！

( 心情隨筆｜工作職場 )