CNN的卷積運算我也用的！但是用的方式優雅有效多了！ - 鄉下老師

字體：小中大

CNN的卷積運算我也用的！但是用的方式優雅有效多了！

2024/01/05 09:33:23瀏覽458｜回應0｜推薦6

雖然我長期批評ML、DL與CNN等技術在影像辨識領域被過度高估了！但是任何方法會存在都一定有其價值！所謂「泰山不讓土壤，故能成其大；河海不擇細流，故能就其深。」我不但沒有因此忽視這些技術，還讓我的徒弟去讀研究所鑽研這些技術，也真的找到一些用得上這些技術的地方，讓我們的影像辨識技術繼續進化之中！

如上這個非常模糊的車牌影像辨識就是一個很好的例子！事實上為何很多人都放棄了OCR的傳統影像辨識技術擁抱CNN，原因正是因為OCR能夠辨識目標的前提是正確的二值化目標切割，如果碰到前景與背景無法正確切割時，像是如上圖的影像模糊導致DD相連，UR也相連時，好像就玩不下去了？

但是CNN的技術是不用先找到目標邊界的！直接用特徵矩陣掃描就可以找到貓狗的鼻子眼睛等等，所以像上圖這樣沾連的DDUR等字元用CNN的卷積(掃描)運算是可以直接辨識出來的！我所以不敢用的原因只有一個：全圖搜索太耗時了！CNN因此是一個先天上就運算量太大執行速度太慢的不合理方法，要用來開發商用辨識軟體幾乎是不可能的！

我早期的車牌辨識流程中就有一些切割沾連字元的輔助程序，但是相當粗糙粗魯，譬如估計寬高「好像」是兩個字元就直接對半剖開，當作兩個目標處理。但是像印尼車牌字元是不等寬的，較窄的1或I字元間隔也會跟著縮小，所以如果與鄰近字元沾連時，好像胖子與瘦子牽手，正中間一刀切下是一定不對的！

此時最好的方式是用CNN的卷積運算(Convolution)直接在「目標內」進行搜尋，具體說就是用D字元的矩陣模型在DD相連的大目標內做掃描，很容易就可以找到有兩個位置D的符合度極高，也就是在沾連目標中找到兩個獨立的D字元了！相連的U與R也是一樣，看起來好像有猜測的成分？但其實是很穩定準確的辨識結果，這就是卷積運算最優勢的地方了！不必傷腦筋做正確的連體嬰切割了，在這個角落我是拋開OCR使用CNN的！

我就是這樣讓CNN的部分技術融合到了我的影像辨識技術中！所以如上面這種模糊程度的車牌以前是要碰運氣的，現在辨識成功正確的機率就大幅提升了！至少在面對模糊目標時絕對不會比CNN的辨識能力差了！同時又避開了全圖搜索掃描的陷阱，因為我只需要在極小範圍內使用CNN，不會太耗時的！

其實我的RD近日在研究辨識汽車廠牌LOGO時，也引用了機器學習的概念設計「模糊LOGO」模型！就是用很多從資料中擷取的模糊LOGO影像來統計製作出辨識用的參考模型，而不是直接用標準的LOGO設計圖來製作。因為真實影像中幾乎不可能有像設計圖一樣清晰的LOGO，所以使用資料統計的模型會更接近真實影像中會呈現的樣貌！這就是Data Driven的概念了！

所以我們雖然不認為以ML、DL與CNN為基調的影像辨識是好的方案！但是在適當的時機流程中使用它們的優勢長處，絕對可以讓我們的影像辨識技術更優化升級！

( 心情隨筆｜工作職場 )