影像模糊殘缺時，訴諸影像處理不如試著見微知著！ - 鄉下老師

字體：小中大

影像模糊殘缺時，訴諸影像處理不如試著見微知著！

2023/12/29 04:28:50瀏覽348｜回應0｜推薦9

對於我的影像辨識技術來說，這是一個很具有說明性的案例！我被這種後車牌凹陷，艷陽高照時部分字元會局部陷入陰影的狀況困擾了很多年！OCR的標準程序是依據亮度做二值化切割，如下圖：

受過基本影像處理訓練的人，都會很直覺地想用各種影像增強的運算讓字元變得更完整，我也不例外！這些年來嘗試過所有可能的增強演算法，結果都不理想！要讓內部亮度落差很大的目標，被切割為完整目標，大概只有人腦辦得到！少數我試過近乎成功的方式，都耗時太久副作用還很大，並不實用！

如上圖，如果就以不完整的二值化目標圖為基礎，我們有可能依舊做出正確的車牌辨識嗎？其實成功機會是很大的！就像賭神電影裡的情節一樣，紙牌數字露個角就可以猜測了，露出一半就幾乎可以確定是哪個字了！9與F即使少了頂端也不會有其他易被誤認的字元，看到「├」這個形狀的目標就非是F不可了！

但是D字缺了頂部就很像U了！怎麼辦？你可以參考底部轉角的，U的底部左右都是圓角，D的底部則是左方右圓！能辨識出這個局部特徵，你就知道是U還是D了！那缺了頂部的7與I呢？應該都會很像數字1，但是7的主幹會較斜，1或I就是垂直的，如果你能辨識出這個差異，斷頭的7也可以正確辨識了！

我就是利用這些如同賭神的撇步辨識出這類強烈陰影案例的！這種不再強求用影像增強處理技術凸顯辨識目標的策略，並不是我個人的創見，而是影像辨識專家們相當普遍的認知！現在流行的CNN辨識也是採取一樣的策略！就是盡量少做全圖性的影像處理，多專注在找影像既有的特徵來辨識目標。

會轉向這個策略的理由很容易理解，第一、影像增強處理通常只對特定的狀況有效，譬如上圖用Y方向的銳利化是可以修復部分陰影缺角的，但是沒有陰影的部分卻會產生副作用，可能將原本正常的目標割裂，那就得不償失了！第二、影像處理都是全圖運算的，非常耗時！特徵辨識則是局部性質的運算，類似對身體的特定部位檢測，比較有針對性辨識的效果！

雖然我跟CNN一樣都採用偏重特徵辨識的策略，但他們的主軸是預設特徵後「全圖搜尋」計算加權值的，這其實會比作全圖影像增強處理更慢！好像躲開了一個小水坑卻掉進了另一個更大的無底洞！我則是利用OCR方法先找出明顯目標之後，集中火力在這些目標區做複雜密集的特徵辨識。譬如上述我辨識圓角或方角的特徵，是只在已知的目標內部進行的，需要的時間當然跟在「全圖」找特徵的耗時不可同日而語！

CNN的特徵搜尋演算法看起來很抽象很複雜，但是並沒有因此有很神奇的效果！不但計算量太大速度非常慢，辨識準確率也很低！相對於傳統的影像辨識技術其實是效率很差的！影像辨識整體來說還是個不太成熟的科技，如果大家都太早放棄以傳統影像辨識的科學研究角度，過度依賴以機率統計為核心，不重視成像原理成因的ML、DL與CNN等技術，我相信會是影像辨識發展的一場災難！

( 心情隨筆｜工作職場 )