影像辨識也可以用繁星計畫選材的！ - 鄉下老師

字體：小中大

影像辨識也可以用繁星計畫選材的！

2021/10/21 09:40:58瀏覽794｜回應0｜推薦3

如上圖這麼模糊的字元是怎麼辨識的？如果不解釋清楚，連我的客戶大概都會懷疑我作弊了！首先宣示這和甚麼機器學習(ML)或類神經網路(CNN)都毫無關係，也沒有任何神秘不可告人的技術，只有非常清楚合理的影像處理與辨識邏輯。

首先我們用正常的灰階與二值化標準程序處理，結果如上圖，字元對比太差了，根本看不到字，將F字元的灰階圖放大給大家看就更有感了！真的是既模糊又黯淡，現在的攝影機都很「聰明」，會自動對焦，它們是依據甚麼資訊調整焦距的呢？當然是影像中最強烈對比的目標，讓該目標更銳利！如果那兩個環狀的目標比字元更清楚，當然是聚焦於兩個黑環，字元就更模糊了！

面對這種影像，演算法方面還有甚麼招數可用呢？如果你用PhotoShop之類的軟體檢視，黑環的灰階大約是85，字元灰階大約是150，字元的背景大約是180。要看到獨立字元的邏輯是：忽略太黑的部分，將150灰階左右的畫素變成黑色，180左右的視同白色。

要怎麼作到呢？其實就是盡量切出字元所在的淺色環狀區域，排除太黑的環狀區域，再以淺色區域為基準，找到最佳的二值化處理方式，我們必須找到150到180之間的最佳門檻值，須知85到150的差距是遠大於150到180的，要直接用程式偵測決策這個門檻就是技術成功的關鍵了！

排除黑環區之後的二值化與目標切割，有點像繁星計畫，如果讓偏鄉學生直接跟都會區學生比成績，因為教學資源的差距當然就很難進入頂尖學校了！所以就排除刺眼的黑環，讓150與180的灰階做比較，字元就可以浮現了！

當然還是不太清晰啦！但是前文說明過，因為YFS這種商標數目是有限的，即使我們無法正確辨識那個糊成一團的S，只要Y與F可以確定，商標就一定指可能是YFS了！這個例子讓我們知道，二值化只是一個概念，因應狀況我們是可以有目的的操作它來達到目的的！

多數演算法專家都希望設計出可以適用於全圖的數學模式，不這樣做好像就解題解得「不漂亮」？認為過度因人設事不是好的數學模式？這一點我是很不認同的！因為我們人的眼睛辨識目標時並不會有此偏好限制，像上面這樣刻意忽略我們沒興趣的區塊，只「細看」我們知道有意義的區塊，那是視覺看東西的常態！

為何黑環必須忽略的邏輯也不是來自影像本身，而是我們對螺絲釘資訊的外在認知，我們如何能只用影像資訊的演算知道應該忽略黑環呢？不可能的！我在乎的是如何用數學與程式模仿人的整體視覺認知過程，以達到辨識的最終目的！對於虛幻的數學形式美感我是完全不在意的！你認為呢？

( 心情隨筆｜工作職場 )