網路城邦
上一篇 回創作列表 下一篇  字體:
影像辨識也可以用繁星計畫選材的!
2021/10/21 09:40:58瀏覽794|回應0|推薦3

如上圖這麼模糊的字元是怎麼辨識的?如果不解釋清楚,連我的客戶大概都會懷疑我作弊了!首先宣示這和甚麼機器學習(ML)或類神經網路(CNN)都毫無關係,也沒有任何神秘不可告人的技術,只有非常清楚合理的影像處理與辨識邏輯。

首先我們用正常的灰階與二值化標準程序處理,結果如上圖,字元對比太差了,根本看不到字,將F字元的灰階圖放大給大家看就更有感了!真的是既模糊又黯淡,現在的攝影機都很「聰明」,會自動對焦,它們是依據甚麼資訊調整焦距的呢?當然是影像中最強烈對比的目標,讓該目標更銳利!如果那兩個環狀的目標比字元更清楚,當然是聚焦於兩個黑環,字元就更模糊了!

面對這種影像,演算法方面還有甚麼招數可用呢?如果你用PhotoShop之類的軟體檢視,黑環的灰階大約是85,字元灰階大約是150,字元的背景大約是180。要看到獨立字元的邏輯是:忽略太黑的部分,將150灰階左右的畫素變成黑色,180左右的視同白色。

要怎麼作到呢?其實就是盡量切出字元所在的淺色環狀區域,排除太黑的環狀區域,再以淺色區域為基準,找到最佳的二值化處理方式,我們必須找到150180之間的最佳門檻值,須知85150的差距是遠大於150180的,要直接用程式偵測決策這個門檻就是技術成功的關鍵了!

排除黑環區之後的二值化與目標切割,有點像繁星計畫,如果讓偏鄉學生直接跟都會區學生比成績,因為教學資源的差距當然就很難進入頂尖學校了!所以就排除刺眼的黑環,讓150180的灰階做比較,字元就可以浮現了!

當然還是不太清晰啦!但是前文說明過,因為YFS這種商標數目是有限的,即使我們無法正確辨識那個糊成一團的S,只要YF可以確定,商標就一定指可能是YFS了!這個例子讓我們知道,二值化只是一個概念,因應狀況我們是可以有目的的操作它來達到目的的!

多數演算法專家都希望設計出可以適用於全圖的數學模式,不這樣做好像就解題解得「不漂亮」?認為過度因人設事不是好的數學模式?這一點我是很不認同的!因為我們人的眼睛辨識目標時並不會有此偏好限制,像上面這樣刻意忽略我們沒興趣的區塊,只「細看」我們知道有意義的區塊,那是視覺看東西的常態!

為何黑環必須忽略的邏輯也不是來自影像本身,而是我們對螺絲釘資訊的外在認知,我們如何能只用影像資訊的演算知道應該忽略黑環呢?不可能的!我在乎的是如何用數學與程式模仿人的整體視覺認知過程,以達到辨識的最終目的!對於虛幻的數學形式美感我是完全不在意的!你認為呢?

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=169685142