網路城邦
上一篇 回創作列表 下一篇  字體:
環狀的沾連,當然要靠精準的環狀切割,CNN不會的!
2021/10/19 14:23:20瀏覽748|回應0|推薦9

這種螺絲頭上的字元辨識也是一大難題,因為字元用眼睛看還蠻清楚的,如果我說無法辨識,是很難讓客戶接受的!但是它的辨識困難點在哪裡呢?看下面這個Y字元就知道了!字元在鑄造時就是跟邊緣實質相連的,所以不管怎麼拍攝,或怎麼作影像增強處理,都無法將字元切割為獨立目標。以OCR的辨識流程來說,過不了獨立切割這一關,故事就結束了!

那怎麼辦呢?確實讓我傷腦筋很久了!稍早是有設計了一些解法,但是不夠穩定,這兩天針對這些演算法做了一些整理精進,也將現有資料中所有這個類型的照片整理出來一起研究。基本上就是要精確地找到狹窄字元區的內外半徑,將此環狀區以外以內的影像都切除掉,再做二值化目標分割就對了!

那要如何做得很精準呢?如同想揮刀砍斷綁著雙手的繩子,一砍歪手就斷了!這又必須回到極座標的演算了!首先當然座標原點要計算得很準,我之前文章有介紹過了!接下來是建立半徑與圓周黑點覆蓋率的柱狀分布,如下圖,某個半徑如果形成一個完整的黑圈就是100%,全白就是0%,以此類影像來說,在字元分布區內外都是接近實心的黑區,其實不難找到他們準確的邊界。

如上圖,視覺上我們要找的就是那個柱狀圖中近似平底的山谷,如果沒有這種明顯特徵的就不是這種圖,我也不會用這種方式決定內外徑了!這種圖是特殊狀況,不能吃錯藥的!準確切割下環型區域後,再做二值化目標切割,就可以得到如下的獨立字元目標了!

我覺得這裡有趣的部分是:你要怎麼用數學語言告訴電腦你要找哪個山谷的兩邊懸崖?就是上上圖的綠與紅線位置?這不會太難,但解析起來寫成程式還蠻囉嗦的,讓我感受到我們的「直覺」好神奇!眼睛直接找一個近似方形的凹槽絕對不會誤認,但是圖上還有一個山谷是尖底的,你怎麼跟電腦說清楚我不是要尖的而是方的?任何部分都還會有小幅度的起伏哦!當作智力測驗題吧!

這個例子也再度戳到用CNN做影像辨識的痛點,他們的那種AI技術是絕對無法如此精確操作解出這種題目的!這不只是抽絲剝繭而已,更像是一個破關遊戲,每個關卡都是前後緊密結合的,你必須如印第安那瓊斯找聖杯一樣,依序破關才可能找到終極的寶物!每一個便是關卡都必須使用針對性的數學原理與技巧,不能靠猜測(可能性太多了),或大量資料經驗統計出答案的。

做這些事情的過程中,我是完全沒有使用CNNMLDL的哦!那麼我做的這些東西就不算是AI影像辨識了嗎?其實用了反而就一定做不出來了!大家應該醒醒,看清楚也想清楚:影像辨識到底是甚麼東西了!絕對不是那些AI大師們講的那樣啦

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:http://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=169602849