網路城邦
上一篇 回創作列表 下一篇  字體:
CNN的卷積運算我也用的!但是用的方式優雅有效多了!
2024/01/05 09:33:23瀏覽455|回應0|推薦6

雖然我長期批評MLDLCNN等技術在影像辨識領域被過度高估了!但是任何方法會存在都一定有其價值!所謂「泰山不讓土壤,故能成其大;河海不擇細流,故能就其深。」我不但沒有因此忽視這些技術,還讓我的徒弟去讀研究所鑽研這些技術,也真的找到一些用得上這些技術的地方,讓我們的影像辨識技術繼續進化之中!

如上這個非常模糊的車牌影像辨識就是一個很好的例子!事實上為何很多人都放棄了OCR的傳統影像辨識技術擁抱CNN,原因正是因為OCR能夠辨識目標的前提是正確的二值化目標切割,如果碰到前景與背景無法正確切割時,像是如上圖的影像模糊導致DD相連,UR也相連時,好像就玩不下去了?

但是CNN的技術是不用先找到目標邊界的!直接用特徵矩陣掃描就可以找到貓狗的鼻子眼睛等等,所以像上圖這樣沾連的DDUR等字元用CNN的卷積(掃描)運算是可以直接辨識出來的!我所以不敢用的原因只有一個:全圖搜索太耗時了!CNN因此是一個先天上就運算量太大執行速度太慢的不合理方法,要用來開發商用辨識軟體幾乎是不可能的!

我早期的車牌辨識流程中就有一些切割沾連字元的輔助程序,但是相當粗糙粗魯,譬如估計寬高「好像」是兩個字元就直接對半剖開,當作兩個目標處理。但是像印尼車牌字元是不等寬的,較窄的1I字元間隔也會跟著縮小,所以如果與鄰近字元沾連時,好像胖子與瘦子牽手,正中間一刀切下是一定不對的!

此時最好的方式是用CNN的卷積運算(Convolution)直接在「目標內」進行搜尋,具體說就是用D字元的矩陣模型在DD相連的大目標內做掃描,很容易就可以找到有兩個位置D的符合度極高,也就是在沾連目標中找到兩個獨立的D字元了!相連的U與R也是一樣,看起來好像有猜測的成分?但其實是很穩定準確的辨識結果,這就是卷積運算最優勢的地方了!不必傷腦筋做正確的連體嬰切割了,在這個角落我是拋開OCR使用CNN的!

我就是這樣讓CNN的部分技術融合到了我的影像辨識技術中!所以如上面這種模糊程度的車牌以前是要碰運氣的,現在辨識成功正確的機率就大幅提升了!至少在面對模糊目標時絕對不會比CNN的辨識能力差了!同時又避開了全圖搜索掃描的陷阱,因為我只需要在極小範圍內使用CNN,不會太耗時的!

其實我的RD近日在研究辨識汽車廠牌LOGO時,也引用了機器學習的概念設計「模糊LOGO」模型!就是用很多從資料中擷取的模糊LOGO影像來統計製作出辨識用的參考模型,而不是直接用標準的LOGO設計圖來製作。因為真實影像中幾乎不可能有像設計圖一樣清晰的LOGO,所以使用資料統計的模型會更接近真實影像中會呈現的樣貌!這就是Data Driven的概念了!

所以我們雖然不認為以MLDLCNN為基調的影像辨識是好的方案!但是在適當的時機流程中使用它們的優勢長處,絕對可以讓我們的影像辨識技術更優化升級!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=180218624