CNN比OCR厲害的地方在這裡！ - 鄉下老師

字體：小中大

CNN比OCR厲害的地方在這裡！

2024/06/19 11:51:58瀏覽765｜回應0｜推薦6

影像辨識領域大家都喜歡高來高去，講些誰都聽不懂的話！總是暗示這裡有很多神秘不可解的AI技術？好像在說：你們太笨了！聽不懂是應該的？但不管怎麼神秘抽象的技術，總是要能寫成具體的程式，針對具體的影像實作出正確的辨識功能才有意義！可是那些網路上說話最多的網紅或專家其實都沒做過任何有用的商用辨識軟體！所以影像辨識真的好難學會！真正會做正在做的人說話太少了！我想稍微改變一下這個狀況！

我是一個半路出家的苦行僧，對於資訊領域的半吊子喜歡賣弄刁難初學者或外行人感受很深！因為說大話的人太多，我都搞不清楚該聽誰的了？被其實根本不會實作的「專家大神」們唬得一楞一楞是常態！學習過程可以說是苦不堪言！如今十年有成，終於可以實作出各種影像辨識領域的技術，我很希望可以分享一些具體的實例，即使你不做這行也可以輕鬆理解這些有趣的技術。

上面就是一張很模糊還有一條不知所云的直線雜訊干擾的發票，使用OCR必經的程序是二值化變成黑白圖，然後以每一個獨立黑色區塊作為下一步處理的基礎，碰到這種影像可就頭痛了！不該分裂的字分裂了，不該相連的目標反而被雜訊串連在一起了！

如何可以抽象的不被這些破碎資訊擾亂，直接看出我想知道的字呢？其實就是心中假設一個字的概略大小，沿著圖面掃描過去，篩選出你需要或認為有意義的字元資訊！這就是CNN的主要精神了！我不喜歡用CNN只有一個原因，就是說得是很容易，實際運作起來計算量卻很大，但是碰到這種模糊影像，再不喜歡也得用了！

好消息是真的有用！上圖左是原圖，中間是二值化之後的黑白圖，右邊是用CNN概念掃描搜尋出來的字塊！如果是我不想辨識的部分，譬如中文字，我就不會設計特徵矩陣來找他們，自然大部分就被我的程式忽略篩選掉了！但是我想找的字即使很模糊，只要有點像都不會被遺漏的！

很簡單吧？這就是使用CNN類神經網路技術的具體實例了！沒有很難很抽象的！其實也真的跟我們的大腦看東西的模式很相似！只是計算量真的很大，所以才有人說人腦其實比一般的超級電腦更厲害，我們看東西時潛在的運算量比超級電腦猶有過之！我們需要研究的AI之路還很漫長！如何合理實作出有用且不會太昂貴的AI軟體，就是我努力的事業方向了！

( 心情隨筆｜工作職場 )