OCR技術的山窮水盡疑無路，柳暗花明又一春！ - 鄉下老師

字體：小中大

OCR技術的山窮水盡疑無路，柳暗花明又一春！

2024/09/22 08:54:33瀏覽130｜回應0｜推薦4

我常批評CNN等技術的運算量過大，衍生了很多無謂的資源浪費，甚至會讓地球暖化加速催毀地球生態，但是影像辨識的需求壓力也是很大的！如果沒有CNN以外的影像辨識技術可以取代也是一個大問題！實際情況是我們確實有OCR等傳統技術可以做出大部分的影像辨識，只是OCR也有它的缺點，如上目標較模糊對比度較差無法完整切割出所有字元時，就會讓辨識功虧一簣的！

譬如上例中的D與U沾連了！035中的0與5都破碎成左右兩塊了！檢核碼的3則是和背景連成一氣了！因為我們需要的是RKDU 200035 3等等11個字元都能正確辨識，所以需要正確切割出每個字元才能辨識正確的OCR方法似乎行不通了？此時採用特徵掃描，不必管目標邊界的CNN就會跳出來說：這個我行！

簡單說，CNN的概念是用特徵矩陣掃描影像統計圖上特徵的分布強度，只要符合特徵的字元，即使它們很模糊、破碎或互相沾連都可以辨識出來的！這是事實，也因此大家都太快就放棄了傳統的辨識演算法，一窩蜂跑去膜拜CNN，以為祂是影像辨識唯一的救世主了？但這就跟「何不食肉糜」的故事一樣！理論上或許可行，但是成本實在太高了！

因為CNN不像OCR可以經過二值化切割等運算量不大的點與線影像處理，迅速知道「大多數」有意義目標的明確資訊，所以要找到如上影像中無法預先知道大小的字元目標，CNN必須經過冗長的矩陣全圖掃描，運算量先天上就高於OCR方法不只百倍！所以一般電腦的CPU都不夠他們浪費的，GPU必須被重用這就是主要原因了！

所以即使CNN真的可以解決問題，也會像千萬超跑一樣，大家都公認它們的性能不錯，但只能欣賞，實際上是買不起的！此時大型雲端廠商就會跳出來說：你們的電腦不夠力沒關係，送到雲端我幫你辨識就好了，付點小錢給我即可！這就是現在大公司拼命買輝達產品的原因了！他們認定影像辨識的計算量太大，非上雲端處理不可！那就是他們的無限商機了！

但這一切發展的前提是：影像辨識「只能」使用CNN這種需要極大量運算的演算法！如果有其他的選擇呢？如果我可以突破OCR的缺點限制，讓OCR也能辨識模糊的目標呢？如果我可以只用CNN百分之一的運算量，也就是百分之一的執行成本，就可以做得比CNN更快更準呢？

這就是我目前在做的事情了！如上例中雖然基本的OCR有些缺點讓辨識無法立即完美達標，有如「山窮水盡疑無路」？但是如果「大部分」的字元目標都呈現了！我們就可以利用很多影像資訊以外的格式資訊去推理！把沾連的字元正確切開，把破碎的字元正確融合，甚至把融入背景的字元精準的挖出來！

如上案例我就做到了！算是破碎不堪的字組我都能以OCR方法為主軸完成正確的辨識，就只是在「山窮水盡疑無路」時，大家都太早放棄回頭了，只有我繼續堅持冒險精神多走幾步路而已，就找到出路「柳暗花明又一春」了！而且兩百萬畫素的複雜影像辨識間只需要0.156秒！當然是不必使用任何GPU支援的！影像辨識用你的平凡電腦就很快很準了，不必額外花錢上雲端找GPU了！這些不是我的未來規劃，而是正在銷售中的實際產品！

我們公司現在天天在做各種影像辨識和新產品，已經做了十年！我們各種辨識都做，無役不與也戰無不勝攻無不克！都是完全不必使用CNN與GPU的！我們打通了一條完全不必使用ML、DL與CNN的影像辨識之路！就像你買的平價汽車可以跟超跑賽車，還總是能贏一樣！用過我們產品的客戶都回不去CNN了！

( 心情隨筆｜工作職場 )