網路城邦
上一篇 回創作列表 下一篇   字體:
OCR技術的山窮水盡疑無路,柳暗花明又一春!
2024/09/22 08:54:33瀏覽130|回應0|推薦4

我常批評CNN等技術的運算量過大,衍生了很多無謂的資源浪費,甚至會讓地球暖化加速催毀地球生態,但是影像辨識的需求壓力也是很大的!如果沒有CNN以外的影像辨識技術可以取代也是一個大問題!實際情況是我們確實有OCR等傳統技術可以做出大部分的影像辨識,只是OCR也有它的缺點,如上目標較模糊對比度較差無法完整切割出所有字元時,就會讓辨識功虧一簣的!

譬如上例中的DU沾連了!035中的05都破碎成左右兩塊了!檢核碼的3則是和背景連成一氣了!因為我們需要的是RKDU 200035 3等等11個字元都能正確辨識,所以需要正確切割出每個字元才能辨識正確的OCR方法似乎行不通了?此時採用特徵掃描,不必管目標邊界的CNN就會跳出來說:這個我行!

簡單說,CNN的概念是用特徵矩陣掃描影像統計圖上特徵的分布強度,只要符合特徵的字元,即使它們很模糊、破碎或互相沾連都可以辨識出來的!這是事實,也因此大家都太快就放棄了傳統的辨識演算法,一窩蜂跑去膜拜CNN,以為祂是影像辨識唯一的救世主了?但這就跟「何不食肉糜」的故事一樣!理論上或許可行,但是成本實在太高了

因為CNN不像OCR可以經過二值化切割等運算量不大的點與線影像處理,迅速知道「大多數」有意義目標的明確資訊,所以要找到如上影像中無法預先知道大小的字元目標,CNN必須經過冗長的矩陣全圖掃描運算量先天上就高於OCR方法不只百倍!所以一般電腦的CPU都不夠他們浪費的,GPU必須被重用這就是主要原因了!

所以即使CNN真的可以解決問題,也會像千萬超跑一樣,大家都公認它們的性能不錯,但只能欣賞,實際上是買不起的!此時大型雲端廠商就會跳出來說:你們的電腦不夠力沒關係,送到雲端我幫你辨識就好了,付點小錢給我即可!這就是現在大公司拼命買輝達產品的原因了!他們認定影像辨識的計算量太大,非上雲端處理不可!那就是他們的無限商機了!

但這一切發展的前提是:影像辨識「只能」使用CNN這種需要極大量運算的演算法!如果有其他的選擇呢?如果我可以突破OCR的缺點限制,讓OCR也能辨識模糊的目標呢?如果我可以只用CNN百分之一的運算量,也就是百分之一的執行成本,就可以做得比CNN更快更準呢?

這就是我目前在做的事情了!如上例中雖然基本的OCR有些缺點讓辨識無法立即完美達標,有如「山窮水盡疑無路」?但是如果「大部分」的字元目標都呈現了!我們就可以利用很多影像資訊以外的格式資訊去推理!把沾連的字元正確切開,把破碎的字元正確融合,甚至把融入背景的字元精準的挖出來!

如上案例我就做到了!算是破碎不堪的字組我都能以OCR方法為主軸完成正確的辨識,就只是在「山窮水盡疑無路」時,大家都太早放棄回頭了,只有我繼續堅持冒險精神多走幾步路而已,就找到出路「柳暗花明又一春」了!而且兩百萬畫素的複雜影像辨識間只需要0.156秒!當然是不必使用任何GPU支援的!影像辨識用你的平凡電腦就很快很準了,不必額外花錢上雲端找GPU了!這些不是我的未來規劃,而是正在銷售中的實際產品!

我們公司現在天天在做各種影像辨識和新產品,已經做了十年!我們各種辨識都做,無役不與也戰無不勝攻無不克!都是完全不必使用CNNGPU的!我們打通了一條完全不必使用MLDLCNN的影像辨識之路!就像你買的平價汽車可以跟超跑賽車,還總是能贏一樣!用過我們產品的客戶都回不去CNN了!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=181086336