網路城邦
上一篇 回創作列表 下一篇  字體:
一個例子告訴你,我如何讓OCR超越DL與CNN!
2025/07/11 08:31:55瀏覽553|回應0|推薦13

所謂的OCR就是Optical Character Recognition,中文翻譯是光學字元辨識,也是我開發車牌辨識軟體的基礎技術!自從深度學習(Deep Learning)與類神經網路(CNN)等所謂AI技術開始搶佔影像辨識的鋒頭之後,產生的錯誤印象就是OCR比較老舊落伍?不必學習或研究OCR了?DLCNN就可以把所有辨識搞定了?

這是極端荒謬錯誤的想法!基本上OCR是針對影像的物理事實資訊,明確分析解決辨識問題的科學技術!相對的,DL等技術則只是用人眼識別的答案為標準,利用大量資料統計逆推產生與物理事實無關的隨機演算過程模型!跟所謂的視覺「智慧」或「理解」是毫無關係的!

所以MLDLCNN在影像辨識的領域搶佔AI人工智慧C位已經是件非常荒唐的事情!因為它們根本不是根據科學原理原則建構的結果,只是可以產生最符合經驗的演算模式而已!可怕的是:如果大家都只用這些技術概念研發製作影像辨識產品,表示真正對於影像辨識智慧的理解與研究會全面停頓甚至退化!

還好我估計這種荒謬錯誤不會持續太久!因為統計學的運作方式成本太高效率太低,也就是用OCR解決車牌辨識問題的效率遠高於DLCNN,需要的資料與運算成本只是DL的數十甚至數百分之一!研發成果的合理性與可靠度更是遠非DLCNN可以比擬的!最終沒有人會笨到跟自己的錢過不去!又貴又不準,還難以優化升級維護的影像辨識軟體也沒人會買的!

DLCNN等技術用來攻擊OCR的說詞主要是OCR似乎」必須有目標明確清晰的前提?目標較不清晰時就完全不能用了?較模糊的目標就必須依靠CNN掃描找出模糊的特徵權重值,再依靠DL的大量嘗試錯誤運算來統整歸納這些特徵,得到OCR完全不可能辨識出來的答案?這完全是胡說八道!

事實是:只要CNN可以用特徵矩陣搜尋出來的特徵,OCR也都可以利用不同的灰階二值化等程序策略更快而且更準確地找到!不管是OCRCNN都不能無中生有的!反之,只要有事實資訊時,OCR找到特徵的效率是遠遠高於CNN的!我相信人的腦袋裡在影像視野中找特定目標時,絕對不是用矩陣運算掃描的!而是更直覺的認知所有的點與線或任意形狀的區塊,這比較像OCR的概念!

如上例我們可以非常快速的只用幾個毫秒就得出如上的二值化圖,如果因為某些字元過度曝光顯得破碎不完整如上圖的73時,我們也可以改變二值化策略將門檻拉高,較模糊的字就可以正確呈現了!如下圖:

我的軟體都是預設會做多門檻二值化的!因為OCR運算量少速度快,所以我的標準程序都是會用兩三種不同策略的辨識流程找出最好的結果,辨識速度還是很快!還是不需要用到GPU幫忙CNN的故事就完全不同了!YOLO的研究就是那套方法捉襟見肘的狼狽展示,如果學我一樣好好研究優化OCR技術,YOLO是根本不需要存在的!

當然我對OCR的貢獻還不只於此,影像因為拍攝角度不同,字元目標一定會歪斜變形的!所以當我們可以用OCR技術在原圖中鎖定辨識目標之後,很重要的步驟是幾何投影校正至少目標區的局部影像,不然字元的歪斜變形可能狀況太多,再多的資料都不夠讓DL去學會辨識所有歪斜變形字元的

如上圖我會刻意多校正已鎖定的幾個目標的左右延伸範圍,這樣如果車牌邊緣的字與背景沾連時,我還可以在此已經幾何校正的圖中強制辨識尋求補救!事實上我會將此已校正圖當作一個新的影像重作辨識,但是因為已經不需考慮字元的歪斜變形,所以可以把目標當作標準寬高比的字元做字模比對,就可以知道目標到底是哪個字了!

以上圖來說,6973四個數字當然毫無疑義就能正確辨識,但是以OCR的標準程序來說,MZF三個英文字在此是完全相連的,硬是將此三胞胎連體嬰當作一個字來比對字模當然不會得出有意義的結果。此時就要參考已經正確辨識出結果的幾個字元,得知在此影像中每個單一字元應有的寬高大小,以此標準嘗試分割三胞胎就很容易可以得到正確答案MZF-6973了!

上圖是此案例辨識的完整資訊,資訊中看不到的是我事實上使用了三種二值化策略才找到正確答案!但是整體辨識時間還是只用了270毫秒!如果碰到容易辨識的案例,同樣視野畫素的影像是有可能只用0.1秒就辨識成功的!

所以OCR絕對不是碰到模糊目標就會束手無策!反而是能比DLCNN更快速有效的精準解決問題!而且所有OCR的策略設計與調整都是根據科學原理推論的結果,跟DL等統計學抓瞎的結果不可同日而語!DLCNN到底有甚麼優勢理由可以取代OCR?這個問題我想了十年!沒想出任何一個理由!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=182964701