我的影像辨識技術就是來自OCR的基礎與研發進化！ - 鄉下老師

字體：小中大

我的影像辨識技術就是來自OCR的基礎與研發進化！

2022/05/21 04:10:09瀏覽1353｜回應0｜推薦5

上面文字其實是摘自一個又是強調AI技術多神奇的廣告，但是對OCR的定義說明很清晰正確！我作車牌辨識的技術就是源自我早期對於這種技術的粗淺概念！反正就是從影像中把字元認出來，但我是一開始就嘗試把這種技術拿來找到在道路影像中看到的車牌！而不是從掃描文件影像玩起。

很有趣的是：當我把車牌辨識做出成績時，專做文件與證件辨識的影像設備公司反而來找我協助他們開發更有「智慧」(更AI)的辨識軟體？而且還大獲成功！他們原本很多產品的辨識核心需要取得國外的授權使用，辨識率還不太好，尤其是影像品質或印刷不完美時，誰都希望軟體更聰明一點。

上面的步驟敘述也寫得很清晰正確易懂！我確實就是這樣研發工作的！用影像處理技術找到可能的目標→幾何校正→比對字模與特徵→判定是甚麼字？等等。現在熱炒的CNN其實只是「找到可能目標」的技術，對於辨識的中後段流程則是刻意模糊。

但「影像辨識」是要確認那是甚麼字？或甚麼有意義圖案的！所以OCR是一個完整的且已經實際運作的可用技術，CNN則根本還沒建立出完整的影像辨識流程，所以我說過OCR不需要CNN已經是個大人了！是CNN沒有OCR的協助就根本沒有做出完整影像辨識的可能！

上面這段話其實正確的說只是傳統簡易的OCR技術遇到的困難，如果說成是限制？好像是說男生無法生小孩一樣？完全沒有機會解決？當然不是這樣的！我目前的影像辨識事業，就是來自我對這些傳統OCR碰到的困難狀況開發出了很多解決方案技術！成效很好，所以我的車牌辨識看起來就很「AI」了！但都還是屬於OCR範疇的技術，與ML或CNN等所謂的AI技術無關的！

譬如他說簡單文件的字好辨識，色彩繽紛的DM就「無法」辨識？這當然是故意低估OCR的說法！人的眼睛既然能看到DM上的字，當然就有明確的邏輯可以轉換成辨識程式，白底黑字可以用OCR切割，難道紅底白字就無法切割？當然可以！這不需要機器學習的！我們直接用簡易程式偵測，就知道該怎麼做了！

其實那些AI技術如何解決這些問題反而是諱莫如深，他們都刻意不講的！如果可以直接提出比OCR更聰明有效的商業產品，其實不說也沒關係，當作商業機密嘛！但事實上是根本沒有他們宣稱的AI「影像辨識」產品！下面是這個網頁最終提出的他們要推銷的「AI」產品！

其實這兩件事都可以使用OCR的方式解決，我的日常工作就是在做這些事情！說到持續優化辨識率，一兩周之前我拿到一筆四百多張有貨櫃碼的影像，當時我的軟體辨識對此批資料的辨識正確率大約是八成多近九成，努力改善辨識流程，建立有效的例外處理程序之後，到昨天辨識率已經是99%了！也不過是五六個工作天而已。絕對比拿大量資料給機器慢慢「學習」更有效率十倍以上！

所謂不受排版影響，也不需要甚麼AI的！自動適應排版之類的事情，我們目前在做的閱卷軟體就有這種基本能力，程式會自動偵測格式，只是格式的可能性較多就需要多考慮一些條件，一樣拿各種格式的資料給我們，我們看著幾十個影像工作，寫出可以應付多格式的程式，也是幾天就都可以做出原型了！

把影像辨識交給機器去「學習」，就很像你將自己可以直接做好的大人工作，堅持讓小孩子去做一樣！你會讓你幼稚園的小孩下廚房煮飯給你吃？或讓他自己「學習」開車嗎？還認為這是比較聰明先進有效率的做事方式嗎？看著影像資料用OCR的概念組織邏輯寫程式是很快的！讓電腦自己從大量資料中去逆推出「智慧」呢？那是絕對非常非常緩慢沒效率的過程！這樣反而是先進的AI？你能接受嗎？

總之，OCR是一個已經成熟可用的影像辨識技術，目前市場上的影像辨識產品都是奠基於此技術的！而且可以研發的空間還非常遼闊，根本不是AI專家們暗示貶抑的過時科技！OCR根本一點都不過時，反而是AI影像辨識至今都還沒長大到可以真的下廚！

( 心情隨筆｜工作職場 )