我的OCR影像辨識已經開始導入ML與CNN概念了！ - 鄉下老師

字體：小中大

我的OCR影像辨識已經開始導入ML與CNN概念了！

2024/01/09 06:46:04瀏覽479｜回應0｜推薦8

車牌辨識的影像處理過程不管怎麼作，最終要辨識出目標是甚麼字？還是必須依賴某種字模去比對的！但是碰到如上這麼模糊的情況，M與W其實都是一團霧，使用完美的黑白分明的字模去比對真的很難分辨是M還是W？多數做車牌辨識的人此時都只能跟客戶「講理由」了，希望客戶能接受這是沒辦法的事。

但是很微妙的，幾乎所有人的眼睛都可以很明確的辨識上圖中的M與W？如果普通人的能力都可以輕易辨識的字，你的影像辨識軟體卻無法辨識？或很容易錯？那就是不夠AI了！比普通人的智慧差太多了嘛！所以想自稱是「AI」影像辨識專家的人，就必須設法模擬或複製出人腦與人眼的這種能力(智慧)才行！

對於拘謹使用OCR技術的人可以說就是卡關了！二值化的簡單字模比對是一定不行的！此時機器學習派的概念作法就會是一個出路，理論上只要收集夠多的模糊案例，讓電腦去「學習」，就有可能得到跟人眼判斷結果非常近似的辨識能力！

具體來說，機器學習就是用統計的方式歸納M或W的特徵，就像人會覺得那團模糊目標的重心比較偏上的應該是M，比較偏下的應該是W，之類的。我們無法直接下載人腦中的辨識程式，但是有兩個方向可以做到更接近人的智慧！一是用機器學習的嘗試錯誤法，讓數學模式不斷自我修正也就是學習到可以利用某些特徵去辨別模糊的字！另一方式則是踏實地用物理與幾何學原理研究思考逆推人腦的智慧。

讓機器自行學習獲得的結果我們通常無法精確理解掌握，當數學模式不夠精密複雜，或起始值或搜尋嘗試的範圍不理想時，都會找不到好結果。操作機器學習的人每天的工作大概就是這樣似懂非懂的到處亂踹了！這跟找六合彩的明牌或買樂透一樣！即使得獎也不知道這個電腦軟體以後要如何升級維護？這也是以機器學習為主軸的影像辨識軟體難以商業化的極大障礙！

我是使用OCR技術為主軸做辨識的人，我們不想像機器學習派那樣盲目工作，但還是可以用機器學習的統計概念來解決問題，其中一招就是將字模變成一個機率矩陣！多用一些案例來有意識的調整這些機率矩陣的內容，譬如上面提到的M會比較上重下輕，W則是下重上輕等等。我們的目標也跟機器學習一樣，設計出一個特徵模型可以最近似人的判斷能力！

結果大致就像上圖，不同的顏色其實就是一個簡化的機率值，哪裡有黑點就必須加權多少，哪裡有白點必須加權多少等等。概念上就是以資料為根據的「手動」機器學習過程，只是我們會更有意識的理解與決定為何某些點必須改變加權機率？就是逐步在分析研究理解人腦人眼的判斷機制與邏輯。

我很久以前就有這種想法，要兼容並蓄採納融合所有可用的辨識技術，但是OCR與ML的基本概念差異極大，即使這些年我們持續關注學習ML等相關技術，但是好難引用整合。我們確定的方向是依舊以OCR為辨識流程的主軸，但是碰到局部模糊的問題時就設法引進資料統計的機器學習概念，上面的特徵字模概念就是一個大突破，也是我的RD碩士論文的主題。

所以我們的辨識技術也漸漸不能說完全沒用到ML與CNN了！確實已經有引用到局部的模糊資料處理過程中，但是當然都是不得已時才使用的情商客串。限量使用的原因，不是我們歧視他們，而是ML、DL與CNN的使用(計算)成本實在太高了！就像你一旦買了豪宅隨之而來的貸款、稅金與管理維護開銷很快就會讓你崩潰了！偶爾旅遊時住個奢華一點的套房則是還可以接受的！

( 心情隨筆｜工作職場 )