找到目標只是影像辨識的起點，辨識正確才是終點！ - 鄉下老師

字體：小中大

找到目標只是影像辨識的起點，辨識正確才是終點！

2024/03/15 08:11:04瀏覽664｜回應0｜推薦4

以我目前的車牌辨識軟體來說，這是一個看似平常的辨識案例？但魔鬼藏在細節裡！即使它不是一個歪斜度很大，或特別模糊的案例，但要完全正確的辨識其實是很困難的！

如果你熱衷於學習使用AI技術，要像CNN或YOLO一樣找到車牌區域，像上圖一樣用紅框框起來，那很簡單，隨便套招找書上或網上範例程式模組都做得出來！但也只能到此為止？進一步要字字分明正確的辨識呢？想用那些AI技術做到高正確率的商業軟體幾乎是不可能的！你必須考慮到很多非影像內部資訊的物理定律才行！

看看上面的放大局部處理圖就知道，如果只在影像本身找資訊做影像處理，車牌中的3與7怎麼作都無法完美，3字的殘缺狀況還可以利用大部分相同的比例原則判斷答案應該是3，就像賭神看紙牌上只露出一個角的字元猜字一樣！但是只能看清楚下半部的7呢？就無法避免被辨識成數字1了！

造成這種難辨識的原因不是影像品質的問題，而是物理環境上的原因讓部分字元處在陰影之中！任何影像處理都很難融入這種非影像資訊的校正的！所以不論用再多的影像資料去「處理」、「學習」或「訓練」，如果不能正確加入物理參數的標記，譬如此字有陰影或無陰影之類的？電腦只會學出一個辨識有無陰影時的字元都不太正確的爛經驗！

總之，要我替ML、DL與CNN等AI影像辨識技術解套，想出他們可能可以正確辨識這類例外狀況車牌的合理方法？我是完全想不出來！我想機器學習專家們目前也還卡關在這裡，所以他們根本做不出可以跟我競爭的車牌辨識軟體！市面上至今都沒看到。

那我是怎麼作的呢？其實就是對症下藥而已！例外的狀況就不能拘泥於常規的處理方式，我是用其他已經辨識出來的字元大小與排列，用統計與估計合理正確值的方式，找到這個破碎字元應該有的位置範圍，這是你從影像資訊中怎麼作都切不出來的結果！我仰賴的是其他物理上正確的資訊推理的！就像水管哪裡不通時，用力敲阻塞點水管可能就通了，用力敲正常的地方呢？水管可能反而壞掉了！專家可以用很多外在資訊幫他做正確的決定！這才叫做智慧！

這已經跳脫OCR或CNN的範疇了！我使用了比影像本身更多而且更正確的資訊來協助我做出最正確的影像辨識！從包含「非」影像資訊的更全面推理過程中我得到了上圖7應該存在的位置，然後強迫做個盡量可以填滿此區域的二值化處理，原本上半部模糊的7字就被迫完整呈現了！

我想重點是：如果一般人很容易辨識的這種狀況，車牌辨識軟體卻老是辨識錯誤，就不是可以順利商業化的產品了！那些搞AI的人喜歡吹噓「某些」影像辨識能力，AI已經超越人的視覺了？這其實毫無意義！譬如在陰暗的狀況下，任何影像辨識軟體都比人眼厲害！

我們做影像辨識軟體，合理的研究目標與方向，應該是可以取代人眼(人力)工作的軟體！如果有太多狀況跟不上人類視覺的常識？那就是還不夠好不夠商業化的軟體了！如果在車輛進出量不大的社區停車場，保全伯伯的老花眼看車牌的錯誤率比車牌辨識系統還低，那就不必花錢安裝車牌辨識系統了！

所以這才是我具體的日常工作目標！就是將影像辨識的意義價值推演到超出「影像」辨識技術的範圍！希望可以追上一般人的視覺智慧！我不喜歡用機器學習所以就說我不夠AI嗎？燕雀安知鴻鵠之志？你們是門縫裡看人，把我看扁了！來追我的車尾燈吧！

( 心情隨筆｜工作職場 )