影像辨識的任督二脈是數學與常識！ - 鄉下老師

字體：小中大

影像辨識的任督二脈是數學與常識！

2022/01/26 06:23:37瀏覽1235｜回應0｜推薦11

有個讀者是某大公司的RD，問了一個他們工作上必須辨識某種模糊目標的問題，我有給他完整的辨識構想回應，也希望能變成一個公司承作的專案，但是當然現階段實際內容不方便跟大家報告。但是溝通過程中，雙方理念的差距蠻有趣的，可以跟大家說說，我也是用上圖的辨識跟他說明的！

一開始他是問我：有沒有甚麼好的數學演算法，可以辨識出他想辨識的模糊目標？他說已經試過幾種影像辨識方法，但都各有缺點，就是沒有一招斃命的招式，他常看我的文章認為我很厲害，所以在FB留言問我可有更絕妙的招式？介紹論文給他看也可以！

我拿了他的幾個Samples玩了兩天，也有了解題構想，但並不是某種神奇現成的知名演算法，而是類似我解決上述炫光車牌辨識的概念。那個L字元對比度其實比背景中大多數的可辨識目標都還低很多！但他就是車牌不可或缺的一個重要部分，少了它我的整個答案就確定是錯的，功虧一簣了！

實際上，根本也沒有任何適用於全圖的標準辨識程序邏輯，可以讓我直接找出完整的車牌！第一回合我大概就是找到較清楚的0767或者勉強看到K字而已！這是單一流程可以做到的極限了！如果我在主程序就鉅細靡遺，連這種模糊訊息也處理，那計算時間就會很誇張了！訊息太多還可能會出現意外錯誤。

所以不能僅依賴影像處理的技術，第一回合較簡單合理的程序抓到的結果如果不符合車牌的格式等特徵，你就要設法補救了！看起來少字了，那就在0767的前後找找看吧？當然此時找目標的標準必須降低，就是此地無魚蝦也好的意思！這種邏輯與合理性其實就不是只參考影像資訊了！

影像辨識就是應該這樣的！只想完全依賴影像本身的資訊與數學方法，很快你就會碰到瓶頸，不是陷於超量的運算，讓辨識時間變得太久，必須呼叫GPU來幫忙；就是真正需要的正確資訊，如上例中的L字元，用任何影像邏輯都無法讓它出頭被認可？

所以我說作影像辨識時，非影像資訊的外在常識是非常重要的！也就是你必須帶著「成見」來完成最合理聰明的辨識程式！只想在故紙堆((論文)中翻找神奇的武功秘笈？你就死定了！如葉問的電影中，旁觀武師的台詞：「拳不是這樣打的！」

我是數學特別好，才能變成影像辨識專家嗎？絕對不是的！我的優勢並不是數學好，而是常識好！而且我毫不遲疑地願意整合我的影像知識與常識來製作我的辨識程序！你也應該試試的！那就是我認為的影像辨識任督二脈了！你打通了嗎？