我的影像辨識與機器學習是主動與被動的差異 - 鄉下老師

字體：小中大

我的影像辨識與機器學習是主動與被動的差異

2024/03/09 05:22:23瀏覽607｜回應0｜推薦3

20191226 李承勳智慧影像辨識的應用

我常說我不使用機器學習等流行的AI技術做我的影像辨識，但我也是個讀過物理的科學家。我的直覺認知是：我面對的影像(物理事實)與需要解決的問題(辨識目標)，都跟那些用機器學習等AI技術做影像辨識的人完全一樣！所以我們發展出來的技術必然會有很多相同與相通之處！不會截然不同的！

這些年我當然很關注也認真學習這些熱門的AI技術理念，如上的一個演講就讓我收穫很多，也讓我更加理解我的作法與機器學習的異同之處！基本上我是循著傳統的影像處理技術走出來的，但顯然我做得不錯，才能做得比前人的車牌辨識更好，但也顯然與目前多數做影像辨識的人路線差異很大！他們是用號稱比我用的技術「更新」的所謂AI技術在玩的！

以結果論，目前用那些AI技術作的車牌辨識在市場上還完全不是我的對手，但大家都說AI前途無量，未來會不會比我厲害？誰知道呢？所謂的知己知彼百戰百勝，所以我每天都會思考他們的技術好在哪裡？問題又在哪裡？無所謂門派意氣之爭，我是個單純的生意人，不是靠論文成名的學者，也不是靠耍嘴皮子爭人氣牟利的名嘴網紅，就只會通盤思考找到最好、最合理、也最有效率的影像辨識技術，然後用最低成本做出最好的產品而已！

聽完上述演講，我的主要心得是如題所說的主動與被動的差異！機器學習乃至深度學習都是強調從資料中統計(學習)出辨識特定目標的量化條件，然後以此條件用CNN掃描的方式去圖中地毯式搜索找出最可能的目標，以我的角度看是很被動的過程！需要大量的資料，加上很長的統計(學習)時間與勞力，才能建立特徵條件。

以當老闆(成本效益)的角度來看，不論是研發(賣方)或使用(買方)這種AI都是成本很高，賠錢風險很大的！唯一會穩賺不賠的是賣AI相關軟硬體元件的廠商，如NVIDIA！或是只動一張嘴推波助瀾，自己既不花錢買，也不幫人做任何AI系統的的「AI專家」們！

我則是很主動的根據物理原理、監理法規與少量資料，用極低成本主動建立出我認為最合理的辨識條件，就是字模矩陣與一些字元特徵的量化權重公式，譬如X有很漂亮的三圍，H就沒有，K則是一邊有一邊沒有之類的！當然主觀的決定雖然很容易，但我沒有得到神諭也沒有甚麼秘笈，不可能憑靈感就設計出最完美的辨識條件，跟機器學習一樣，要經過很多「訓練」來調整到最高辨識率的！

但我的訓練過程也是「主動」的！每一個錯誤的辨識結果都會被逐步分析辨識流程，找出不洽當的特徵條件加以修改、刪除或新增，所以跟機器學習一樣我也會在如何界定分類界線上掙扎！我的所有條件也會變成多維度的分類機制，必須在統計的角度努力避免Under-fitting與Over-fitting等問題，這就是我的日常工作最耗時的部分了！

這些工作與機器學習跑訓練模式相似，差別是我可以精準理解所有辨識的細節過程，他們是被動的讓程式自行統計調整辨識參數，不做個案分析的！也因此與真實的物理世界認知越來越遠，就是很脫離現實，只能靠數字做判斷啦！對我來說那是很不安全的感覺，因為只有電腦知道實際發生了甚麼事？我很像是被員工蒙在鼓裡，只能看報表間接理解狀況的笨老闆？

但確實以整個流程的觀點我的作法與機器學習並沒有那麼不同，所以我也漸漸能融合彼此(被無知者區分為AI與非AI)的技術，讓OCR與CNN可以密合的鑲嵌在一起幫我做影像辨識了！像下圖的狀況以前只用OCR的辨識一定會失敗的！但是整合了CNN的搜尋掃描的計算模式，即使雜訊沾連如此嚴重的字也無所遁形了！這就是知己知彼百戰百勝的戰略產生的績效了！

( ｜ )