從定性的經驗到量化的分析 - 鄉下老師

字體：小中大

從定性的經驗到量化的分析

2022/08/09 10:57:11瀏覽1071｜回應0｜推薦3

台灣的車牌包含英數字共36個字元，車牌格式從四碼到七碼的都有，但是字型大概就是兩種，七碼的車牌有新的字型，少數計程車與工程車不是七碼的，但也引用七碼的新字型。七碼新字型應該是有針對影像辨識的需求設計的，比較不容易交互誤認，而且七碼車牌直接分成純英文與純數字的區段，所以B8或D0或I1的誤認是不可能發生的！

以目前我們的車牌辨識經驗，如果有十次字元辨識錯誤，九次半都是來自較舊型的六碼車牌！但是按照監理單位的規定，車牌發下去就是隨車使用到車輛報廢為止的！所以即使十年二十年後，還是會有很多六碼車牌滿街趴趴走的！所以盡量正確辨識六碼車牌仍然是我們業者無法迴避的必要任務！

我的RD目前的碩士論文，就是鎖定如何用她發明的一種特徵字模比對法來提高六碼車牌的辨識正確率，整個方法都是她自己設計發明的，當然不可能會有抄襲的問題，她以後去選總統都不必擔心被質疑了！我指導她的部分其實只是寫作的方式必須符合學術界的習慣與要求而已。

上表是她今天給我的報告內容，她用她設計的字模交叉使用於所有的字元，對的字元符合度當然是100%，其他字呢？非常不像的符合度就很低，很像的就會有90幾趴！我們從以往的經驗就知道B8與D0很容易誤認，其實影像稍微模糊時，HN或MW或VY等等也是常會認錯的！

如果只靠字模比對的話，我的車牌辨識軟體辨識率是不可能那麼高的！尤其是我們的優勢產品：道路版的車牌辨識，不像停車場環境那麼好可以拍得好清楚！所以除了字模比對之外，我們的軟體都有很多的定性特徵加權值的演算，譬如C的右邊有洞，O就沒有之類的！

但是那些特徵加權偏向定性的有無該特徵？多大的洞才叫做有缺口？有缺口時應該加幾分或扣幾分？其實是很主觀的判定，我們一開始也沒有「海量」的資料可以做大量的統計，都是且戰且走，根據「經驗」與實際案例慢慢調整的，其實就像大都市裏面的違章建築，蓋太多了總會開始出現問題的！即使沒問題也很難看！

所以現在我們就是藉著RD寫論文做研究的機會來做都市更新了！我的RD很聰明，上面的表不是我交代她做的，是她自己想到要做的！容易誤認的字組有好多，哪些比較容易誤認？誤認的機率有多高？我們應該從哪邊開始研究才會最有效率？如果根本不可能誤認的字元，當然就不必太費力了！

這個過程很有趣！即使我們的車牌辨識現在已經是號稱國內頂級的產品了！但裡面真的沒有甚麼神奇的AI？還有好多連我都不喜歡的違章建築，我們當然不是一開始就知道整個車牌辨識的所有技術流程，一次就做好完整規畫的！七八年來天天都在做局部的修改更新，很多牽涉太廣太複雜的程序，就像大型違建，反而很難說拆就拆！它們會出現存在當然是有重要功能的！

對比於現在流行的AI技術，其實我認為他們是很不切實際的！好像收集到夠多的資料，讓機器好好學習一下，AI影像辨識產品就會很快做出來了？事實是這種狀況從來就沒發生過！不論是車牌辨識人臉辨識，你在市面上看到的好用產品，都「不是」那樣搞出來的！

大量資料是要花錢花時間累積出來的！資料的特性特徵也不是光用機器學習的演算法統計一下就能充分掌握的！跟我們讀書做事學技術一樣，任何影像辨識軟體應該都是像一個都市一樣，一邊發展一邊調整，先用定性概念指導做出原型，再依據實際案例逐步調整精進，資料越來越多時才能開始做我們現在做的這些統計分析的工作，我們現在可以用的車牌影像至少有幾十萬張了！那是七八年累積出來的！

反正我想說的是：不要相信機器學習那一套鬼話！不然你會花很多錢傷腦筋玩那些機率統計，工具軟體模組，感覺好像很有學問？好AI哦！但是幾年之後，你還是會在原地踏步！甚麼辨識軟體都做不出來！所以在你傾家蕩產之前，早點醒悟吧！

( 心情隨筆｜工作職場 )