你的簡單視覺判斷，就是影像辨識專家辛苦的工作！ - 鄉下老師

字體：小中大

你的簡單視覺判斷，就是影像辨識專家辛苦的工作！

2024/01/31 05:49:06瀏覽466｜回應0｜推薦6

這個車牌因為拍攝有點失焦不是很清楚，即使我很努力做了最好的二值化處理，後面幾個字(72UM)仍然是破碎的！如果我的影像辨識只是將切割出來的目標區塊一一比對像哪一個字？當然無法得到正確的答案，拉近看的話誰會知道那兩根直線其實應該組合成一個U字？但是因為一般人都可以參考周邊資訊，有「宏觀」的視野與智慧，可以輕易克服這些小問題，看出正確的答案，如果我的軟體辨識錯誤就是「不AI」了！

想用大量資料讓「機器」自己「學會」這種智慧嗎？你有夠多類似狀況的模糊資料嗎？你需要多少錢與時間來收集或製造出這些資料呢？我沒這麼多錢與美國時間，所以絕對不會用機器學習的方式來解決這種問題！我覺得相信機器學習或CNN可以處理這種問題的人，應該是腦袋不清楚還嫌自己錢太多的土豪！

事實上，當我們用基本的OCR技術，處理到部分目標還是破碎的狀態，即使無法直接獲得正確答案，但整體來看我們已經得到夠多的定位參考資訊，譬如字元的合理大小與概略的位置等等，車牌上的字當然應該是一樣高的，寬度呢？1與I會略窄，M與W會略寬，車牌規定格式也讓我們知道，中間區段最多四個字且一定是數字，最後一個區段必定是英文字母，字數最多三個！

以此例來說，中間區段有六個大小不同的黑色區塊，最後區段有四個黑色區塊，我只需要善用已知的上述資訊，推理拼圖一下就可以得到非常正確，幾乎不可能有錯的答案了！當我說正確答案是：DD_1472_UM時，不會有任何人反對的！這樣的能力就證明我的辨識軟體就是夠AI了！至於是不是用了他們說的特定AI技術？根本沒關係的！

這很像警察辦案，雖然犯罪是已經過去的往事，剩下可以推測當時狀況的證據已經不完整，但是所有事情即使我們看不到，都可以預期一定是合乎法規與物理定律的！有很多不在影像中的必然規則資訊是可以幫我們正確補足拼圖的！這些「理所當然」的資訊是根本不在大量的影像資料中的！你有可能用巨量資料「學會」嗎？不存在的東西機器怎麼可能用統計歸納的方式學會呢？

換個角度說，我們人是怎麼學習辨識車牌的呢？只是單純看很多車牌累積經驗來的嗎？印尼人知道他們的三段式車牌中間那段都是數字，所以看到像是B的字就會說是8！並不是他看那個字比較像是8，是因為他知道不可能是B！看到第一段好像有三個字，就會直接忽略其中一個目標，因為他們知道政府規定第一段最多只有兩個英文字，他看到的三個字中較模糊的目標應該只是雜訊！

總之，靈活運用既有的影像資料，與很多不在影像資料中的知識、經驗與常識，才是我們人腦智慧運作的真正方式！妄想用很多模糊的影像資料攪拌一下，就學會精確的車牌法規與物理原理？有可能嗎？我會高度懷疑這種人是不是真的讀過書？還非常沒有常識！但是他們自稱是AI影像辨識專家，你必須繳很高的學費才能去聽他們上課？違反常識的事情你應該這麼容易相信嗎？

當然我說的這些「簡單推理」要用寫程式的方式呈現出來，還是一件很專業很複雜的工作，這就是我這種影像辨識專家日常的工作了！那些整天拿大量資料與工具軟體東踹西踹的人，可以稱為影像辨識專家嗎？他們已經可以做出跟我的軟體一樣AI的產品了嗎？你應該先問這些問題之後再決定是否交學費去上課，或採購那些工具軟體或硬體來用的！

( ｜ )