網路城邦
上一篇 回創作列表 下一篇  字體:
你的簡單視覺判斷,就是影像辨識專家辛苦的工作!
2024/01/31 05:49:06瀏覽466|回應0|推薦6

這個車牌因為拍攝有點失焦不是很清楚,即使我很努力做了最好的二值化處理,後面幾個字(72UM)仍然是破碎的!如果我的影像辨識只是將切割出來的目標區塊一一比對像哪一個字?當然無法得到正確的答案,拉近看的話誰會知道那兩根直線其實應該組合成一個U字?但是因為一般人都可以參考周邊資訊,有「宏觀」的視野與智慧,可以輕易克服這些小問題,看出正確的答案,如果我的軟體辨識錯誤就是「AI」了!

想用大量資料讓「機器」自己「學會」這種智慧嗎?你有夠多類似狀況的模糊資料嗎?你需要多少錢與時間來收集或製造出這些資料呢?我沒這麼多錢與美國時間,所以絕對不會用機器學習的方式來解決這種問題!我覺得相信機器學習或CNN可以處理這種問題的人,應該是腦袋不清楚還嫌自己錢太多的土豪!

事實上,當我們用基本的OCR技術,處理到部分目標還是破碎的狀態,即使無法直接獲得正確答案,但整體來看我們已經得到夠多的定位參考資訊,譬如字元的合理大小與概略的位置等等,車牌上的字當然應該是一樣高的,寬度呢?1I會略窄,MW會略寬,車牌規定格式也讓我們知道,中間區段最多四個字且一定是數字,最後一個區段必定是英文字母,字數最多三個!

以此例來說,中間區段有六個大小不同的黑色區塊,最後區段有四個黑色區塊,我只需要善用已知的上述資訊,推理拼圖一下就可以得到非常正確,幾乎不可能有錯的答案了!當我說正確答案是:DD_1472_UM時,不會有任何人反對的!這樣的能力就證明我的辨識軟體就是夠AI了!至於是不是用了他們說的特定AI技術?根本沒關係的

這很像警察辦案,雖然犯罪是已經過去的往事,剩下可以推測當時狀況的證據已經不完整,但是所有事情即使我們看不到,都可以預期一定是合乎法規與物理定律的!有很多不在影像中的必然規則資訊是可以幫我們正確補足拼圖的!這些「理所當然」的資訊是根本不在大量的影像資料中的!你有可能用巨量資料「學會」嗎?不存在的東西機器怎麼可能用統計歸納的方式學會呢?

換個角度說,我們人是怎麼學習辨識車牌的呢?只是單純看很多車牌累積經驗來的嗎?印尼人知道他們的三段式車牌中間那段都是數字,所以看到像是B的字就會說是8!並不是他看那個字比較像是8,是因為他知道不可能是B!看到第一段好像有三個字,就會直接忽略其中一個目標,因為他們知道政府規定第一段最多只有兩個英文字,他看到的三個字中較模糊的目標應該只是雜訊!

總之,靈活運用既有的影像資料,與很多不在影像資料中的知識、經驗與常識,才是我們人腦智慧運作的真正方式!妄想用很多模糊的影像資料攪拌一下,就學會精確的車牌法規與物理原理?有可能嗎?我會高度懷疑這種人是不是真的讀過書?還非常沒有常識!但是他們自稱是AI影像辨識專家,你必須繳很高的學費才能去聽他們上課?違反常識的事情你應該這麼容易相信嗎?

當然我說的這些「簡單推理」要用寫程式的方式呈現出來,還是一件很專業很複雜的工作,這就是我這種影像辨識專家日常的工作了!那些整天拿大量資料與工具軟體東踹西踹的人,可以稱為影像辨識專家嗎?他們已經可以做出跟我的軟體一樣AI的產品了嗎?你應該先問這些問題之後再決定是否交學費去上課,或採購那些工具軟體或硬體來用的!

( )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=180309844