網路城邦
上一篇 回創作列表 下一篇   字體:
只要你夠聰明,背景雜訊也可以變成參考資訊!
2024/09/26 09:45:42瀏覽472|回應0|推薦10

當你嘗試要辨識貨櫃後方的貨櫃碼時,無可避免的會被上圖中的垂直鐵桿干擾!貨櫃裝載當然必須非常牢靠,如果艙門沒有強力固定,內部的重物有可能在載運過程中滑動把門撞開的!所以通常會有數支這種鐵桿垂直防護把門鎖緊,但是貨櫃碼有11個字超長的,橫著寫幾乎一定必須跨越這些鐵桿其中的一支!此時鐵桿就會變成辨識貨櫃碼時的干擾雜訊了!

如果貨櫃碼與背景顏色對比夠強烈時這還不是大問題,鐵桿與貨櫃背景的顏色亮度不會差很多,所以很容易可以區分是貨櫃碼或鐵桿的影子,但是如上碰到字元與背景亮度色差對比較弱時就麻煩了!通常我們會先找到貨櫃碼所在的矩形區域,然後在矩形區內找字元,那鐵桿在此舉行區內就會比字元還明顯,就是很強的背景雜訊,很容易讓你產生辨識錯誤的!

但是當我閱歷過夠多的貨櫃碼影像之後,我發現了一個潛規則,就是任何貨櫃碼都會刻意將英數字兩個區段分別寫在鐵桿的兩邊!也就是如上的EISU一定在左邊,其他數字一定在右邊。知道這個潛規則之後其實鐵桿就不再只是困擾我的「雜訊」,也是一個我可以參考使用的「定位」資訊了!它代表11字元貨櫃碼的英數字段落的分界,類似寫作時一個冒號或逗點的角色!

事實上鐵桿的垂直長條形狀讓它很容易被辨識,如果我發現某鐵桿左邊「」有三個字,右邊則有7個字,那就暗示左邊的英文字有缺一個字元,可能是互相沾連或太破碎被忽略了!必須進一步處理!右邊只有6個字時則暗示數字部分有少字的意思!如上例就是E字有髒汙,第一時間會呈現破碎狀,不會被視為與ISU是同樣的目標,但有了鐵桿指標的提醒,我就會設法針對性的把破損的E救回來,辨識答案就會對了!前文說我比CNN厲害這也是招數之一!

所以甚麼是AI?絕對不只是某種特定的演算法!如MLDLCNNOCR等等都不能完整代表AI的涵義!我們做影像辨識的目的就是要盡可能克服種種雜訊,做出正確率最高的辨識,這是一個複雜的思考與認知的過程,環境與背景雜訊越多越複雜,就需要越多資訊來幫你做抉擇!這些資訊可以來自影像本身,也可以來自非影像的格式資訊,甚至如上所述的「潛規則」!

這就是我的AI影像辨識理念了!要達到最高的辨識率,當然要像CSI(犯罪現場偵查)鑑識人員一樣!不僅在犯罪現場要鉅細靡遺的收集線索跡證,同時也要善用所有的非現場資訊,譬如罪犯或受害者的身分背景,持有手機的訊號位置,罪案發生時的天氣狀況,或可能的犯罪動機等等。

我認為影像辨識要做得更聰明更準確,需要努力的方向一定不是收集更多影像資料!那樣做的效率太差了!更多的過往資料並不能保證可以解決眼前的問題,只會保證花更多錢,耗掉更多電力破壞環境而已!應該是善用既有的影像資料,做更全面的分析,同時參考更多「非影像」的環境資訊與科學原理!組織出你最合理正確的認知判斷!

真實世界的所有事實幾乎都是環環相扣有關連的!就像CSI的比喻,警探們再多的過往「經驗」未必保證可以幫他們偵破眼前的案子!要讓所有CSI鑑識人員都累積很多經驗也不太可能,但是仔細分析該案現場的所有線索跡證,認真思考所有證據的關聯性呢?則非常聚焦,最有希望可以偵破該件刑案!

現在大家以為主流的MLDLCNN就是相信(或稱迷信)資料多了任何問題都可以迎刃而解的思潮!我可以很肯定的說:這種想法對於影像辨識來說鐵定是低效率高成本的錯誤方向!我們必須更聰明的善用更少但是更有關聯性的資料來解決每一個辨識問題!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=181103185