網路城邦
上一篇 回創作列表 下一篇  字體:
我的模糊辨識沒有神秘的AI大神,只有精準的團隊合作!
2024/01/18 06:40:07瀏覽382|回應0|推薦7

多數研發銷售AI產品的廠商或賣課程書籍的講師都喜歡搞神秘,就是大言不慚的宣告我有「神奇」的AI技術,可以解決很困難的模糊辨識問題!至於解題的過程與邏輯呢?就語焉不詳含糊其辭,推給機器學習、深度學習或類神經網路等等一般人搞不清楚,連說話的人其實也不甚了解的技術名詞了!

事實上是因為他們也是靠資料的統計歸納計算摸索得到的答案,而且還是間接讓電腦的數學模式去運作的!不是他們自己真的能親自控制所有細節的統計運算,所以也不必強人所難了!他們自己都不知道那些神奇的辨識結果怎麼來的!簡單說,他們並沒有比觀眾多懂多少影像辨識的技術,只是介紹投資管道的理專,為何某些基金會賺錢?他們也不懂的!

但是我選擇走的研發道路是很不一樣的!如上圖的模糊辨識,以我目前的技術正確率是高達九成以上的!每一個案例為何會做出這樣的判斷?所有的辨識過程與邏輯如果有必要時,我都可以像國中老師教物理或數學一樣,在黑板上逐步解題給大家看!完全沒有模糊地帶的!

就以上面這個例子來說,全彩(原圖)→灰階→二值化之後,「多數」的字元目標、寬、高與車牌的範圍大致都可以決定了!但是我們需要的有效辨識結果不是「大部分」目標辨識正確就好,車牌上的八個字元,只要有一個無法正確辨識,這個辨識結果就是零分了!這就是機率統計最不擅長的部份了!

以上例來說關鍵問題在MV兩個字元呈現破碎的狀態,拿破碎的字元碎片去比對字模當然答案是不知所云毫無意義的!而且既然是「模糊」的,就表示不管我如何精進二值化的切割技術,都無法保證某個參數或程序可以讓每一個字都不破碎而且不互相沾連!

此時好像就是傳統影像辨識技術的極限末路了?開始啟動機器學習的機率統計技術猜答案吧!如果這樣就算是放棄了繼續精準解題求得科學上合理答案的機會了!其實這裡正是我的技術突破的關鍵分歧點!

即使OCR等影像辨識技術已到極限,但是可以使用的「非影像」資訊還有很多,譬如我們可以從多數辨識完整的字元大小建立框架去嘗試組織碎片成為正確的字元,這也是CNN用特徵矩陣找到特徵的方式,只是我更精準的使用它們,加上車牌格式包含的位置資訊,我幾乎不可能會將MV辨識成錯誤的答案!

以上面這個V字來說吧!它被切成了兩塊,右邊較大的一塊如果強硬辨識會比較像IY,但是他的寬度明顯小於前面的DD1020等字,所以我就按照合理字寬擴大它的左右範圍找找看有沒有可能的字元碎片?很快就找到它的「斷肢」了!兩者拼起來之後就會比較像標準字模的V而不是Y了!

須知這些都不是用「」的!而是我們任何人的腦袋都會使用的知識、常識、直覺與推理!無所謂機率統計,這就是一個最合理的判斷!這就是我說的,也是我天天在做的AI了!就是找到更多的可靠與可用資訊幫我解決問題!除非資料本身錯誤到違背了物理定律,不然只要有答案跑出來,錯誤機率是極低的!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=180266888