網路城邦
上一篇 回創作列表 下一篇  字體:
這是甚麼字?你能確定嗎?
2023/11/01 06:46:43瀏覽2364|回應0|推薦8

圖一 從道路影像中擷取的車牌字元

車牌也算是「印刷」字,近一點看當然都很好辨識,但上面是從距離較遠的道路影像中挖出來的一個車牌字元,原始的字元高度事實上只有11個畫素,為了比對標準字模硬是被轉正放大的!因為模糊加上解析度低,所以二值化切出來的字就是這個樣子的!你認為它是甚麼字呢?是N?是H?是K?還是M?如下是四個可能字元的25X50畫素的字模,遠遠看時任何一字都會跟上圖很像的!

圖二 可能字元的字模

在數學上我們可以將攝影機與環境當作一個數位濾波器!原本清晰的字,經過環境照明與距離、傾斜、乃至失焦等物理效應會變成類似圖一的狀況,影像辨識的工作就是盡可能從圖一逆推,正確判斷是哪一個字元!有趣的是人的視覺智慧真的深不可測!即使相當模糊時,只要能看到該字元的周遭資訊,我們多數人都可以正確判斷是甚麼字的!所以我們可以用公認的視覺判斷做標準答案,來研究這個濾波器的運作效果。

圖三 道路車牌影像

答案揭曉了!圖一是來自圖三這個影像,應該沒有人會猜是N以外的任何其他字元!但如果只是比對字模,首字的答案就可能是NHKM之中隨機的一個答案,很不穩定的!詳細的人腦判斷過程現在還沒有任何AI研究可以解釋清楚,我也是還在摸索研究中的好奇者之一!但顯然我比其他人做得好!因為我的道路版車牌辨識軟體辨識率目前是市售產品中的佼佼者!辨識正確率與速度都遙遙領先,不服氣歡迎來挑戰!

我不喜歡搞神祕,用AI之類已被過度濫用的空泛名詞嚇唬玩弄任何人!我相信即使是看似神奇的智慧也一定是「事出必有因」!如果每個人都覺得那個字是N,那人腦中一定有相當一致穩定的判斷邏輯!我只要努力找到那些邏輯,將他們數學化與程式化,我的AI影像辨識軟體就會更靠近人類視覺的智慧程度!

而且我相信人的視覺不是只靠「影像」資訊本身做判斷的!譬如我知道台灣機車的車牌是不可能以KH開頭的!監理單位有明確的法令規定嘛!所以即使看起來像是H的模糊字元,我也會猜是NM的!這樣我猜對的機率,或說我的AI程度,就高過不懂這些規定的人了!而且這跟我會不會玩影像資料的技術無關!

換言之,影像辨識是一個綜合所有相關資訊的精密解題過程,如果我可以參考更多有意義的影像外所有的相關資訊與經驗,我的影像辨識當然就會比只努力在影像中挖掘資訊的人更聰明厲害了!所以醫生看得懂X光片上的肺結核徵兆,我們就看不到!這不是醫生的視力比我們好,是因為他們讀過醫學院,他們知道很多影像資訊以外的可用參考資訊,我們一般人就沒得參考!

但現在宣稱主流AI技術的機器學習呢?他們的理念則是直接宣告自我放棄思考的「反智」哲學!他們覺得「根本不需要研究、探索與組織這麼多複雜的知識與邏輯」,只要蒐集足夠的資料,讓電腦自行摸索學習就可以得到極高明的人工智慧了?對於我這種已有影像辨識基礎訓練的人來說,這簡直是神話!怎麼看怎麼聽都像是詐騙話術

目前的影像辨識市場現況顯示機器學習的神話尚未成真!它們最多只能做到一些目標的確認追蹤,至於準確辨識精確的內容呢?還遠遠不如傳統的影像辨識技術。顯然影像辨識需要的智慧遠遠超過機器學習(ML)甚至深度學習(DL)可以達到的高度!他們始終還沒證明有何神力?

所以MLDLCNN等技術要跨進商用影像辨識領域還有得等!絕大多數的AI產品研發都還在盲目嘗試與無盡無奈的等待之中。相對的,像我這種堅持科學理念研發AI的人呢?我們每天都在穩定進步之中!我們的AI產品是穩定可以預期會越來越好的!

如圖一的這種例子在我的日常研究之中俯拾即是,像下圖的首字你會說是C或G呢?機器學習派會說只要收集夠多資料就可以讓電腦「學會」辨識了?但我認為資料再多都不能保證跟人的判斷一致!你的研發經費則是一定會被燒光的!我相信如果人眼都會說是G,就一定有讓我們覺得是G的理由!找到這個關鍵理由我的正確率會比用數十萬張資料學習的結果更準,而且很快很省錢就能完工出貨了!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=180030299