我們辨識模糊目標的做法與機器學習相似，但更有效率！ - 鄉下老師

字體：小中大

我們辨識模糊目標的做法與機器學習相似，但更有效率！

2024/02/29 06:01:35瀏覽581｜回應0｜推薦3

如上街景中略為模糊的車牌字元，碰到原本形狀相似的字就容易誤認了，如上面的V是有可能被誤認為Y甚至W的！如果要讓客戶認為你的辨識軟體很AI，關鍵就是這種模糊的目標軟體辨識結果要跟人的判斷盡量一樣了！現在的AI科技就是機器學習(ML)與類神經網路(CNN)會怎麼作呢

以概念來說就是收集很多模糊的真實字元影像資料，用人工標記正確答案，再建立一些數學模式的特徵值，譬如目標的寬高比、前景背景的亮度對比、目標的缺口轉折點或三圍等等，就是任何可能用來區別不同字元的特徵值！接下來就交給電腦去統計了！讓電腦自己統計歸納出辨別每一個字時最佳的特徵組合。

這些「機器學習」的成果就是CNN方法在未來要處理的的街景影像中找到字元的依據了！可以想像這些過程充滿了不確定性，「學習」的成果是否可靠？還是需要更多資料加以驗證的！特徵群組如何設計？如果太少辨識率會太差，太多呢？研發成本會太高，未來執行時的時間也會太長！

所謂的AI影像辨識工作者其實就是在這些大量資料與數學模式之中整天摸索的人！如果辨識錯誤他們只能調整模式再來一次！每個參數應該要提高或降低？是否需要加減特徵項目等等都只能靠猜的，所以很浪費時間，又需要很多資料還需要大量人力做標記，對於我們這種小公司來說，這樣研發就必死無疑了！

所以即使我們公司始終關注學習這些AI技術，但是如何實作出一樣效果的目標軟體？就必須有更聰明的做法了！簡化到單一模糊字元的辨識來看，我們做的事情真的跟那些AI很像！我們也會建立特徵矩陣去比對字元目標，符合足夠特徵評估量的字就會被確認辨識成功！

如上圖就是我們建立的V與Y特徵矩陣，紅點表示必要的前景(筆畫)，綠點表示必要的背景特徵點，可以說是一個憑我們主觀認知的字元特徵手動建立的特徵評分表，所以不必經過冗長的資料學習過程，我們就已經完成辨識率相當高的雛型了！接下來只要發現辨識錯誤的個案，打開PhotoShop軟體一字排開加以目視調整即可！

這就是我們的日常工作之一了！重點是不需要太多學習用的資料，或太多隔靴搔癢的抽象數學模式，我們做的每一個手動調整我們都知道它的意義與可以預期的效果，比起整天跑程式卻充滿不確定性，心懸在半空像買彩券一樣的AI玩家，我們的生活工作感受踏實多了！

當然個案對了不表示通用，所以我們也跟那些AI研發團隊一樣必須持續做更多實測資料的驗證，才能讓辨識軟體更成熟穩定！但是我們的調整方式比較明確可以追蹤，機器學習呢？還是只能用猜的！也必須花很多時間重跑一次完整的「學習」過程！繼續致力於讓地球更暖化更燃燒的破壞環境事業！

經過這些年的知己知彼，我越來越覺得自己做的事情與那些AI技術是非常相似甚至一致的！差別只是他們太依賴比自己笨很多的機器去付出大量「勞動力」來產生「智慧」！結果就是研發成本更高，研發期更長，精確可靠度卻很難推得更高！因為統計學畢竟不是精密科學嘛！要靠大量機率統計嘗試錯誤拼湊出精密的高科技儀器？不太可能嘛！為什麼不先用聰明的人腦依據科學原理設計出草圖呢？這樣不是有效率多了嗎？我就是這麼作的！

( 心情隨筆｜工作職場 )