AI影像辨識不能只是統計猜測，必須是更精準的CSI！ - 鄉下老師

字體：小中大

AI影像辨識不能只是統計猜測，必須是更精準的CSI！

2024/06/16 04:21:01瀏覽812｜回應0｜推薦7

這個案例很有趣！我當然會用標準字模嘗試辨識所有的目標，即使是手寫的178只要大小與印刷字差不多沒有太潦草，都能概略判斷出來。於是就有可能誤認金額是178，但事實上這個手寫數字與發票金額毫無關係，是甚麼意義只有寫字的人知道，我只知道正確金額是187！如果因此就誤認不是會顯得我的軟體太不AI了嗎？

但是我要怎麼讓我的辨識程式知道面對這個狀況時要選擇187而不是178呢？請問機器學習大師們，你們會怎麼讓機器學會做出正確的判斷呢？答案當然是絕無可能！請不要迴避這個問題！這是機器學習鐵定無法做到的事情！你連要找甚麼資料讓機器學習這種智慧都說不出來！所以機器學習不是萬能，即使有無限多的資料也未必可以正確精準的解決多少現實的問題！

正確的方向當然是盡量分析既有已知確定的事實狀況來做判斷，機率統計的概念只能用在字元相似度的評估，譬如某個目標比對每個字模都有一個符合度的分數，我們當然會選最相似的那個字模判斷它就是那個字！其他「智慧」的決策幾乎都不必，甚至不能使用機器學習來處理！這才是影像辨識工作的現實，機器學習是最沒效率最不得已時的最爛選擇！

以這個例子來說，一般人應該會想到辨識出前面的中文字就可以知道誰是金額了！但是實務上很困難，從開發票的點矩陣印表機上印出的英數字都很難辨識了，更何況是筆劃更多更複雜的中文字？而且金額前面的中文會怎麼寫？甚至會不會寫中文字？都沒有明確規則，真要建立中文字模也比建立英數字字模複雜很多倍！所以嘗試辨識中文的方案並不實際！

但是如果你像CSI(Crime Scene Investigation)影集中的專家一樣聰明，就會想出很多可以判斷誰是正確金額的邏輯。譬如手寫字的字模符合度一定比印刷字低很多，大小與排列也不會像印刷字那麼整齊，只要寫程式偵測這些特徵差異就可以很清楚的區別出手寫與印刷字，除非你碰到會刻意模仿印刷字寫出工筆字的怪咖神經病啦！

如果你會像我這樣用常識思考來解決影像辨識問題，你就不需要依賴機器學習，可以更省錢精準也更快解決各種影像辨識的問題，連開發出來的軟體執行速度都會遠遠快過機器學習製作的產品！我實在想不出任何必須用機器學習研發影像辨識產品的原因？機器學習在這個議題上真的幾乎沒甚麼用處？

如果我只是吐槽說大家都崇拜的機器學習不好，你一定會說我有偏見！但我天天在做影像辨識這種事情都超過十年了！現在也已經很熟知機器學習的概念與方法了！但是我始終找不到應該使用機器學習比較好的時機，十年來每年做三四個專案，連一次覺得好像可以用機器學習的機會都不曾發生！

反之，那些機器學習大師大神們都不見得會用我的方式處理問題！如果他們也會，我想他們就不會繼續笨笨的沉迷於想用機器學習作我說的這些影像辨識了！或許真的「有些」影像辨識很適合用機器學習作？這我就不知道了！因為我十年來都沒看過，你們必須去追問那些大師大神！

我確實知道的是：找我做影像辨識專案的客戶，大部分都曾找過使用機器學習製作一樣目的軟體的公司開發，結果都是徹底失敗不堪使用，白花了很多錢與時間之後才不得不來找我的！找我做的結果都是完美結案！沒有任何一次失敗！好像修理水電問題，一定可以修好的！

所以就像我很難理解那些提款機操作之類的詐騙老梗依舊猖獗一樣？為什麼已經有那麼多失敗案例，簡直可以說是屍橫遍野，在影像辨識真實市場上幾乎沒有實績的機器學習，現在還是被炒作成當紅炸子雞？誰能告訴我為什麼嗎？這個世界可以笨成這樣讓我瞠目結舌！你也是其中之一嗎？

( 心情隨筆｜工作職場 )