這麼模糊的辨識必須讓OCR與CNN充分合作才行！ - 鄉下老師

字體：小中大

這麼模糊的辨識必須讓OCR與CNN充分合作才行！

2024/01/10 09:28:41瀏覽457｜回應0｜推薦2

要完整辨識出這麼混亂模糊的目標，有沒有可能？理論上，使用機器學習(ML)、深度學習(DL)與類神經網路(CNN)等技術是有可能的！想只用傳統的OCR技術呢？確定是不可能的！但重點是：如果你「只用」ML、DL與CNN的模式去做，還希望辨識率高到接近百分百，需要的資料量與運算時間成本會高到嚇人！開發時間也會拖得非常久！久到會讓客戶失去信心與耐性。

所以目前商業化影像辨識專案的尷尬狀況就是這樣的！多數客戶的需求不是理論上做不到，而是ML、DL與CNN等技術對於越模糊的辨識，與越高的辨識率要求，就會需要以等比級數增加的更高研發成本去做，所以很容易陷入看起來有進展，但永遠無法達標的錢坑！業者和客戶之間的爭議也就不斷發生了！

大家會看到的AI影像辨識討論介紹都是從「理論」的角度畫大餅給人看的！少數宣稱會作AI影像辨識的公司也會過度樂觀的做誇大不實的廣告！要等到真的付了訂金買了軟體開工作下去時，才會知道與客戶預期的效果差距很遠，要繼續提升品質需要投入追加的成本會高到不切實際！

所以要讓這種影像辨識研發走向合理的商業運作模式，關鍵不是你是用哪種技術去做？而是如何將研發成本控制在可行的範圍？「AI」只是一個目標概念，並不是指某種特定的技術種類！只要能做出近似人類智慧判斷能力的產品就是AI了！如何做的？技術內容上你要怎麼混搭組合拼裝都行！

有趣的是：ML、DL與CNN等所謂較新的AI技術確實突破了傳統影像辨識技術的天花板，帶來了挑戰更模糊辨識的可能性！但是如果要控制使用這些新技術的不合理高成本，關鍵還是善用傳統的影像辨識技術作為先導流程！知之為知之的部分一定要使用科學原理！不知為不知的部分就是ML與CNN的天下了！

譬如你想用CNN找叢林中的一隻兔子時，你如果無法預先知道兔子的大小，就必須用很多大小尺度的矩陣去做搜尋，成本就高了！如果你不知道兔子是正面或側面向著鏡頭？就需要更多角度的特徵矩陣去運算，成本又更高了！讓機器「學習」的成本會隨著資料量與可能的搜尋模式以幾何級數暴增的！

反之，如果在你使用這些ML技術開始找目標之前，你可以像上圖一樣，盡量使用傳統的影像處理與辨識技術抓到一些可用的線索呢？傳統的OCR技術雖然無法直接辨識出所有字元目標，但是一定可以找到很多可以參考的蛛絲馬跡，譬如目標字元的概略大小、顏色、亮度與排列方向或傾斜角度等等。有了這些資訊，接下來操作ML與CNN時就簡單多了，很多變數都變成已知數了！需要的資料與搜尋計算的時間都能大幅減少！那就是省錢還加速研發啊！

很像警方辦案要找殺人兇手時，如果毫無頭緒線索，整條街的人都可能是兇手，要一一查訪所有人，要花多少警力時間啊？反之，如果可以善用目擊者或監視器提供的資訊，知道兇手的性別、體形、年齡與穿著等等，那麼幾百幾千次的訪談就可以縮小到只針對極少數的嫌犯了！

回到三五年前我們公司是不太熟悉ML等技術概念與作法的，但是現在不同了！經過幾年的進修學習，我們已經可以隨時引用這些技術了！可以在辨識流程中各取所長的整合使用OCR與ML或CNN了！我相信這不是甚麼新鮮事，而是影像辨識業界必然的發展趨勢！因為這樣最能提高研發效能同時降低成本！

很像打棒球吧？日本人的傳統戰術是一有人上壘就犧牲短打，美國人就非常排斥短打，但是互相交流對戰之後都會互相學習彼此的長處，現在各國棒球都是甚麼戰術都會整合使用了！任何有用的東西當然沒有預設立場完全排斥不用的道理！內外兼修十八般武藝都會的人當然最厲害嘛！AI絕對不會只是等於ML的！如果你迷信ML是萬能的只會拖垮你的事業！

( 心情隨筆｜工作職場 )