網路城邦
上一篇 回創作列表 下一篇  字體:
這麼模糊的辨識必須讓OCR與CNN充分合作才行!
2024/01/10 09:28:41瀏覽457|回應0|推薦2

要完整辨識出這麼混亂模糊的目標,有沒有可能?理論上,使用機器學習(ML)、深度學習(DL)與類神經網路(CNN)等技術是有可能的!想只用傳統的OCR技術呢?確定是不可能的!但重點是:如果你「只用MLDLCNN的模式去做,還希望辨識率高到接近百分百,需要的資料量與運算時間成本會高到嚇人!開發時間也會拖得非常久!久到會讓客戶失去信心與耐性。

所以目前商業化影像辨識專案的尷尬狀況就是這樣的!多數客戶的需求不是理論上做不到,而是MLDLCNN等技術對於越模糊的辨識,與越高的辨識率要求,就會需要以等比級數增加的更高研發成本去做,所以很容易陷入看起來有進展,但永遠無法達標的錢坑!業者和客戶之間的爭議也就不斷發生了!

大家會看到的AI影像辨識討論介紹都是從「理論」的角度畫大餅給人看的!少數宣稱會作AI影像辨識的公司也會過度樂觀的做誇大不實的廣告!要等到真的付了訂金買了軟體開工作下去時,才會知道與客戶預期的效果差距很遠,要繼續提升品質需要投入追加的成本會高到不切實際!

所以要讓這種影像辨識研發走向合理的商業運作模式,關鍵不是你是用哪種技術去做?而是如何將研發成本控制在可行的範圍?「AI」只是一個目標概念,並不是指某種特定的技術種類!只要能做出近似人類智慧判斷能力的產品就是AI了!如何做的?技術內容上你要怎麼混搭組合拼裝都行!

有趣的是:MLDLCNN等所謂較新的AI技術確實突破了傳統影像辨識技術的天花板,帶來了挑戰更模糊辨識的可能性!但是如果要控制使用這些新技術的不合理高成本,關鍵還是善用傳統的影像辨識技術作為先導流程!知之為知之的部分一定要使用科學原理!不知為不知的部分就是MLCNN的天下了!

譬如你想用CNN找叢林中的一隻兔子時,你如果無法預先知道兔子的大小,就必須用很多大小尺度的矩陣去做搜尋,成本就高了!如果你不知道兔子是正面或側面向著鏡頭?就需要更多角度的特徵矩陣去運算,成本又更高了!讓機器「學習」的成本會隨著資料量與可能的搜尋模式以幾何級數暴增的!

反之,如果在你使用這些ML技術開始找目標之前,你可以像上圖一樣,盡量使用傳統的影像處理與辨識技術抓到一些可用的線索呢?傳統的OCR技術雖然無法直接辨識出所有字元目標,但是一定可以找到很多可以參考的蛛絲馬跡,譬如目標字元的概略大小、顏色、亮度與排列方向或傾斜角度等等。有了這些資訊,接下來操作ML與CNN時就簡單多了,很多變數都變成已知數了!需要的資料與搜尋計算的時間都能大幅減少!那就是省錢還加速研發啊!

很像警方辦案要找殺人兇手時,如果毫無頭緒線索,整條街的人都可能是兇手,要一一查訪所有人,要花多少警力時間啊?反之,如果可以善用目擊者或監視器提供的資訊,知道兇手的性別、體形、年齡與穿著等等,那麼幾百幾千次的訪談就可以縮小到只針對極少數的嫌犯了!

回到三五年前我們公司是不太熟悉ML等技術概念與作法的,但是現在不同了!經過幾年的進修學習,我們已經可以隨時引用這些技術了!可以在辨識流程中各取所長的整合使用OCRMLCNN了!我相信這不是甚麼新鮮事,而是影像辨識業界必然的發展趨勢!因為這樣最能提高研發效能同時降低成本!

很像打棒球吧?日本人的傳統戰術是一有人上壘就犧牲短打,美國人就非常排斥短打,但是互相交流對戰之後都會互相學習彼此的長處,現在各國棒球都是甚麼戰術都會整合使用了!任何有用的東西當然沒有預設立場完全排斥不用的道理!內外兼修十八般武藝都會的人當然最厲害嘛!AI絕對不會只是等於ML的!如果你迷信ML是萬能的只會拖垮你的事業!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=180234738