認知的過程才是影像辨識的技術核心！ - 鄉下老師

字體：小中大

認知的過程才是影像辨識的技術核心！

2022/05/24 05:10:41瀏覽1130｜回應0｜推薦9

我認為目前影像辨識技術市場最大的問題就是：所謂的AI科技讓這項科技走向「語焉不詳」的混沌狀態！AI努力搞神祕讓世人充滿期待，但事實是這些AI技術對於影像辨識這個科技市場來說，根本還沒有甚麼實質的成就，所有影像辨識的商業產品都還「不是」以這些AI科技為主要核心！但太多人都已經認為是了？如果他們真的有機會做到，我會大力支持的！但我看到的事實是：他們根本不可能做到！

影像辨識就是從影像中「認知」到我們認為有意義的目標。這個過程當然一點都不簡單，所以才會有影像辨識這一門「科學」！這門科學從20世紀中葉有數位影像資料開始，發展已有七八十年，算是成熟的技術了！但是在AI風潮下，卻被貶低到好像只是不必學習的過時甲骨文了？同時間，不管是ML、DL或CNN距離逆推出接近人眼辨識認知過程的目標還極為遙遠！這就跟小孩子還在吃爸媽的奶水時，就已經看不起爸媽說自己長大要自立了一樣？真的太奇怪詭異了？

前面七八十年間的影像辨識科技其實已經取得很大的成就，所以二三十年前我們就已經有很多相關科技的成果在應用之中了！如車牌辨識、指紋辨識、各種AOI產品檢測、乃至人臉辨識，其實都是在目前熱炒的所謂AI科技出現之前就已經是成熟可用的影像辨識產品了！你們知道嗎？你們有注意到嗎？但是基於所謂的AI影像辨識技術的這類實質商業產品呢？你我其實都沒看到過！

我真的很驚訝也佩服AI科技的市場行銷能力！我因為是必須提出可用影像辨識產品的廠商，當然會極盡所能的學習利用任何影像辨識的「可用」技術來製作我的商品！但是怎麼努力都會發現可用資源都在目前熱炒的AI技術之外的傳統影像辨識科技！ML、DL與CNN如何讓我的產品加值？我真的還是不知道！

如上圖的案例，我們要辨識的是完整的貨櫃碼，這比我之前做的車牌辨識更困難的是：我需要蒐集認知的原始字元目標事實上是分散多處的！車牌只有一行一組字元，要完整辨識出上述的「貨櫃碼」資訊，字元是分散為好幾組，各個目標之間還穿插好多其他的明顯目標，如固定貨櫃門的鐵桿等等！我真的不知道如何讓AI「學會」處理這種複雜的認知問題？只要有很多資料就行嗎？那要多少資料多少錢啊？

說到這裡，我不僅對於現在的AI科技沒幫到我很有意見，連傳統的影像辨識科技也想開罵了！因為我很努力讀了很多OCR技術相關的書籍文獻，其實他們也沒有著墨教我如何處理這種「認知」資料意義的技術。或許他們認為這已經與「影像」科技無關，但現實是這一關過不去，影像辨識的產品就一定做不出來！

AI影像辨識科技對我來說，只是一個故弄玄虛故事講一半，吊人胃口又不能真正幫上忙的科技！他們其實都只著重在如何「找到目標」！但是如何依據我們的需要「組織」與「認知」複雜的資料組合是完全不講，也沒有相關理論邏輯的！最糟的是：其實他們找到目標的能力與效率沒有比傳統影像辨識的技術更好！

我認為這一波AI影像辨識的風潮能興起的關鍵契機，是百萬畫素時代來臨！傳統的影像辨識技術奠基於數百乘數百的幾萬畫素影像處理，七八年前忽然影像畫素急遽提高，他們的既有軟體忽然就跟不上搞不定了！但不是表示傳統的影像科學原理不能繼續Work，只是需要依據高畫素資料環境重新設計而已！

我自己的創業動機就與此有關，我也是看到這個百萬畫素對傳統影像辨識市場的衝擊，認為所有的影像辨識軟體都會面臨一次大滅絕！我就像是恐龍因為巨大隕石墜落地球產生大滅絕的時代，從地底鑽出來的小老鼠！因為地面的恐龍死光光了，我這隻小老鼠就可以有機會跟所有的小老鼠一起競爭，演化成大象了！簡單說，之前優勢的大廠商也必須跟我一起從頭來過了！只要我比他們的RD更聰明努力，我就有機會了！事實上我也真的成功了！

但我沒想到的是：AI影像辨識也趁勢來亂了！因為畫素忽然變得太多，找目標就變成更複雜困難的事情，CNN就崛起說：我可以克服這個問題！但事實上我繼續用傳統方式找目標，也可以啊？甚至比CNN更有效率就可以做到！我真正傷腦筋的日常問題其實是如何「認知」與「組織」這些目標，跟我的最終目標結合作出最後的影像辨識判斷，也就是有意義的產品！

譬如貨櫃碼，它們可能是一橫排11個字的，也可能是兩橫排如上例，是上4下7組成的！也可能是直接一直行組成的！形式變化好多！我的影像辨識程式都必須一一思考檢視，這些認知過程卻是AI或傳統影像辨識文獻都沒講的！

我最討厭的事情就是說謊！如果大家都不要說謊，世界就會變得簡單很多，真實很多！大家都不必被迷惑欺騙浪費時間，該做甚麼研究？就專心投入金錢、時間與資源做有意義有效的研究！不會有太多研發廠商倒閉，科技進步更快，一般人可以更快得到需要的影像辨識產品！不好嗎？真的不要再繼續騙人說：AI可以從資料學會上述的複雜認知過程了！他們沒辦法做到的！

我至少是一個務實的影像辨識研究者，也確實是有很多實績的影像辨識軟體廠商，我很想告訴大家：其他影像辨識玩家或專家，其實都很可疑！他們說的事情都不是重點，真正的重點他們都沒講！為什麼如此？你們應該好好的質問他們！我這邊只會說實話！我沒必要也沒空講有的沒的！如何認知資料的意義，才是影像辨識最重要的核心技術，現在熱炒的AI技術對於影像辨識其實可有可無！

( 心情隨筆｜工作職場 )