網路城邦
上一篇 回創作列表 下一篇  字體:
認知的過程才是影像辨識的技術核心!
2022/05/24 05:10:41瀏覽1130|回應0|推薦9

我認為目前影像辨識技術市場最大的問題就是:所謂的AI科技讓這項科技走向「語焉不詳」的混沌狀態!AI努力搞神祕讓世人充滿期待,但事實是這些AI技術對於影像辨識這個科技市場來說,根本還沒有甚麼實質的成就,所有影像辨識的商業產品都還「不是」以這些AI科技為主要核心!太多人都已經認為是了?如果他們真的有機會做到,我會大力支持的!但我看到的事實是:他們根本不可能做到

影像辨識就是從影像中「認知」到我們認為有意義的目標。這個過程當然一點都不簡單,所以才會有影像辨識這一門「科學」!這門科學從20世紀中葉有數位影像資料開始,發展已有七八十年,算是成熟的技術了!但是在AI風潮下,卻被貶低到好像只是不必學習的過時甲骨文了?同時間,不管是ML、DL或CNN距離逆推出接近人眼辨識認知過程的目標還極為遙遠!這就跟小孩子還在吃爸媽的奶水時,就已經看不起爸媽說自己長大要自立了一樣?真的太奇怪詭異了?

前面七八十年間的影像辨識科技其實已經取得很大的成就,所以二三十年前我們就已經有很多相關科技的成果在應用之中了!如車牌辨識、指紋辨識、各種AOI產品檢測、乃至人臉辨識,其實都是在目前熱炒的所謂AI科技出現之前就已經是成熟可用的影像辨識產品了!你們知道嗎?你們有注意到嗎?但是基於所謂的AI影像辨識技術的這類實質商業產品呢?你我其實都沒看到過!

我真的很驚訝也佩服AI科技的市場行銷能力!我因為是必須提出可用影像辨識產品的廠商,當然會極盡所能的學習利用任何影像辨識的「可用」技術來製作我的商品!但是怎麼努力都會發現可用資源都在目前熱炒的AI技術之外的傳統影像辨識科技MLDLCNN如何讓我的產品加值?我真的還是不知道!

如上圖的案例,我們要辨識的是完整的貨櫃碼,這比我之前做的車牌辨識更困難的是:我需要蒐集認知的原始字元目標事實上是分散多處的!車牌只有一行一組字元,要完整辨識出上述的「貨櫃碼」資訊,字元是分散為好幾組,各個目標之間還穿插好多其他的明顯目標,如固定貨櫃門的鐵桿等等!我真的不知道如何讓AI「學會」處理這種複雜的認知問題?只要有很多資料就行嗎?那要多少資料多少錢啊?

說到這裡,我不僅對於現在的AI科技沒幫到我很有意見,連傳統的影像辨識科技也想開罵了!因為我很努力讀了很多OCR技術相關的書籍文獻,其實他們也沒有著墨教我如何處理這種「認知」資料意義的技術。或許他們認為這已經與「影像」科技無關,但現實是這一關過不去,影像辨識的產品就一定做不出來

AI影像辨識科技對我來說,只是一個故弄玄虛故事講一半,吊人胃口又不能真正幫上忙的科技!他們其實都只著重在如何「找到目標」!但是如何依據我們的需要「組織」與「認知」複雜的資料組合是完全不講,也沒有相關理論邏輯的!最糟的是:其實他們找到目標的能力與效率沒有比傳統影像辨識的技術更好

我認為這一波AI影像辨識的風潮能興起的關鍵契機,是百萬畫素時代來臨!傳統的影像辨識技術奠基於數百乘數百的幾萬畫素影像處理,七八年前忽然影像畫素急遽提高,他們的既有軟體忽然就跟不上搞不定了!但不是表示傳統的影像科學原理不能繼續Work,只是需要依據高畫素資料環境重新設計而已!

我自己的創業動機就與此有關,我也是看到這個百萬畫素對傳統影像辨識市場的衝擊,認為所有的影像辨識軟體都會面臨一次大滅絕!我就像是恐龍因為巨大隕石墜落地球產生大滅絕的時代,從地底鑽出來的小老鼠!因為地面的恐龍死光光了,我這隻小老鼠就可以有機會跟所有的小老鼠一起競爭,演化成大象了!簡單說,之前優勢的大廠商也必須跟我一起從頭來過了!只要我比他們的RD更聰明努力,我就有機會了!事實上我也真的成功了!

但我沒想到的是:AI影像辨識也趁勢來亂了!因為畫素忽然變得太多,找目標就變成更複雜困難的事情,CNN就崛起說:我可以克服這個問題!但事實上我繼續用傳統方式找目標,也可以啊?甚至比CNN更有效率就可以做到!我真正傷腦筋的日常問題其實是如何「認知」與「組織」這些目標,跟我的最終目標結合作出最後的影像辨識判斷,也就是有意義的產品!

譬如貨櫃碼,它們可能是一橫排11個字的,也可能是兩橫排如上例,是上47組成的!也可能是直接一直行組成的!形式變化好多!我的影像辨識程式都必須一一思考檢視,這些認知過程卻是AI或傳統影像辨識文獻都沒講的

我最討厭的事情就是說謊!如果大家都不要說謊,世界就會變得簡單很多,真實很多!大家都不必被迷惑欺騙浪費時間,該做甚麼研究?就專心投入金錢、時間與資源做有意義有效的研究!不會有太多研發廠商倒閉,科技進步更快,一般人可以更快得到需要的影像辨識產品!不好嗎?真的不要再繼續騙人說:AI可以從資料學會上述的複雜認知過程了!他們沒辦法做到的!

我至少是一個務實的影像辨識研究者,也確實是有很多實績的影像辨識軟體廠商,我很想告訴大家:其他影像辨識玩家或專家,其實都很可疑!他們說的事情都不是重點,真正的重點他們都沒講!為什麼如此?你們應該好好的質問他們!我這邊只會說實話!我沒必要也沒空講有的沒的!如何認知資料的意義,才是影像辨識最重要的核心技術,現在熱炒的AI技術對於影像辨識其實可有可無!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=174465636