網路城邦
上一篇 回創作列表 下一篇  字體:
辨識破碎的字元是個簡單的認知過程,可以用機器學習嗎?不可能的!
2021/08/06 06:24:29瀏覽1011|回應0|推薦8

感謝大成鋼公司給我機會挑戰像上面這種困難的影像辨識工作,也沒有嚴格限制我對外討論發表,讓我有實際的案例繼續打臉現在所謂主流派的AI影像辨識技術。他們跟我最大的差異是:我總是認真研究人類視覺所以能辨識成功的「認知」過程,加以分析理解,將思考過程數學化寫出程式,變成一個「人造」的「智慧化」程式軟體,這才是應該被視為正統主流的AI影像辨識的研究方式!絕對不是將科學研發工作交給算命師!

但是目前的所謂AI影像辨識專家們,卻刻意忽略跳過我認為最重要的研究重心!將這部分最難也最關鍵的認知過程交給「機器」,用大量資料去「學習」?認為只要資料夠多夠完整,使用的數學模式夠多夠複雜,終究可以用這些大量的數學模式與資料,「自動」產出一個具有近似人類「認知」功能的軟體?想得美哦!我常覺得他們是因為解析認知過程太繁瑣而崩潰了,乾脆耍賴將難題推給電腦去胡搞瞎搞!還用一般人看不懂的數學模式來誤導初學者和嚇唬外行人,其實目的是掩飾他們的怠惰與無知。

以我這些年歷練各種困難的影像辨識專案的經驗來看,他們這整個哲學體系根本就是天方夜譚!對於需要高辨識準確率的影像辨識來說,他們能做出的軟體確定永遠比人類視覺判斷能力差,差到一般客戶會根本不想用!關鍵就在於他們能模擬成功的「認知」過程一定遠遠不如一般人眼!就像老闆不會請比自己笨很多的員工,眼睛看的正確率90%,我買的辨識軟體至少也要85%吧?不然就是自找麻煩了!

一篇文章能表達的東西不多,我和大家待會都要上班,在此只舉一個小小的例子讓大家體會一下我的概念。上圖是我從兩張類似第一張圖的影像中經過千辛萬苦二值化切割,並清理各式雜訊,還做了正確旋轉之後跑出來的結果。左邊的案例兩個字的輪廓都剛好很完整,所以辨識成功為JH沒有問題,但是右邊這種破碎的字元呢?

明明是在數學定義上破碎分離的五六個目標,我要如何將它們視為「兩個字」呢?如果我沒辦法做到任何人都能做到的這個「簡單」認知過程,我就絕對無法用程式告訴你:那裏有「兩個」字!如果連只認識ABC的小學生都能認出的JH,我的「AI」程式卻做不到?我還好意思自稱是AI影像辨識專家嗎?卸下招牌退隱山林吧!

事實上我做的事情一點都不神秘,正是大家都會思考的辨識過程!首先我們會預期影像上面會有「像字」的目標,何謂「像字」不只是影像處理上的二值化結果,還包括字與字之間有間隔,字元大致是長寬差不多的一個區塊等等。如果將這些非影像的條件資訊加入我的程式運作,我的軟體就可以輕易辨識成功了!

以上例來說,我當然也會先用簡單的想法假設兩個字都很完整,剛好是最清楚最大的目標,如左邊案例一比對就中了!但是遇到右邊的案例當然結果會四不像,此時我就會啟動另一個認知過程:我知道這一群碎片可能是兩或三個橫排的字,先掃描看看此區域是不是有空白區間?有的話就以字元間的空白為界線,強迫同區域的碎片融合為一個字,很容易的JH的答案就出來了!

但是當然這種條件假設,或認知過程,只適用於影像中我們認為可能有字的局部區域,如果像CNN說的那樣必須先做鉅細靡遺的全圖掃描,還要掃好幾次不同解析度來找到「基本」特徵資訊?那就笨到讓我說不出評語了!沒有一個活人(或動物)會笨成這樣來看東西的!根據這種邏輯寫出來的軟體會很AI嗎?笨死了啦!要靠這個技術過活的話,我的公司早就倒閉了!

我的作法不就是所有人都會有的認知過程嗎?我只是盡量模仿人的想法,直接寫成程式,這是簡單精確迅速可以完成的工作方式,我一向就是這樣上班的!但是想像一下,如果你已經將你的影像辨識過程架構成CNN + ML + DL,那麼複雜龐大,而且基本上是要希望它「自動」運作的體系,機器要如何「自己學會」我上面完成的工作呢?即使可以做到,它會「」多久呢?我是一個上午就把上面的程式做好了!

所以你應該可以體會到:在我眼中,現在所謂主流派的AI影像辨識理論與作法有多荒謬了!我不是為了批評他們而生的,我有自己的工作要做,也用很不一樣的思維方式天天在做他們說的那種工作!每次與他們相遇,我都是囂張傲慢的贏家,因為他們的做法真的很蠢

這樣說吧!影像辨識不是不能用ML、DL或CNN,但它們絕對不應該是主體或必要的方法,所以我和我的RD也是一直在學習這些「新」技術的!希望它們「偶爾」可以幫上一點忙。如果你以它們為主要研發工具,你就是腳上綁著鉛塊和我賽跑了!就像葉問電影中的台詞:「拳不是那樣打的!」還敢說影像辨識一定要用深度學習,一定要用類神經網路,才夠專業?聽你在XX!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=166142887