我只看到CNN影像辨識錯誤第一步之後的尷尬掙扎！ - 鄉下老師

字體：小中大

我只看到CNN影像辨識錯誤第一步之後的尷尬掙扎！

2024/01/20 05:28:23瀏覽659｜回應0｜推薦10

關於影像辨識，所有你應該知道的深度學習模型

這是一篇介紹CNN影像辨識演算法的核心理念，與近年主要技術演進階段極好的文章！這幾年來我看過這篇文章沒有十次也有八次了！隨著自己的積極學習與RD藉著讀研究所上課，我們都越來越能理解機器學習與CNN等所謂新潮AI技術的內涵，當然本文是越看越懂，越看越有趣味，也和自己多年來習慣使用的OCR技術概念越來越融會貫通了！

其實遵守物理定律的真實世界中的事總是會殊途同歸的！我們與CNN面對的影像辨識問題是完全一樣的，即使一個是中醫，一個是西醫，最終研究的都是人體的疾病，目標也都是將病治好，所以是不會永遠持續分歧的！就像中醫現在不再排斥使用西醫名詞與概念跟病患解說病情了；大多數的西醫也不會再輕率批評貶低各種傳統醫藥與療法了！

這些年來我對於這些新潮的AI影像辨識技術持續保持批判的態度，主因是它們確實呈現了很多明顯的缺點，又被各界人士過度推崇高估了！我就是做這一行的，具體研發成功的產品還比使用那些技術的團隊更多更好！所以看得特別清楚！反正我不必向誰申請計畫接受誰的審查贊助，只要我的產品辨識率高就賣得出去！所以我可以暢所欲言，不怕得罪當道，但這不表示我認定他們一無是處，毫無借鏡使用的價值！必要的地方我們還是有局部使用ML與CNN的！

CNN的錯誤第一步，就是堅持使用矩陣掃描(Convolution)的模式蒐集影像上面的特徵資料！3X3矩陣的運算就是單點運算量的9倍！7X7的矩陣就是49倍！這是一種極為耗時的運作方式，而且他們好像吃了秤頭鐵了心，一定要堅持以此為核心架構走下去？速度太慢是無法實用的，當然就必須花很多心力去減少運算量，還必須求助於更多的邊緣運算設備來消化大到不合理的運算量，就是那些GPU與AI晶片了！這些事實上面的文章中都自己爆料說得很清楚了，絕對不是我的刻意醜化！

尷尬的是，雖然他們很不願意回頭使用傳統的很多非矩陣的影像處理技術，如OCR技術中的二值化、輪廓化、或目標切割、輪廓追跡或連通運算等技巧，但是迫於形勢，還是一再被迫採取了類似的策略，所謂各種計算更快的CNN，也不過就是跟傳統影像辨識的這些技巧偷偷取經減少運算量而已！何來創新發明？任何傳統影像辨識都是這麼作的！CNN做得還特別笨拙！

譬如上圖展示的R-CNN示意圖，就是設法鎖定最可能有需求目標的地方才做完整密集的處理，這就是傳統OCR影像辨識中所謂的ROI(Region Of Interest)概念了！只是OCR是用可以比較快速且明確取得的二值化與輪廓特徵來判定哪裡是處理重點？CNN則只能用運算較慢還資訊不明確的矩陣掃描特徵加權結果來估計！光是這一點OCR與CNN就已經高下立判了！但這個CNN不得已的救災措施依舊被吹捧為一個CNN的「技術大突破」？看懂的人就會覺得很可笑！

簡單說，他們是自己挖了一個大坑給自己跳，被困深坑之後費盡力氣才狼狽的爬回地面，還忝不知恥的敢自誇是英雄咧？以我的觀點，他們根本就可以不必跳下那個大坑的！我只是繼續使用OCR在既有的不必使用矩陣模式做很多事的彈性架構下，就開發出很快也很準的辨識軟體了！我很早就知道那種矩陣掃描的技術，就是數位濾波器嘛！我知道那是陷阱沒跳下去而已！

所以當我聽到那些把YOLO等新技術奉為大神的說法，真的哭笑不得！不管他們看起來多快速有效，傳統的OCR都有更快的演算模式可以做到一樣事情的！我的產品就是實證！而且他們的快速是必須依賴額外運算周邊設備如GPU的！我的傳統做法則完全不需要，用我的方式要將成果商品化的距離是近如咫尺的！完全不必等輝達的AI晶片！

所以你要相信甚麼才是AI影像辨識呢？我管不著！我只是把我知道的事實簡單的告訴大家！也點出CNN自曝其短的文章重點！歷史一定會證明我是對的！我已經罵了很多年都沒有任何CNN專家敢吭聲的！是不是他們太高尚厲害懶得理我呢？你們自己判斷。反正目前我的辨識真的做得比他們好！這是無庸置疑的事實！

( 心情隨筆｜工作職場 )