為什麼我敢挑戰如此「神奇」的「深度學習」技術？ - 鄉下老師

字體：小中大

為什麼我敢挑戰如此「神奇」的「深度學習」技術？

2023/01/15 04:21:55瀏覽1497｜回應0｜推薦9

關於影像辨識，所有你應該知道的深度學習模型

看過這種神奇的AI嗎？大多數會質疑我大言不慚敢輕視ML、DL與CNN等當紅技術的人，都會拿這種AI的神奇影片給我打臉！我也絕對相信他們(ML、DL與CNN)擁有很多複雜到我的實作能力還望塵莫及的技術。他們做到的這些事情，我大多數真的做不到！

那我還在囂張批評甚麼呢？這是一個挺複雜的專業技術問題，要說清楚比寫SCI論文還麻煩，大概必須寫一本專書，我相信大家也沒耐心看，即使我真寫出來，大家也看懂了，也不會對我的生意有幫助！我就閒閒跟大家講些跟你我有關係的部分吧！這個不算太難理解，篇幅也不會太多。

首先這種科技是必須用很多錢堆出來的！內部極高的運算量跟我說的一模一樣，你看那些AI專家寫的文章也會看到一樣的說法。要那麼即時反應，完成CNN的計算，你買的一般規格電腦鐵定不行的！如果很容易推廣整合，就是設備很便宜的話，應該已經全世界到處都是了！不會只在YouTube上表演的！

目前所有這些技術的研究都必須在資金雄厚的私人企業，或國家級的研究機構進行！他們看到的商機，是等到這種技術更成熟普遍被大家信任時，就可以大量生產使用這些演算法的專用電腦，到時價格變便宜了，不就可以推廣了嗎？但是即使如此，我還是認為用我的方式做影像辨識軟體，還是可以繼續存活很久很久的！

以整體概念來說，任何目的的影像辨識必要的三步驟是：找到目標→正規化目標→辨識目標意義。他們展示的神蹟多半還是停留在第一個步驟，甚至因為矩形假設，如果目標沒有概略為矩形(寬高比差不多)的特性，整個CNN邏輯就很難處理了！譬如因為斜視產生的變形車牌或曲線型目標等等。但是這第一步驟就已經耗費極大的研究資源了！

即使所有需要的目標都可以找到，真實有用的影像辨識軟體，還需要旋轉、平移、縮放、甚至任意變形原圖中取得的目標，到可以具體參考的已知目標模型的大小與形狀，譬如文字字模、人形、或車型等等，這是跟第一步驟(搜尋目標)一樣困難複雜的第二步驟，更不用說第三步驟的辨識目標意義了！

為何目前的AI專家刻意忽視避談影像辨識的第二三步驟呢？首先是找目標的第一步驟就被大量不合理的計算量給困住了！軟體專家拼命研究讓CNN計算更少，速度更快！硬體專家則拼命找周邊設備如GPU來分擔運算量，忙死了！還顧不到後面的事情。但如上影片不是也有完整的辨識答案嗎？那只是簡單套用理想狀況的簡單程序，答案正確率是不堪實際應用考驗的！

也因此，我們這種不太懂也不使用CNN的影像辨識業者仍然活得很好！按照CNN學派的發展現況，他們根本還沒有能力全程使用他們的演算概念，做出比傳統業者更好更便宜更有效率的影像辨識產品！譬如我現在指導我的RD發表的論文就只是步驟三的一種演算法效能改善發明！這類議題AI影像辨識遲早必須面對，至少他們必須整合現有科技的步驟二與三，還有得忙的！

很微妙的一個重點是：即使他們這套AI真的可以完整作到一二三步驟時，成本還是太高的！簡單說，生物視覺並不是如CNN(類神經網路)宣稱的方式做影像辨識的！譬如我們在街上找車牌時，絕對不會在意建築物或行人或路樹等不相干的目標！我們會開啟腦中一個獨立客製化最有效率找到車牌的專屬影像辨識程式，就像猴子找水果或找配偶用的辨識程式，是一開始起心動念時就不同的！

如果真的如CNN的方式，不管三七二十一，一律從全圖多層次多尺度掃描全景開始，那麼需要的影像處理量一定遠遠超過一般動物的大腦能力，所有使用視覺動物的腦袋就必須變成好幾倍大，人類就會變成頭重較輕了！須知，目前我們的大腦就有接近一半的區域是在處理視覺影像資訊的哦！所以絕對不要輕視盲人，他們一定會比我們更有「思考」空間的！

我的車牌辨識核心完全不用CNN卻跑得比CNN更快？我絕對不會因此臭屁說我比CNN厲害！我真的沒有比CNN厲害！但是CNN演算法一開始並沒設定要找甚麼特定目標？我的演算法則都是從一開始如何做灰階(選重點顏色)、二值化(亮度切割門檻)的過程，每一個程序都直指最簡單有效的找出我要的，具有明確屬性特徵的目標！一路節省資源一本初心直衝終點，當然就能效率極高資源極省了！

就是因為這樣，我可以製作出用最普通的電腦，完全不需要特殊硬體幫忙，就可以便宜快速省電環保的執行極高精確度影像辨識的軟體！這個具體優勢是CNN不管怎麼發展，我都可以在特定項目上保有市場優勢的！即使較廣泛使用的辨識系統硬是因為大量生產降價了，各種特定獨立目標的辨識應用軟體商機還是多不勝數的！

那CNN成熟時，是不是也可用簡單的參數調整「客製化」各種目的的影像辨識軟體呢？其實很困難的！因為他們太依賴統計概念，譬如深度學習可以找出辨識某目標的特徵，但是那種特徵的意義連操作開發的人都不知道為何如此？面對不同目標時該如何調整呢？只能再度收集大量資料訓練了！那種訓練是沒完沒了的！白天看目標的特徵與晚上看都不一樣的！

總之，如果你跟我一樣深入影像辨識軟體的開發實務，也真的夠了解目前CNN深度學習之類的當紅技術發展時，你就不會那麼容易浪漫地迷信AI會有多神奇？會如何戲劇化的改變世界？會如何讓傳統科技都變成過時的笑話？絕對不會的！科學科技包含這些AI當紅炸子雞，終究還是會一起攜手緩步前進的！

( 心情隨筆｜工作職場 )