網路城邦
上一篇 回創作列表 下一篇  字體:
影像辨識領域現在是一片曠野
2019/04/12 09:32:11瀏覽2256|回應0|推薦5

昨天晚上到台中做個簡短的演講,時間只有30分鐘,我集中火力想要傳達的一個概念就是上面這張投影片的內容!其實我們正處在一個影像辨識發展的重要歷史時刻!僅僅幾年前,一般人只能接觸到幾萬到幾十萬畫素的資料,影像畫面簡單,加上影像處理是高計算量的工作,基本上影像辨識這件事與一般人沒有關係,大概只是NASA那種地方的科學怪人玩的東西。

但是百萬畫素的時代來臨之後,忽然之間人人都可以輕易取得高畫質的數位影像,從手機、監視器、到網路資料等等,有數位影像就可以做影像辨識,很多人都開始用軟體自己做影像處理,像是P圖、美肌之類的。影像辨識稍微難一點,但是也開始很多人想玩,想用影像辨識軟體提升工作效率。

不論是學界或業界的專家,都會說他們能作影像辨識,推銷自己的理念與產品,讓外行人普遍有一個「影像辨識是成熟科技」的錯誤印象!我自己作車牌辨識產品已有不錯的成績,絕對稱得上是一個專家了!但是我的感覺是影像辨識領域的科技還非常的不成熟,面對各式各樣的辨識需求,我們這些「專家」手上的技術簡直還在石器時代!

簡單說,影像辨識的合理目標就是做出跟人的視覺相當的判斷,但是大家可曾想到?一個小孩要花多少時間才能看懂周遭的事物?要安全的自己過馬路要多少年的經驗學習調整認知?要讓自駕車有等同於一般成年駕駛人的判斷能力,這是多麼高深的學問?

以這種標準,回頭看目前的影像辨識技術,你就會同意我的觀點!舉我最熟悉的例子,車牌本身當然是一個標準的矩形,但是放到真實的立體世界中被拍攝時,它當然不會永遠「看起來」都是個矩形!但目前除了我的辨識邏輯之外,全世界所有的車牌辨識流程,都還是無法跳脫「車牌應該是個矩形」的框架!

這就像一個小孩子剛開始學認字,老師家長當然會先給他認很端正的字,但是哪天有人將這個字寫歪了一點,小孩就說我不認得這個字了!這還不夠笨嗎?這就是我們目前車牌辨識科技的水準!學界與業界都一樣,車牌傾斜超過15度就全部都說不認識了!我的軟體能辨識360度旋轉的車牌,這對一般人而言不算甚麼,任何人都行!但是在車牌辨識的領域就已經是全球僅見了!

所以我會說影像辨識的領域可以說是一片曠野,有太多事情都沒人做過,也有無限的方法其他人都沒試過!只要抓住任何一個問題深入研究,針對問題設計自己認為可行的演算法,都會有所收穫!不像很多研究成熟的領域,怎麼努力研發都會發現以前有人做過了,或者別人都做得比我好!在這裡,研發有成的機會是非常大的!

但糟糕的是,很多開始知道影像辨識很難的人,卻信錯宗教了!在前面幾百年的正統科學發展過程中,我們不斷地被提醒:科學就是尊重事實,準確地分析原因,找到正確的解法對症下藥!如果有人提出一個偏方,即使真的能治好病,但是連發明者都說不出治病的機制,那種藥是不會輕易被科學界接受的!至少科學家們一定會努力研究出為何如此?之後才能繼續改進新藥,也防範可能的副作用,這樣科學才能穩定的進步!

我就是接受這種科學訓練長大的人,雖然不是影像辨識科班出身,但是我從課本學習前人如何做影像處理與影像辨識,仍是恪守科學研究的精神持續在這條路上前進。但是我卻看到這個領域出現了一種完全不同的理念與工具,就是機器學或深度學習,而且多數信奉者直接將它們與人工智慧的發展掛勾,好像這才是研究人工智慧的主流?如果你不用它們就是落伍了?

但是機器學習與深度學習的基本精神就是統計!用電腦的高速運算能力,用既有已知的演算法,加上巨量的資料,讓電腦自我「學習」調整出一個可以得到最接近人類判斷的結果,但是絕對不想事後去分析理解這個結果是怎麼來的?也無法精確分析這種解法與問題本質之間的關係?他們看到結果居然很正確時,就開始「讚嘆Seafood」,「感恩Seafood」了!至於Seafood為何如此厲害?他們既不敢也不願意去追問。

這種態度也很像為了快速獲得聯考高分,或取得某個證照,或高普考而去拼命背題庫!哪一家補習班或出版社的題庫猜中率高,考生們就又開始「讚嘆Seafood」,「感恩Seafood」了!至於真的學好東西,以後到真實世界,即使碰到跟考試不一樣的題目,我還是能經過思考解決,這種事就根本不是他們的目標

我從來不否定機器學習與深度學習帶來的工作成效,在很多案例中他們確實成效卓著,我替使用者高興!但是這種祝賀與恭喜你中了樂透彩券一樣,如果你根據得獎經驗開始分享說:「一定要在甚麼時候,到哪一家彩券行買彩券,就會中哦…」等等,我就會摸摸鼻子笑呵呵的找機會躲開了!你會相信這些經驗談嗎?

我看到的多數使用機器學習的人都是樂於隔靴搔癢的!機器學習或深度學習所以能夠成事,事出必有因!要讓人工智慧繼續進步,絕對不是繼續發展更多「猜題」技術,而是「解題」技術!即使你依賴機器學習或深度學習快速找到正確的解答,也應該在事後理解分析成功的原因關鍵,這才是真正的科學研究!現在多數使用機器學習者的心態與古人不知天氣成因,因此找人卜卦問東風差不多,還會造就很多「神算子」!但是他們因此就不會積極去研究天氣的成因了!如果算命永遠都很準,科學就不會發達了!

凡事追根究柢的態度,不論在科學研究或實務上都是必要的!影像辨識或任何機器學習做出來的判斷都不會百分百正確,我們必須知道對與錯的原因,才有針對問題加以改善的可能!如果我的車牌辨識是用大量的機器學習或深度學習做出來的,就像請了一個自閉症的天才來上班,他作出了很棒的產品,但是辨識有錯時,我根本無法跟自閉的員工溝通,也就無從服務客戶了!連解釋為何出錯都做不到!

在我眼中,如YOLO等深度學習工具我也覺得很神奇!但是我不會因此迷信它內部有神奇的魔力!它依舊只是一種演算法。我的「好奇」多於迷信,我相信答案會對,一定有可以理解分析的邏輯,如果我可以充分理解,我就一定可以比那些只是相信名牌的「機器學習專家」更有效率!

但是我看到的機器學習領域大家說話討論的方式,很像一群不懂科技的年輕人在討論哪個牌子的手機比較好?內容只是酷炫程度,能否符合自己的用途?他們根本不在意,也不想知道技術面深入的知識,如果連研究人工智慧的專家們都是這個態度,一定會讓人工智慧的實質發展延宕乃至停滯,這是AI領域發展的一個重大危機!

( 心情隨筆校園筆記 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=125474515