影像辨識難在哪裡？ - 鄉下老師

字體：小中大

影像辨識難在哪裡？

2015/03/28 05:14:50瀏覽23102｜回應0｜推薦8

如前文所述，我其實不是科班出身的影像辨識專家，現在才漸漸理解到做影像辨識之所以會很難，是因為不僅需要對數位影像結構有精確的了解，還要有豐富的常識加上敏銳的直覺，才可以找出解決問題的正確方向。即使如此，距離真的解決問題還有一大段距離！

前面說的只是「定性」的部分，與客戶談的只會到這一階段，還必須是夠聰明的客戶才能溝通。接下來就是定量的分析，你必須能不斷的因應需要，推導出很多精確的數學演算法。一般專業資訊系的數位影像處理課程會教你一些矩陣運算，就是如何強化影像、抑制雜訊、增強對比或數位濾波等等技術，有時候還會來個頻率域與空間域的轉換，多數「正常人」學到那邊就快被嚇死了！

但是要做影像辨識的研究，你不但要真的很深入的理解那些數學技巧，還必須有能力自己編碼，就是將那些數學式子一行行的用程式實作出來！很多人到這個階段，覺得寫程式太麻煩，就開始用MatLab等輔助複雜計算的軟體，但是依我的經驗，這種研究者接下來就很難繼續深入細節，做到最後也無法製作出軟體商品，因為他們最多只能證實自己的演算法可行，寫SCI論文還OK，要製作軟體？No way！當教授這樣可以生活，當軟體公司老闆就不行！

如果你以為做到上面的事情就可以開始深入影像辨識技術，你又錯了！真正困難的事情才剛剛開始！這是連專業影像辨識書籍中也只有很少篇幅介紹的部分，卻是我目前作這類研究最困難，也最耗時的部分，那就是向量幾何！

當你使用前面的影像處理技術，將你要的影像資訊大致呈現之後，接下來幾乎都是向量幾何的問題！譬如你在一張有車牌的照片中找到了幾個清楚的文字，你知道那些是文字，但是你如何知道那是「車牌」上的文字？而不是某人衣服上印製的商標？你必須找的不是個別獨立的字元，而是「排成一排」的，大約六七個字元的群組！

這樣一個簡單的直覺判斷，在數學上就是向量幾何學的問題！而且你一樣必須能自己做最底層的編碼，就是寫程式！而且我研究這類問題時，八成時間就是在研究這些幾何關係！我跟我的學生解釋這些東西時，概念上他們可以理解，也驚呼終於知道高中那些超級討厭的數學可以用在甚麼地方了！

所以啦，書到用時方恨少！我自己從中學到大學的數學成績也不太好，只是還算認真，有理解到基本的原理，其中的幾何學是我相對比較好的部分。話雖如此，我不是鼓勵小朋友要用功地多作習題或多考試，那樣其實是沒用的！我的心得是必須真的理解那些原理，讓他們變成自己空間直覺的一部份！所以我在高中畢業三十年後，仍然可以隨時不看書就導出：兩線交點、平行線、平移旋轉等等幾何公式，也可以不打草稿地就直接寫成程式做計算！

「真的能用數學進行思考，加上能用程式語言表達出任何數學的概念」，我想這是影像辨識領域最重要的事情！我可以在一兩年內教會學生到業界當程式師需要的基本功，但是真的很難想像要如何教出一個像我現在一樣，可以自由思考與處理這些影像辨識問題的人！我當然想讓我的技術幫助公司，希望兩三年後所有員工都能幫忙做影像辨識的軟體賺錢。目前只能走一步算一步，做到哪邊就隨時開講分享經驗，也盡量讓我的工作成果模組化，簡化學生們的學習以及日後製作軟體的流程。

( 心情隨筆｜校園筆記 )