網路城邦
上一篇 回創作列表 下一篇  字體:
影像辨識難在哪裡?
2015/03/28 05:14:50瀏覽23102|回應0|推薦8

如前文所述,我其實不是科班出身的影像辨識專家,現在才漸漸理解到做影像辨識之所以會很難,是因為不僅需要對數位影像結構有精確的了解,還要有豐富的常識加上敏銳的直覺,才可以找出解決問題的正確方向。即使如此,距離真的解決問題還有一大段距離!

前面說的只是「定性」的部分,與客戶談的只會到這一階段,還必須是夠聰明的客戶才能溝通。接下來就是定量的分析,你必須能不斷的因應需要,推導出很多精確的數學演算法。一般專業資訊系的數位影像處理課程會教你一些矩陣運算,就是如何強化影像、抑制雜訊、增強對比或數位濾波等等技術,有時候還會來個頻率域與空間域的轉換,多數「正常人」學到那邊就快被嚇死了!

但是要做影像辨識的研究,你不但要真的很深入的理解那些數學技巧,還必須有能力自己編碼,就是將那些數學式子一行行的用程式實作出來!很多人到這個階段,覺得寫程式太麻煩,就開始用MatLab等輔助複雜計算的軟體,但是依我的經驗,這種研究者接下來就很難繼續深入細節,做到最後也無法製作出軟體商品,因為他們最多只能證實自己的演算法可行,寫SCI論文還OK,要製作軟體?No way!當教授這樣可以生活,當軟體公司老闆就不行!

如果你以為做到上面的事情就可以開始深入影像辨識技術,你又錯了!真正困難的事情才剛剛開始!這是連專業影像辨識書籍中也只有很少篇幅介紹的部分,卻是我目前作這類研究最困難,也最耗時的部分,那就是向量幾何!

當你使用前面的影像處理技術,將你要的影像資訊大致呈現之後,接下來幾乎都是向量幾何的問題!譬如你在一張有車牌的照片中找到了幾個清楚的文字,你知道那些是文字,但是你如何知道那是「車牌」上的文字?而不是某人衣服上印製的商標?你必須找的不是個別獨立的字元,而是「排成一排」的,大約六七個字元的群組!

這樣一個簡單的直覺判斷,在數學上就是向量幾何學的問題!而且你一樣必須能自己做最底層的編碼,就是寫程式!而且我研究這類問題時,八成時間就是在研究這些幾何關係!我跟我的學生解釋這些東西時,概念上他們可以理解,也驚呼終於知道高中那些超級討厭的數學可以用在甚麼地方了!

所以啦,書到用時方恨少!我自己從中學到大學的數學成績也不太好,只是還算認真,有理解到基本的原理,其中的幾何學是我相對比較好的部分。話雖如此,我不是鼓勵小朋友要用功地多作習題或多考試,那樣其實是沒用的!我的心得是必須真的理解那些原理,讓他們變成自己空間直覺的一部份!所以我在高中畢業三十年後,仍然可以隨時不看書就導出:兩線交點、平行線、平移旋轉等等幾何公式,也可以不打草稿地就直接寫成程式做計算!

真的能用數學進行思考,加上能用程式語言表達出任何數學的概念」,我想這是影像辨識領域最重要的事情!我可以在一兩年內教會學生到業界當程式師需要的基本功,但是真的很難想像要如何教出一個像我現在一樣,可以自由思考與處理這些影像辨識問題的人!我當然想讓我的技術幫助公司,希望兩三年後所有員工都能幫忙做影像辨識的軟體賺錢。目前只能走一步算一步,做到哪邊就隨時開講分享經驗,也盡量讓我的工作成果模組化,簡化學生們的學習以及日後製作軟體的流程。

( 心情隨筆校園筆記 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=21817103