網路城邦
上一篇 回創作列表 下一篇  字體:
師法自然的影像辨識
2015/10/23 05:04:23瀏覽977|回應0|推薦10

我不是影像辨識科班出身,沒上過課,沒接受過指導,沒看過幾本影像辨識的書,論文也看得不多,但是現在卻以此技術開始活躍於業界,多數合作夥伴都認定我是這方面的專家!我也不負所望,除了車牌辨識已經很有心得,其他各類影像辨識也都能見招拆招,目前有試過的辨識都有結果。

相對的,我有一位RD則是真正影像辨識技術的科班出身,大學就是台大電機系的高材生,碩博士班也都在台大光電所研究影像辨識。我很高興能與他一起工作,因為我做的所有工作他都能很快的理解,不必花很多時間指導就能分擔我的工作。但是說到幫忙想解決問題的方法,他總是慢了我不只一拍!面對新的問題,總是我先想出解法之後解釋給他聽,他才「哦!」的一聲驚嘆!為什麼?

其實我源源不絕的影像辨識解題「創意」,並不是來自博覽群書,更不是我的天縱英明,只是師法自然而已!我其實只是一直想著「人」是怎麼用視覺辨識目標的?任何人除非視力太差看不到,不然誰都能輕易辨識各種狀況的車牌,只要深入思考分析人的大腦辨識影像的程序,就一定會有方向了!

因為要在數位基礎上實現影像辨識程序,很自然的會用到許多數學,我們必須用數學抽象化描述真實的影像,才能繼續以定量的方式算出具體的答案。這很像玩象棋,將士象車馬炮等等其實是抽象化真實世界的軍隊,為了能夠明確的玩下去,必須有明確的下棋規則,那就是一種數學了!

當然簡化的模式常常不能完整的解決所有問題,此時人們通常有兩種反應:一是將數學依照邏輯上的可行性推演得更複雜,看看更深奧複雜的數學公式(演算法)是不是會發揮神奇的力量,算出更多合乎事實的答案?這是讀書很多的學者專家們喜歡做的事情,但是常常會玩得過火,出現很多難以理解也未必可以解決問題的新數學,學習者進入專業的門檻因此越來越高,教授的下巴也抬得越來越高,但是距離真正解決問題之路並未進展多少。

另一種解決問題的方向是一般沒讀過很多書的人比較會做的,就像我吧!會先退回到問題的原點,用常識的觀點,努力理解到底發生了甚麼狀況?看看是不是其他人有過一些簡單的方式可以直接解決這種問題?實在想不出來時就跟著感覺走,用所謂的「直覺」賭賭看了!

譬如昨天發現有幾個新案例中,原來寫的程式辨識某些B與8字元還是會有錯,就開始進一步想B與8到底還有甚麼差異?我們如果看到解析度不好的B與8會怎麼認定誰是誰?結論是8的左邊腰部有凹陷,B就沒有!如果左牆壁是平的我們會認為像是一個B,有個腰身就很像是8了!所以就立即寫個辨識字元左邊有無「腰身」的程式,果然所有的照片中B與8都不會再認錯了!

我的辨識程式就是這麼直覺!只是努力將我們的視覺判斷邏輯數位化而已,毫無神秘之處!如果你也像我一樣自我分析過,你會發現我們眼睛做的影像辨識準則多到說不完,所以我的「創意」也就源源不絕了!更重要的是我不會因為怕破壞「完美的數學模式」而受到限制,先求解決問題再說!這當然會讓程式自由發展成為違建區或貧民窟(很亂),那不打緊!過一段時間整理一下就會再度變得很結構化,看起來很有道理了!

簡單說,我的影像辨識解決方案永遠是尊重直覺與常識遠勝於學術理論的!當我碰到無法解決的問題時,我不會努力揣摩學者專家們會怎麼想?而是努力思考小學生會如何看待這個問題?就像「三個傻瓜」電影中提到的笑話,在太空中因為無重力,鋼筆不好用,科學家就大費周章的發明了無重力也可用的太空筆,但是小學生可能會說:用鉛筆不就好了

我的數學其實不太好,大學時代的微積分、微分方程與工程數學等科目都是差點被當的!只是勉強夠將我常識性的想法表達出來而已,加上我很會寫程式,我的數學概念可以像一般人講話一樣,一想到就能很快變成程式讓電腦執行。要我找到合適的數學理論解決問題,我大概每個問題都必須研究好久,幾天幾周到幾個月都可能!這種速度是不可能讓我在兩年時間做出商業化車牌辨識系統的!

為何如此呢?難道小學生的智慧高於大學教授?其實不是的!以影像辨識來說,人類生物學上的影像辨識程序並不是偶然的,那是經過幾億年的演化形成的!所以我們對於「看東西」的程序與方式一定是很有道理的!比科學家研究幾百年的時間還多上千萬倍欸!會用錯誤不良的影像辨識程序看東西的生物已經早就絕種了!

所以研究理解自己與一般人是怎麼看東西的?會比讀很多書聽很多課更有啟發性!更快成功的開始影像辨識研發之路,我就是這樣來的!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=33847239