網路城邦
上一篇 回創作列表 下一篇  字體:
Cross-Validation?那是為了機器學習的缺陷設計的,我不需要!
2021/01/07 03:42:13瀏覽802|回應0|推薦4

A Gentle Introduction to k-fold Cross-Validation

我剛提出了我新版車牌辨識核心的實驗數據,就有網友質疑:這個結果會「穩定」嗎?一開始我一頭霧水,不懂他說的意思?影像辨識結果只有對與錯,都很穩定啊?難道是說我的程式會當掉嗎?他給了我這個連結之後,我才知道他擔心的是我用有限資料測試研發的結果,會不會拿到外面,面對其他車牌資料時就大崩盤(港人說的走鐘),辨識率完全跟實驗室做的不一樣?

這讓我忍不住又要抓住機器學習的先天缺陷(殘疾)批評一番了!我直接回應說:除非拿來考我的是外星異世界的車牌影像,否則不會不穩定的!會有高度不穩定疑慮的是用機器學習的概念作出的結果!他們才需要更多的外部資料做交叉驗證,以避免上線使用時完全走鐘!我的作法是一定不會的。

因為機器學習的核心理念只是根據實驗資料的特性「統計歸納」出最佳的解法,並不著重研究事實現象的因果關係。他們信仰的是:資料會自動給他們完美的演算法,所以根本就忽視,甚至蔑視資料「為何如此」的原因探討。他們是根據實驗資料,找到一個完美或近乎完美的公式,來解答出實驗資料的正確答案,然後「希望」這個公式可以放諸天下皆準?

事實上,能否辨識正確的關鍵,應該是事實現象本身的物理成因,如果你掌握了車牌目標的物理特性,與經過影像拍攝扭曲的機制,依據這些物理現象與過程設計出來的辨識程序,除非物理定律都變了,就是你到了一個連物理定律都不同的異次元世界,不然不可能表現「不穩定」的!

機器學習所以還能獲得「初步」的成功績效,原因是資料本身只要量夠多(Big data),確實會包含大多數上述物理特性與機制的資訊,你只要多做題庫背誦記憶解題公式,不問原理原因只問解法,一樣可以考上建中的!我承認我當初就是這樣考上的!當時我的數學理解程度只是中等,離建中水準還好遠的!但是我只用了一個月,讀完一本厚厚的數學總複習參考書就搞定聯考了!不懂的就背解法嘛!我的記憶力很好的,我是說當年啦!

這種學生的問題就是:如果考題溢出了題庫那就完全沒有保障了!萬一碰到出題老師靈活一點,對於理論概念清楚的學生其實毫無問題,對於我這種背解法的考生那就是大災難,完全「不穩定」要大崩盤了!我能考上建中的原因只是那一年的考題超保守,完全沒超出參考書題庫的範圍!我的建中同學有一半的人數學是滿分的!我還少了兩分,但就是這樣混進建中的!沒有很光彩的感覺。

現在老師們都會說學習東西一定要理解原理,不要死背公式或亂猜答案!但是很詭異的!目前最流行的人工「智慧」技術的本質卻是背道而馳?信奉的就是我當年考上建中的不入流技巧,多練習多背誦已知考題,盡量讓答案是對的就好,只要題目做得夠多(交叉驗證?),你就可以上建中了?這種做法能說是「智慧」嗎?

相對的,我現在的作法,才是幾百年來的科學家都會作的方式!就是看到少數資料時,就認真分析每一個個案的成因,徹底理解每一個物理過程,然後依據這些理解,設計出針對性的演算法,最後寫成影像辨識程式。所以真正離經叛道的不是我,而是迷信機器學習派的「科學家」!他們相信只要多背題庫,並找出萬能的公式,就可以考上建中,也認為這就是終極的成功?你同意嗎?

所以會擔心研發成果不穩定的焦慮,就是來自你用了機器學習的概念建立你的產品!你的直覺告訴你:資料不同時有可能答案解法就會完全不同,新舊資料之間的成因差異你是一無所知的!真的答案都不對時,你也不知道該從何著手解決?想到那裏就更焦慮了!

怎麼辦?如果你還是迷信ML不肯悔改,回頭做正確方式的科學研究,就只能用更多的資料作交叉驗證(Cross-Validation)了!但是你知道嗎?這不僅是不夠科學的問題而已!更多的資料是要錢,也要時間去收集的!我目前的車牌辨識核心如果要靠資料逆推到如此高效能的地步,沒有幾百萬張的影像是不可能做到的!我根本沒這個資本這樣建立我的產品。

你很有錢嗎?誰能給你那麼多現場資料啊?你買得起嗎?這就是堅持使用機器學習者的悲歌了!所以現在很多公司裡,都有一大堆可憐的RD深陷其中無法脫身。因為他們相信必須有大量資料才能驅動推進自己的研發,但是公司未必可以提供,就只能將有限的資料切割成小塊互相測試(Cross-Validation),明知效果不大,但也要做點事情對於付薪水的老闆交代嘛!真的是可憐亦復可悲啊!

相對的,苦海無邊回頭是岸,像我這樣只需要依據較少的資料研究,因為物理定律是穩定不變的,充分理解後設計出能正確辨識幾百張照片的辨識核心,只要我們人還在地球上,再怎麼接受考驗也都是誤差有限的!我的產品出門,我只會擔心一些極少數的例外物理現象我沒考慮到,與實驗室表現的誤差最多是幾趴而已,不可能是幾十趴的!所以我一點都不會焦慮。

知道了嗎?堅持迷信機器學習就是你研發壓力與焦慮的根源!如果不回頭認真研究科學的根本,你就永遠無法獲得解脫的!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=155148778