網路城邦
上一篇 回創作列表 下一篇  字體:
讓機器自行建立函數?點子很酷,但是用來開發產品,你敢嗎?我不敢!
2020/12/19 04:55:37瀏覽727|回應0|推薦8

昨天線上上課開始教到SVM(Support Vector Machine)的方法論,和之前講的東西最大的差異是它不再只是找出人為預設公式的「參數」,而是大膽挑戰給電腦一些限制與原則,讓它們可以自行建立一些函數來得到最佳的分類方式!譬如二維平面的線性邊界分類不理想,甚至不可行時,可以讓程式自動建立更高的維度,在三維四維或更高維的空間建立出更多維空間的「線性」分類邊界。

當然已經發表被驗證過的數學邏輯總是可以自圓其說的,認真推導幾次就可以學會,但即使我應該可以學會,卻不像很多聰明的學生或學者一樣,會為了這種「突破」感到興奮,甚至有點意興闌珊。因為數學是可以提供更多解決問題的「可能性」,但是並不表示我們可以因此更快開發出實用產品。

想像一下,一群已知是AB的兩種標本(訓練資料)散佈於平面上,我們用SVM的方法找到最好的分類函數,但是這只表示適用於這些訓練資料,因為執行這個工作的人,並不能直接理解掌握機器產生的函數,即使能看到機器產生的公式,也不會知道其物理意義,因為機器也不知道(不在意)物理意義。

所以當這公式將用其他資料測試時,其實實驗操作者很難預期結果,跟買樂透一樣,我們對於中獎機率其實一無所知!只能去實驗了!而且越複雜的機器產生函數直接適用於「非訓練」資料的機率越低,這也是機器學習自己說的常見現象→overfitting!所以只能回頭調整函數,但是怎麼調呢?我們也不知道為何訓練資料產生的函數不適用於測試資料的實際物理因素差異啊?只能用猜的!或被迫跟我一樣,回頭將物理事實確實研究清楚?那何必當初呢?

事實上,我發現機器學習碰到這種狀況時,確實也會回到傳統的物理思維,盡量用物理的知識與限制為依據,來讓失控的數學演算收斂到較可能的正確方向。但因為那些數學函數本身並不是根據物理現象直接推導出來的,就像我應該很難(或根本無法)修改升級另一家公司開發的原生車牌辨識核心一樣!我們只能在運算之前改變一些參數限制,而不是直接用物理條件改變分類過程中的關鍵程序。

說到這邊你感覺到我說的「效益」了嗎?表面上我們用機器學習規避了艱深的傳統科學家做的,研究物理與數學關係的工作,但是事實上用數學方法直接得到「理想」結果的機率並不大。必須反覆實驗很多次之後「或許」可以越來越好?事實並不是很多AI廣告中刻意誤導大眾的:凡事交給電腦就好了!RD的工作會跟傳統研發一樣多,甚至更多!

譬如影像辨識,當你對問題一無所知時辨識率是零,知識能力不足時做出來的辨識核心是50%,利用機器學習的協助,你可能很快就會得到80%的辨識率!如果你是RD,當然會很高興的報告上級:「研發成功指日可待!」於是公司開始集資打廣告,說辨識率極高的商業產品即將問世了?但通常永遠是:「只聞樓梯響,不見人下來!

如果我用我的傳統方式做一個影像辨識議題,一個月內做到80%的話,幾乎可以篤定的說:再給我兩個月的時間,辨識率一定可以超過95%!即使我是烏龜,一步一步總是可以向前邁步累積哩數的,因為研究越久,分析的資料越多,我對於辨識成敗的原因就知道更多!對症下藥,我的程式軟體只會更聰明,不會停滯不前的。

但是機器學習產生的80%要往前進的道路會跟我完全不同!情況會很像我是獸醫,可以直接進到獸欄醫治動物,觸診、吃藥、檢驗或開刀都很直接可以完成。但是機器學習派的醫生是在獸欄「外面」,跟動物保持社交距離的情況下執行工作的!它們甚至不確實知道動物生了甚麼病?如何醫治?多半要用猜的,執行醫療時還必須經過機器學習產生的方法去「間接」執行!凡事都必須隔靴搔癢的意思啦!畢竟直接處理資料的主角並不是你寫的程式,而是機器自主產生的函數。

所以很合理的預期是:機器學習的辨識率80%95%需要多久?多半是要看運氣,而不是看RD的努力程度。我實際看到的業界狀況是:多數真正投入機器學習的公司「運氣」其實都很不好!他們還多半會很自責是自己機器學習的知識不夠多,會花更多時間更多錢買課程買軟體?研發就變成燒錢的錢坑了!也因此,我認為機器學習目前的火熱,是靠著大家的願意相信,而不是基於廣泛的商業成果實績!

我是業界的老闆,所以當我感覺到用機器學習研發的可能效益與風險時,我當然會審慎選擇我的投資!我現在會認真學習機器學習也是一項投資!讓RD領全薪不必請假,但是空出一半的上班時間去讀書?這當然是我的投資!但是我不會寄予不切實際的期望,我只是估計那麼熱門的技術之中必定有些東西我用得上,所以近日真的將機率統計概念實作到我的部分辨識程序中獲得很好的進步,算是一次有效的產品升級!我的投資開始有回收了!

但是說到更倚重機器學習當作我研發產品的主要技術?我目前不敢的!因為要快速有效研發出可用產品的成功率,用機器學習遠低於使用傳統方法!就是賠錢機率太大,賺錢機率太小。更糟的是無法做售後服務!當客戶抱怨某個案例辨識錯誤時,我根本無法解釋原因或解決問題,那不是太冏了嗎?

對我來說,數學與物理應該是同步的,如果數學超車太多時,我就會開始不信任那種數學了!同時間,理想與現實也應該是同步的,當理想陳義過高,開始脫離現實時,我也會坐立不安不敢投資的!因為我是老闆,不是生活收入有保障的教授或學生嘛!錢就是命啊!

說到這邊忍不住要再度感謝與稱讚南台資工的教授們請我去兼課這件事!事實上以他們系上教授的專長,至少一半以上的教授都能輕鬆開這門課!他們完全不缺人教這門現在很熱門的課程,而且他們也知道我對影像辨識的學理認知與學界主流觀點有落差,我在林教授的線上課程中,常常是會與他唱反調爭辯的!但是他們認同我是業界很有實績的影像辨識專家,堅持學生應該有機會更早接觸到業界觀點與研發方式。這跟我以前是不是教授或院長無關的!我都想替他們招生了!好棒好務實的一個學系啊!

( 心情隨筆工作職場 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=yccsonar&aid=154751210