生物學家如果知道機器學習這樣做分類會怎麼想？ - 鄉下老師

字體：小中大

生物學家如果知道機器學習這樣做分類會怎麼想？

2020/09/13 04:34:38瀏覽947｜回應0｜推薦8

最近跟著RD一起聽教授講機器學習的基礎理論課，主要是解釋如何依據目標樣本的特徵做統計分類的數學模式(Bayesian probability)，實際範例很少，事實上講到第二章還是只有一個魚罐頭工廠做鱸魚與鮭魚分類的例子，但是數學公式與模式已經推演到「多變數」與「多維空間」的抽象函數了！所以當教授問學生們有沒有問題時，連我這個資深的前教授都不知道該如何回應？

以數學的邏輯來說，或許回家多做一些公式推導，會覺得自己「懂了」！但那應該只是對於數學邏輯的確認無誤，如果相關的數學課上得不夠多，對於多維空間的抽象思考能力不夠，連推演公式做確認也辦不到的！而且這畢竟是一個實務問題，即使我數學的部分「理解」了！但是根本不覺得這些數學可以，或甚至「可能」解決辨識魚種的問題，我可以誠懇的回答說：我懂了嗎？

其實我和授課老師與學生，甚至課本作者之間還有一個好大的隔閡，也可以說是目前我上這個課的「學習障礙」。就是他們全都不是生物專家，我則是一個受過完整古生物學專業訓練的資優生！從大學到研究所，所有生物與古生物相關課程我都是接近滿分的！古生物和一般生物學最大的差異，就是古生物完全偏重「生物分類學」！

生物分類學家做事的方式第一步跟機器學習的概念相同，就是找特徵區別不同的生物種類，但是接下來絕對不是去統計特徵值分布與生物種之間的關係，不是他們資料不夠多，常常一個化石挖掘地就可以隨便撿到幾千個同物種的生物！但是他們想都不會想去做統計，因為不必要且沒效率，做出來同業也不會相信！有很多更簡單也一定更正確的辨識方法可以用。

現在有DNA分析做最後的確認，更增加了生物學家以特徵做分類的信心度，絕對沒人會用統計的。如果找個懂生物的專家來指導魚罐頭工廠辨識兩種魚，一定會要他們努力用影像辨識找到關鍵的特徵，譬如魚嘴或背鰭的形狀，辨識到該特徵答案就百分百正確了！還要問統計值對誰(哪種魚)有利嗎？一匹馬絕對不會有犬齒的！

在機率統計的數學模式中，一開始各種特徵對於分類決定的重要性是一樣的，當他們發現其實重要性不同時或許會設計一個加權函數，但是如何才能決定加權函數正確與否？又會衍生出好多做不完也永遠做不準的數學工作，最後也只能用統計學家(不是生物學家哦！)自己粗魯的假設，讓整個數學模式得以運作！

對於生物學家來說，各種特徵對於物種的辨識重要性當然不同，甚至多數是互相相關的，而不是獨立的變數，那些特徵的成因如果你都知道，只要看一個關鍵的明確特徵差異來決定辨識結果就幾乎是百分之百正確無誤了！還需要複雜的機率統計去處理幾十個特徵資料分布的多維空間函數嗎？

簡單說，如果你尊重傳統科學，只要抓到重點部位解題，99%的影像辨識工作根本不必用機率統計去猜的！使用機率統計做魚種辨識其實是更高成本，正確率卻更低的作法！殺雞用了牛刀只會降低效率讓所有事情變得吃力不討好，為什麼堅持要這麼做呢？我不會否認機率統計存在的價值，但是他們對於真實世界需要的影像辨識需求幫助其實真的很小！

如果加上他們開始忽視或低估相關的傳統科學知識，自大到以為只要讓電腦多「學習」，就可以自動得到前面幾百年的所有科學知識？那這種AI怎麼看都會像是在浪費時間做傻事了！我相信這也是目前過度推崇機器學習相關技術的所謂AI炒作好久，但至今成效依舊有限的主因了！

簡單說，我對於機率統計與機器學習本身毫無意見，也會繼續學習相關的理論與技術，但是對於「凡事都要使用以機器學習為內涵的AI才能解決」的荒謬觀點大有意見！真正可以快速正確解決問題，尤其是影像辨識問題的AI策略，絕對是：影像處理+傳統科學知識！絕不是影像處理+深度學習，後者真的錯得離譜了！會害很多人陪錢公司倒閉的！甚至整個AI的發展都會因此停滯拖延幾十年！

( 知識學習｜科學百科 )