動態追蹤的關鍵技術是背景的計算，你知道嗎？ - 鄉下老師

字體：小中大

動態追蹤的關鍵技術是背景的計算，你知道嗎？

2020/11/25 04:57:24瀏覽1455｜回應0｜推薦7

你看過那些多目標追蹤的網路視訊嗎？像是在廣場可以同時框住所有的人？在馬路上可以隨時框住所有的車輛？等等。事實上如果沒有穩定可以參考的背景，也就是複雜影像中「不動」的部分，要做到那些事情幾乎是不可能的！人的衣著與車子的顏色沒有固定的原則，人與車的背景也一樣，一張靜態的廣場或馬路照片是不可能永遠正確地直接把人車框出來的！

如上圖，如果人是走在草皮上，你能把他框出來嗎？知道他們避重就輕故意欺騙世人的事情了嗎？又如最上面的例子，停格影像中的黑車要用影像辨識技術正確框出車體，我是辦不到的！但是如果有一張清晰的背景照片呢？兩個影像相減，不動的部分變成趨近於零，只有車體部分會有明顯的亮度或顏色差異值，移動的目標就很容易抓到了！這一部份的技術其實才是能否做好多目標追蹤的關鍵，但是AI專家好像都故意不講？只有真正嘗試做過這種研究的人才會知道，所以我很想告訴大家。

這些年來其實我陸陸續續都有作類似的研究嘗試，但是因為背景的計算做得並不好，導致目標追蹤的穩定性不夠好，我也就不敢承諾推出相關的影像辨識產品。譬如很多客戶說：車牌那麼小你都辨識得到，「順便」辨識一下車子的形狀(客車或是貨車)與顏色會很難嗎？我不是AI騙子，如果車體目標不能永遠準確抓到，我就不敢承諾的！

但是有幸剛好遇到南台資工的林泓宏教授就是這個研究議題的專家，他的博士論文對此著墨很深。如何使用影片在此刻之前的很多影格資訊，統計運算出合理穩定的背景，我的技術算是游擊隊，他則是正規軍！但是他和學界其他的研究者都面臨一樣的問題，穩定可靠到足以抑制雜訊達到堪用地步的演算法都太消耗計算資源了！如果不使用超級電腦，就必須降低解析度，不然車子都走遠了，才算出「之前」的背景，當然就很難實用了！

也因此，動態追蹤的實際需求很多，網路視訊的展示也讓大家誤以為技術沒問題，但是「成本」卻大有問題！如果不能研究出在一般的平價電腦就能執行的穩定背景運算，這個議題的研究者就還沒成功！或者要等到「一般」電腦的運算速度更快時，我們才會看到很多類似產品問世。現在呢？只有獨裁國家的監視系統可以辦到！因為他們是不計成本也要監控人民的！

林老師處境的的尷尬，可以從他的研究論文將色階從正常的256階降到8階就可以知道！如果他是中央研究院的研究員，就可以不必那麼寒酸，讓他的論文用32階或64階來實作，賣像就會好很多，但是那些研究即使有很多論文發表，還是無法進入真實世界被廣泛使用的！

林老師設定期待我的RD實現我們產學合作價值的碩士論文研究目標，就是結合他的動態追蹤技術與我的車牌辨識，讓道路監視系統更完備。其實這也正是之前很多客戶希望我做，但是我因為做不好，不敢承諾的功能，所以我當然是欣然同意，還非常期待！

但是當我的RD開始寫程式實作他的演算法，也跟我解釋原理之後，我當場涼了半截！一般來說，沒有四五十萬甚至百萬畫素以上的影像，要辨識出街景中的車牌是不太可能的！但是很顯然包括林老師在內的最先進背景演算法，以目前電腦的能力只能在大約幾萬畫素，而且只有很低色階(8階)的基礎上才來得及運作良好！所以我的RD必須將街景照片解析度降到很低(幾萬畫素)的解析度才能一秒計算個十次八次，勉強跟得上我車牌辨識的速度(一秒鐘十幾二十次)。

而且他的背景運算就要先吃掉同一電腦中大部分的CPU計算資源了！我的車牌辨識還有錢可以花嗎？我立即知道：兩種功能要同時順暢運作，除非使用超級電腦，或高價訂作的IC來分散運算量，不然就完全不可能實現！這個問題其實林教授自己也知道的！他的研究論文中已經有很多試圖提升速度減低運算量的設計，但顯然還遠遠不夠我們現在需要達到的目標！如果他的運算量吃掉1/3以上的計算資源，我們的合作目標：同時實現多目標追蹤與車牌辨識，就很難實現了！

我自己的車牌辨識效能天天研究很多年了，想要有直接砍半計算量的突破不太可能。所以我很天真的想試試看：如何在不違背他的理論模式概念的前提下，讓他的背景計算變得快速有效，絕對不能吃掉太多我的車牌辨識也極需要的CPU資源！而且初步看起來我似乎做到了？

下面的背景計算影片展示中，我實際上使用了512個影格的資料，每秒十格的話就是大約一分鐘的實體資料，但是按照林教授的計算架構，其實是逐步稀釋的，實質參考範圍應該至少是前面的好多分鐘。重點是：我使用了32色階，還完全保持影像解析度就是幾十萬畫素，CPU的使用量也只有大約10%！在林教授的實作模式中，每個新影像的影響力佔比是1%，我的架構是1/512，其實更能實現它的模式中漸進的概念。

如果經過林教授較嚴格的理論檢視，我的計算結果與他的模式預期相差不多的話，我發明的演算法效能就是原有的十倍以上了！我是魔術師嗎？其實簡單說的概念就是類似FFT的突破，我用數位計算的架構重新詮釋他的演算法，使用大量的記憶空間取代大量的重複運算！現在的電腦記憶體動輒8G，16G，記憶體總是閒置太多的！我就以空間換取時間嘛！

如果我的這個研究結果被證實可以使用，大家知道它的價值嗎？一兩年內你就會看到很多目前只能在YouTube上作秀的動態追蹤軟體，可以用幾萬元就買到了！還不必搭配高規格的電腦，也不必期待GPU或特製的電腦IC了！

從這件事，我再度深深感受到的是：AI領域報喜不報憂的惡質欺騙大眾的態度！如果我不是認識了林教授，經過他更精確地知道這個議題在學術界實質研發的進度，我還真的不知道為何那麼多大家都很期待的動態追蹤軟體，遲遲無法普及上市的原因！只想利用AI賺錢的人，總是想方設法讓大家有錯誤的期待，卻不讓大家知道技術卡關的真相！不然你就不會花錢投資了嘛！

可惡！也是可恥！我認為真正負責任的科學家，應該據實以告！不應該迷惑大眾有錯誤的期待，也應該讓有意從事研究的人知道正確的方向與重點，我絕對不相信多目標追蹤可以不依賴背景計算，但是專家們卻都不提這個關鍵？發展AI是絕對正確的方向，但是真的被目前這些所謂專家的私心算計搞壞了！譬如刻意忽視OCR技術的影響力，與此處背景運算的重要性等等。連我們這些身在其中的研發人員都常被誤導，一般民眾更是被騙得團團轉！他們是科技史上的罪人！

( 心情隨筆｜工作職場 )