Alpha Go 四部曲 - 飛虎行空

字體：小中大

Alpha Go 四部曲

2021/02/19 08:08:07瀏覽403｜回應0｜推薦3

從 2016 年 AlphaGo 現身，接著演進為 AlphaGo Zero 和 Alpha Zero，接著在 2020 年發表 MuZero，終於演化完成，可以下任何一種遊戲，不會受限於規則和環境，確實不簡單，我們來看看是如何做到的。

第一代 AlphaGo 只會下圍棋，同時需要棋譜資料，圍棋規則和知識。到第二代 AlphaGo Zero 就不需要人類知識，可以自己學習。到第三代 Alpha Zero 就可以下圍棋，西洋棋和軍棋，但是還需要知道下棋規則。到第四代 MuZero 就將 Atari 遊戲加進來，可以不必預先知道規則就可以玩了。

同一套系統越來越有彈性，真像人類大腦在成長，作者給了個比喻，簡單來講，MuZero 不再像以前一樣嘗試建構成完整環境模型，現在就像雨中打傘般只看重附近的幾步路，也就是說不再去預測天氣。

MuZero 的命名方法沿用 Alpha Zero，Zero 表示在沒有模仿人類數據情況下進行訓練，而 Mu 表示使用學習的模型進行規劃。其中還有些深層涵義，例如夢的日語讀音是 mu，就像 MuZero 透過學習的模型來想像未來的狀況。

( 創作｜散文 )