網路城邦
上一篇 回創作列表 下一篇   字體:
Alpha Go 四部曲
2021/02/19 08:08:07瀏覽403|回應0|推薦3
從 2016 年 AlphaGo 現身,接著演進為 AlphaGo Zero 和 Alpha Zero,接著在 2020 年發表 MuZero,終於演化完成,可以下任何一種遊戲,不會受限於規則和環境,確實不簡單,我們來看看是如何做到的。

第一代 AlphaGo 只會下圍棋,同時需要棋譜資料,圍棋規則和知識。到第二代 AlphaGo Zero 就不需要人類知識,可以自己學習。到第三代 Alpha Zero 就可以下圍棋,西洋棋和軍棋,但是還需要知道下棋規則。到第四代 MuZero 就將 Atari 遊戲加進來,可以不必預先知道規則就可以玩了。

同一套系統越來越有彈性,真像人類大腦在成長,作者給了個比喻,簡單來講,MuZero 不再像以前一樣嘗試建構成完整環境模型,現在就像雨中打傘般只看重附近的幾步路,也就是說不再去預測天氣。

MuZero 的命名方法沿用 Alpha Zero,Zero 表示在沒有模仿人類數據情況下進行訓練,而 Mu 表示使用學習的模型進行規劃。其中還有些深層涵義,例如夢的日語讀音是 mu,就像 MuZero 透過學習的模型來想像未來的狀況。
( 創作散文 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=robertyjlai&aid=156558679