網路城邦

上一篇 回創作列表 下一篇   字體:
什麼是強化式學習
2026/05/30 09:35:50瀏覽7|回應0|推薦0

想像你正走進一座 奇幻冒險樂園,這裡就是強化式學習的世界。為了讓你更容易「看到」它,我用一個完整的圖像化比喻帶你走一趟。

🧭 動作:選擇下一步往哪走

在每個岔路口,冒險者都要做出一個「動作(action)」: 往左、往右、跳躍、攻擊、躲避…… 每個選擇都會帶來不同結果。

獎勵:迷宮給的提示

迷宮會用「獎勵(reward)」來告訴冒險者:

  1. 找到寶箱:+10
  2. 撞到牆:-5
  3. 掉進陷阱:-20
  4. 成功抵達出口:+100

這些獎勵就像迷宮在悄悄說:「嘿,這方向不錯」或「別再這樣走了」。

🔁 探索 vs. 利用:走熟路還是冒險?

冒險者有兩種心情:

  1. 探索:試試沒走過的路,也許會找到更快的出口
  2. 利用:走已知最安全、最穩定的路

強化式學習的精髓,就是在這兩者之間找到平衡。

🧠 策略:冒險者的地圖逐漸成形

經過無數次闖關、失敗、重來,冒險者會慢慢畫出一張「心智地圖」—— 這就是 策略(policy):在每個狀態下,該做什麼動作最能累積最多獎勵。

🏆 最後:冒險者變成迷宮大師

當策略成熟後,冒險者不再亂闖,而是能:

一眼看出哪條路最安全

  1. 避開陷阱
  2. 最快找到寶藏
  3. 最終穩定抵達出口

這就是強化式學習的精神: 透過不斷試錯,從環境回饋中學會最好的行動方式。

 


( 知識學習科學百科 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=elvishu&aid=189435256