字體:小 中 大 |
|
|
|
| 2026/05/30 09:35:50瀏覽7|回應0|推薦0 | |
想像你正走進一座 奇幻冒險樂園,這裡就是強化式學習的世界。為了讓你更容易「看到」它,我用一個完整的圖像化比喻帶你走一趟。 🧭 動作:選擇下一步往哪走 在每個岔路口,冒險者都要做出一個「動作(action)」: 往左、往右、跳躍、攻擊、躲避…… 每個選擇都會帶來不同結果。 ⭐ 獎勵:迷宮給的提示 迷宮會用「獎勵(reward)」來告訴冒險者:
這些獎勵就像迷宮在悄悄說:「嘿,這方向不錯」或「別再這樣走了」。 🔁 探索 vs. 利用:走熟路還是冒險? 冒險者有兩種心情:
強化式學習的精髓,就是在這兩者之間找到平衡。 🧠 策略:冒險者的地圖逐漸成形 經過無數次闖關、失敗、重來,冒險者會慢慢畫出一張「心智地圖」—— 這就是 策略(policy):在每個狀態下,該做什麼動作最能累積最多獎勵。 🏆 最後:冒險者變成迷宮大師 當策略成熟後,冒險者不再亂闖,而是能: 一眼看出哪條路最安全
這就是強化式學習的精神: 透過不斷試錯,從環境回饋中學會最好的行動方式。
|
|
| ( 知識學習|科學百科 ) |











