強化學習完全入門指南

強化學習完全入門指南

從理論到實作，一次掌握強化學習核心模型與10種主流演算法！

開始上課

課程時長

4 小時 25 分
課程級別

中級
授課語言

中文

這堂課你將會學到

了解強化學習應用領域及未來趨勢：機器人、機器視覺、NLP、連續決策....
學習強化學習重要觀念：估算行動價值、馬可夫決策過程、評價函式、貝爾曼方程....等
強化學習重要演算法：蒙地卡羅方法、時間差分學習法
深度強化學習核心演算法：DQN、A2C、A3C.....等
搞懂各種強化學習演算法的垂直關係與水平比較，並能夠根據目標問題選擇模型

章節目錄

1
第 1 章強化學習(Reinforcement Learning)與應用
- 單元 1 - 何謂強化學習？
- 單元 2 - 強化學習的應用？
2
第 2 章強化學習的決策過程
- 單元 1 - 了解行動價值(Action Values)
- 單元 2 - 行動價值的估算方法
- 單元 3 - Epsilon-Greedy概念解析
- 單元 4 - 以Python實作Epsilon-Greedy概念
3
第 3 章馬可夫決策過程 (Markov decision process)
- 單元 1 - 馬可夫決策過程概念解析
- 單元 2 - MDPs建構概念
- 單元 3 - 動手實作MDPs
4
第 4 章貝爾曼方程與價值函數
- 單元 1 - 價值函數(Value Functions)概念
- 單元 2 - 貝爾曼方程 (Bellman Equations)概念
- 單元 3 - 以Python實作貝爾曼方程
5
第 5 章動態規劃法(Dynamic Programming)
- 單元 1 - 動態規劃兩大觀念：策略評估與策略迭代
- 單元 2 - 策略評估(Policy Evaluation) - 如何判斷策略的好壞
- 單元 3 - 策略迭代(Policy Iteration) - 如何持續改善政策
- 單元 4 - 以Python實作動態規劃方法
- 單元 5 - 動態規劃方法特色與適用問題情形
6
第 6 章蒙地卡羅方法(Monte Carlo Methods)
- 單元 1 - 蒙地卡羅方法概念
- 單元 2 - 蒙地卡羅方法應用
- 單元 3 - 以Python實作蒙地卡羅方法模擬
- 單元 4 - 蒙地卡羅方法特色與適用問題情形
7
第 7 章時間差分學習法(Temporal-Difference Learning)
- 單元 1 - 時間差分學習法概念
- 單元 2 - 時間差分學習法應用
- 單元 3 - 以Python實作時間差分學習法
- 單元 4 - 時間差分學習法特色與適用問題情形
8
第 8 章強化學習實作：以Python實作Gym套件
- 單元 1 - 以Value Iteration方法實作平衡桿(Cartpole)
- 單元 2 - 以Value Iteration方法實作過山車(Mountain Car)
9
第 9 章 DQN前置：策略梯度(Policy Gradient)介紹
- 單元 1 - 策略梯度(Policy Gradient)概念介紹
- 單元 2 - 策略網路(Policy Network)概念介紹
- 單元 3 - 策略網路(Policy Network)與策略梯度(Policy Gradient)的關係
- 單元 4 - 以Python實作Policy Gradient概念
- 單元 5 - 策略梯度方法特色與適用問題情形
10
第 10 章 Deep Q-Learning概念 (DQN、DDQN、Dueling DQN、DRQN)
- 單元 1 - Deep Q Network概念
- 單元 2 - Double Deep Q Network概念
- 單元 3 - Dueling Deep Q Network概念
- 單元 4 - Deep Recurrent Q-Network概念
11
第 11 章 TensorFlow2.0基本教學Untitled chapter
- 單元 1 - Tensorflow2.0教學＿Colab基本操作
- 單元 2 - Tensorflow2.0教學＿簡易Neural_Network實作
- 單元 3 - Tensorflow2.0教學＿Keras實作
12
第 12 章強化學習實作：以TensorFlow2.0實作深度強化學習
- 單元 1 - Deep Neural Network於TensorFlow實作
- 單元 2 - Deep Q-Learning於TensorFlow實作
- 單元 3 - 以DQN方法實作過山車(Mountain Car)
- 單元 4 - 以DQN方法實作平衡桿(Cartpole)
- 單元 5 - 以DQN方法實作貪食蛇
13
第 13 章 Advantage Actor Critic 方法 (A2C)
- 單元 1 - Advantage Actor Critic (A2C)概念解析
- 單元 2 - A2C於TensorFlow2.0實作
- 單元 3 - A2C演算法特色與適用問題情形
14
第 14 章 Asynchronous Advantage Actor Critic (A3C)
- 單元 1 - Asynchronous Advantage Actor Critic (A3C)概念解析
- 單元 2 - A3C於TensorFlow2.0實作
- 單元 3 - A3C演算法特色與適用問題情形
15
第 15 章強化學習課後總結
- 單元 1 - 各種演算法比較與整理
- 單元 2 - 強化學習未來趨勢與系列課程重點