• 課程時長

    4 小時 25 分

  • 課程級別

    中級

  • 授課語言

    中文

這堂課你將會學到

  • 了解強化學習應用領域及未來趨勢:機器人、機器視覺、NLP、連續決策....
  • 學習強化學習重要觀念:估算行動價值、馬可夫決策過程、評價函式、貝爾曼方程....等
  • 強化學習重要演算法:蒙地卡羅方法、時間差分學習法
  • 深度強化學習核心演算法:DQN、A2C、A3C.....等
  • 搞懂各種強化學習演算法的垂直關係與水平比較,並能夠根據目標問題選擇模型

章節目錄

  • 1

    第 1 章 強化學習(Reinforcement Learning)與應用

    • 單元 1 - 何謂強化學習?

    • 單元 2 - 強化學習的應用?

  • 2

    第 2 章 強化學習的決策過程

    • 單元 1 - 了解行動價值(Action Values)

    • 單元 2 - 行動價值的估算方法

    • 單元 3 - Epsilon-Greedy概念解析

    • 單元 4 - 以Python實作Epsilon-Greedy概念

  • 3

    第 3 章 馬可夫決策過程 (Markov decision process)

    • 單元 1 - 馬可夫決策過程 概念解析

    • 單元 2 - MDPs建構概念

    • 單元 3 - 動手實作MDPs

  • 4

    第 4 章 貝爾曼方程與價值函數

    • 單元 1 - 價值函數(Value Functions)概念

    • 單元 2 - 貝爾曼方程 (Bellman Equations)概念

    • 單元 3 - 以Python實作貝爾曼方程

  • 5

    第 5 章 動態規劃法(Dynamic Programming)

    • 單元 1 - 動態規劃兩大觀念:策略評估 與 策略迭代

    • 單元 2 - 策略評估(Policy Evaluation) - 如何判斷策略的好壞

    • 單元 3 - 策略迭代(Policy Iteration) - 如何持續改善政策

    • 單元 4 - 以Python實作動態規劃方法

    • 單元 5 - 動態規劃方法特色與適用問題情形

  • 6

    第 6 章 蒙地卡羅方法(Monte Carlo Methods)

    • 單元 1 - 蒙地卡羅方法概念

    • 單元 2 - 蒙地卡羅方法應用

    • 單元 3 - 以Python實作蒙地卡羅方法模擬

    • 單元 4 - 蒙地卡羅方法特色與適用問題情形

  • 7

    第 7 章 時間差分學習法(Temporal-Difference Learning)

    • 單元 1 - 時間差分學習法概念

    • 單元 2 - 時間差分學習法應用

    • 單元 3 - 以Python實作時間差分學習法

    • 單元 4 - 時間差分學習法特色與適用問題情形

  • 8

    第 8 章 強化學習實作:以Python實作Gym套件

    • 單元 1 - 以Value Iteration方法實作平衡桿(Cartpole)

    • 單元 2 - 以Value Iteration方法實作過山車(Mountain Car)

  • 9

    第 9 章 DQN前置:策略梯度(Policy Gradient)介紹

    • 單元 1 - 策略梯度(Policy Gradient)概念介紹

    • 單元 2 - 策略網路(Policy Network)概念介紹

    • 單元 3 - 策略網路(Policy Network)與策略梯度(Policy Gradient)的關係

    • 單元 4 - 以Python實作Policy Gradient概念

    • 單元 5 - 策略梯度方法特色與適用問題情形

  • 10

    第 10 章 Deep Q-Learning概念 (DQN、DDQN、Dueling DQN、DRQN)

    • 單元 1 - Deep Q Network概念

    • 單元 2 - Double Deep Q Network概念

    • 單元 3 - Dueling Deep Q Network概念

    • 單元 4 - Deep Recurrent Q-Network概念

  • 11

    第 11 章 TensorFlow2.0基本教學Untitled chapter

    • 單元 1 - Tensorflow2.0教學_Colab基本操作

    • 單元 2 - Tensorflow2.0教學_簡易Neural_Network實作

    • 單元 3 - Tensorflow2.0教學_Keras實作

  • 12

    第 12 章 強化學習實作:以TensorFlow2.0實作深度強化學習

    • 單元 1 - Deep Neural Network於TensorFlow實作

    • 單元 2 - Deep Q-Learning於TensorFlow實作

    • 單元 3 - 以DQN方法實作過山車(Mountain Car)

    • 單元 4 - 以DQN方法實作平衡桿(Cartpole)

    • 單元 5 - 以DQN方法實作貪食蛇

  • 13

    第 13 章 Advantage Actor Critic 方法 (A2C)

    • 單元 1 - Advantage Actor Critic (A2C)概念解析

    • 單元 2 - A2C於TensorFlow2.0實作

    • 單元 3 - A2C演算法特色與適用問題情形

  • 14

    第 14 章 Asynchronous Advantage Actor Critic (A3C)

    • 單元 1 - Asynchronous Advantage Actor Critic (A3C)概念解析

    • 單元 2 - A3C於TensorFlow2.0實作

    • 單元 3 - A3C演算法特色與適用問題情形

  • 15

    第 15 章 強化學習課後總結

    • 單元 1 - 各種演算法比較與整理

    • 單元 2 - 強化學習未來趨勢與系列課程重點