強化學習完全入門指南
從理論到實作,一次掌握強化學習核心模型與10種主流演算法!
單元 1 - 何謂強化學習?
單元 2 - 強化學習的應用?
單元 1 - 了解行動價值(Action Values)
單元 2 - 行動價值的估算方法
單元 3 - Epsilon-Greedy概念解析
單元 4 - 以Python實作Epsilon-Greedy概念
單元 1 - 馬可夫決策過程 概念解析
單元 2 - MDPs建構概念
單元 3 - 動手實作MDPs
單元 1 - 價值函數(Value Functions)概念
單元 2 - 貝爾曼方程 (Bellman Equations)概念
單元 3 - 以Python實作貝爾曼方程
單元 1 - 動態規劃兩大觀念:策略評估 與 策略迭代
單元 2 - 策略評估(Policy Evaluation) - 如何判斷策略的好壞
單元 3 - 策略迭代(Policy Iteration) - 如何持續改善政策
單元 4 - 以Python實作動態規劃方法
單元 5 - 動態規劃方法特色與適用問題情形
單元 1 - 蒙地卡羅方法概念
單元 2 - 蒙地卡羅方法應用
單元 3 - 以Python實作蒙地卡羅方法模擬
單元 4 - 蒙地卡羅方法特色與適用問題情形
單元 1 - 時間差分學習法概念
單元 2 - 時間差分學習法應用
單元 3 - 以Python實作時間差分學習法
單元 4 - 時間差分學習法特色與適用問題情形
單元 1 - 以Value Iteration方法實作平衡桿(Cartpole)
單元 2 - 以Value Iteration方法實作過山車(Mountain Car)
單元 1 - 策略梯度(Policy Gradient)概念介紹
單元 2 - 策略網路(Policy Network)概念介紹
單元 3 - 策略網路(Policy Network)與策略梯度(Policy Gradient)的關係
單元 4 - 以Python實作Policy Gradient概念
單元 5 - 策略梯度方法特色與適用問題情形
單元 1 - Deep Q Network概念
單元 2 - Double Deep Q Network概念
單元 3 - Dueling Deep Q Network概念
單元 4 - Deep Recurrent Q-Network概念
單元 1 - Tensorflow2.0教學_Colab基本操作
單元 2 - Tensorflow2.0教學_簡易Neural_Network實作
單元 3 - Tensorflow2.0教學_Keras實作
單元 1 - Deep Neural Network於TensorFlow實作
單元 2 - Deep Q-Learning於TensorFlow實作
單元 3 - 以DQN方法實作過山車(Mountain Car)
單元 4 - 以DQN方法實作平衡桿(Cartpole)
單元 5 - 以DQN方法實作貪食蛇
單元 1 - Advantage Actor Critic (A2C)概念解析
單元 2 - A2C於TensorFlow2.0實作
單元 3 - A2C演算法特色與適用問題情形
單元 1 - Asynchronous Advantage Actor Critic (A3C)概念解析
單元 2 - A3C於TensorFlow2.0實作
單元 3 - A3C演算法特色與適用問題情形
單元 1 - 各種演算法比較與整理
單元 2 - 強化學習未來趨勢與系列課程重點