前言
第一篇 傳統篇
01 | 強化學習是什麼
1.1 題設
1.2 強化學習的研究物件
1.3 本章小結
02 | 強化學習的脈絡
2.1 什麼是策略
2.2 什麼樣的策略是好的策略
2.3 什麼是模型
2.4 如何獲得一個好的策略
2.5 馬可夫決策過程
2.6 Model-Based 和Model-Free
2.7 本章小結
03 | 動態規劃
3.1 狀態估值
3.2 策略最佳化
3.3 本章小結
04 | 蒙地卡羅法
4.1 歷史由來
4.2 狀態估值
4.3 兩種估值方法
4.4 弊端
4.5 本章小結
05 | 時間差分
5.1 SARSA 演算法
5.2 Q-Learning 演算法
5.3 On-Policy 和Off-Policy
5.4 On-Line 學習和Off-Line 學習
5.5 比較與討論
5.6 本章小結
第二篇 現代篇
06 | 深度學習
6.1 PyTorch 簡介
6.2 神經元
6.3 線性回歸
6.4 激勵函數
6.5 神經網路
6.6 網路訓練
6.7 深度學習的優勢
6.8 手寫數字識別公開資料集
6.9 全連接網路
6.10 卷積神經網路
6.11 循環神經網路
6.12 其他注意事項
6.13 深度神經網路的發展趨勢
6.14 本章小結
07 | Gym--不要錢的試驗場
7.1 簡介
7.2 安裝
7.3 類別
7.4 介面
7.5 本章小結
08 | DQN 演算法族
8.1 2013 版DQN
8.2 2015 版DQN
8.3 Double DQN
8.4 Dueling DQN
8.5 優先重播DQN
8.6 本章小結
09 | PG 演算法族
9.1 策略梯度
9.2 DPG
9.3 Actor-Critic
9.4 DDPG
9.5 本章小結
10 | A3C
10.1 模型結構
10.2 本章小結
11 | UNREAL
11.1 主工作
11.2 像素控制工作
11.3 獎勵值預測
11.4 值函數重播
11.5 損失函數
11.6 本章小結
第三篇 擴充篇
12 | NEAT
12.1 遺傳演算法
12.2 NEAT 原理
12.3 NEAT 範例
12.4 本章小結
13 | SerpentAI
13.1 簡介
13.2 安裝和設定
13.3 範例
13.4 本章小結
14 | 案例詳解
14.1 AlphaGo
14.2 AlphaGo Zero
14.3 試驗場大觀
14.4 本章小結
15 | 擴充討論
15.1 TRPO
15.2 反向強化學習
15.3 模型壓縮
15.4 本章小結
A | 附錄
A.1 安裝Ubuntu
A.2 安裝CUDA 環境
A.3 安裝PyTorch
A.4 下載本書範例程式
A.5 安裝PyCharm
A.6 安裝Jupyter Notebook
A.7 安裝相關Python 相依套件
A.8 安裝OpenCV
A.9 Python 語言簡介
A.10 本書有關的主要開放原始碼軟體版本
B | 參考文獻