本書系統(tǒng)梳理了深度強化學習的核心理論、關鍵算法及其在智能控制、機器人技術和多智能體系統(tǒng)中的應用。全書涵蓋強化學習的基本概念、深度強化學習的主要框架,以及多智能體強化學習的協(xié)同決策、任務分解與優(yōu)化控制等前沿問題,并結合大量實驗案例,深入探討強化學習在飛行器控制、移動機器人導航與避障等領域的實踐應用。
更多科學出版社服務,請掃碼獲取。
人工智能,深度學習2012.3任北京科技大學自動化學院院長,特聘教授,博士生導師;
2009.12起任東南大學自動化學院副院長;
2007-2009受聘國家自然科學基金委自動化學科項目主任
2011年獲得國家杰出青年科學基金;
目前主持國家自然科學基金重大研究計劃重點項目1項、教育部博士點基金2項、一院高校創(chuàng)新基金1項
目錄
前言
第1章 緒論 1
1.1 強化學習發(fā)展歷程 1
1.2 深度強化學習基礎算法 2
1.2.1 基于值函數(shù)的深度強化學習 2
1.2.2 基于策略的深度強化學習 5
1.2.3 深度強化學習的應用與挑戰(zhàn) 8
1.3 多智能體強化學習 11
1.3.1 多智能體強化學習難點問題 11
1.3.2 多智能體強化學習常用算法與結構 12
1.3.3 多智能體強化學習應用與挑戰(zhàn) 16
1.4 本章小結 17
參考文獻 18
第2章 強化學習基本概念與理論 25
2.1 智能體–環(huán)境交互模型 25
2.2 策略與值函數(shù) 26
2.3 基于值函數(shù)的強化學習算法 28
2.4 基于策略的強化學習算法 30
2.5 本章小結 33
參考文獻 33
第3章 面向輸入受限系統(tǒng)的深度強化學習 34
3.1 引言 34
3.2 問題描述 36
3.3 解算器–評價器結構與離軌策略學習算法 37
3.3.1 基于平方和的策略評價器 37
3.3.2 動作解算器 38
3.3.3 離軌策略學習算法 39
3.3.4 算法收斂性和策略最優(yōu)性分析 41
3.4 仿真實驗 48
3.4.1 一般線性系統(tǒng)的控制仿真 48
3.4.2 非線性振蕩器的控制仿真 51
3.4.3 平衡車系統(tǒng)的控制仿真 54
3.4.4 二自由度機械臂系統(tǒng)的控制仿真 55
3.5 本章小結 59
參考文獻 59
第4章 狀態(tài)依賴輸入約束的強化學習優(yōu)化控制 62
4.1 引言 62
4.2 問題描述 63
4.3 動作映射機制 65
4.4 基于動作映射的強化學習框架 72
4.4.1 執(zhí)行器–評價器網絡設計 79
4.4.2 異策略學習算法 80
4.5 值函數(shù)的連續(xù)性分析 82
4.6 仿真實驗 84
4.6.1 線性系統(tǒng)的控制仿真 85
4.6.2 輸入受限系統(tǒng)的控制仿真 87
4.6.3 二自由度機械臂系統(tǒng)的控制仿真 90
4.7 本章小結 91
參考文獻 92
第5章 自治切換系統(tǒng)的強化學習優(yōu)化控制 94
5.1 引言 94
5.2 問題描述 95
5.3 算法設計及實現(xiàn) 97
5.3.1 精確 Q 學習算法 97
5.3.2 近似 Q 學習算法 98
5.3.3 算法執(zhí)行過程 99
5.4 算法理論分析 101
5.4.1 近似值函數(shù)迭代算法回顧 101
5.4.2 目標函數(shù)連續(xù)性分析 101
5.4.3 算法收斂性分析 102
5.4.4 切換策略穩(wěn)定性分析 103
5.5 仿真實驗 104
5.5.1 仿真實驗一 105
5.5.2 仿真實驗二 107
5.5.3 仿真實驗三 111
5.6 本章小結 117
參考文獻 117
第6章 受控切換系統(tǒng)的強化學習優(yōu)化控制 119
6.1 引言 119
6.2 問題描述 120
6.3 算法設計 121
6.3.1 混合 Q 學習算法 121
6.3.2 混合歸一化優(yōu)勢函數(shù)算法 122
6.4 算法理論分析 124
6.4.1 HQL 算法特性分析 124
6.4.2 HNAF 算法特性分析 128
6.5 仿真實驗 130
6.5.1 仿真實驗一 130
6.5.2 仿真實驗二 133
6.5.3 仿真實驗三 135
6.6 本章小結 137
參考文獻 137
第7章 基于任務分解的多智能體強化學習協(xié)同控制 138
7.1 引言 138
7.2 問題描述 140
7.3 基于任務分解的學習算法 140
7.3.1 值函數(shù)分解 141
7.3.2 基于任務分解的多智能體 Q 學習算法 142
7.3.3 基于任務分解的多智能體確定性策略梯度算法 146
7.4 仿真實驗 151
7.4.1 仿真實驗一 151
7.4.2 仿真實驗二 154
7.4.3 仿真實驗三 157
7.5 本章小結 160
參考文獻 161
第8章 基于后繼特征的多智能體遷移強化學習 163
8.1 引言 163
8.2 問題描述 164
8.3 基于后繼特征的多智能體強化學習及任務遷移 165
8.3.1 基于后繼特征的多智能體強化學習框架 166
8.3.2 基于后繼特征的目標任務知識遷移方法 170
8.3.3 關于目標任務快速啟動策略的理論分析 173
8.4 仿真實驗 177
8.4.1 仿真實驗環(huán)境介紹 177
8.4.2 獎勵特征函數(shù)的設計 179
8.4.3 實驗結果分析與討論 180
8.5 本章小結 187
參考文獻 188
第9章 基于鄰居動作值函數(shù)的多智能體一致性控制 191
9.1 引言 191
9.2 問題描述 193
9.2.1 多智能體系統(tǒng) 193
9.2.2 最優(yōu)控制 194
9.3 算法設計 196
9.3.1 基于鄰居動作值函數(shù)的多智能體一致性算法 196
9.3.2 算法執(zhí)行過程 198
9.4 收斂性分析 199
9.4.1 帶領導者的多智能體系統(tǒng):折扣因子γ∈ [0,1) 200
9.4.2 帶領導者的多智能體系統(tǒng):折扣因子γ= 1 202
9.4.3 無領導者的多智能體系統(tǒng):折扣因子γ∈ [0,1] 204
9.4.4 穩(wěn)定性分析 204
9.5 仿真實驗 205
9.5.1 帶領導者的多智能體系統(tǒng)控制仿真 206
9.5.2 無領導者的多智能體系統(tǒng)控制仿真 208
9.6 本章小結 210
參考文獻 210
第10章 基于自學習通信多智能體強化學習的合作追捕 213
10.1 引言 213
10.2 合作追捕學習算法 215
10.2.1 環(huán)形拓撲網絡結構下合作追捕學習算法 215
10.2.2 主從式線形拓撲網絡結構下合作追捕學習算法 219
10.3 仿真實驗 223
10.3.1 仿真環(huán)境描述 223
10.3.2 訓練實施方式 225
10.3.3 實驗結果與分析 227
10.4 本章小結 233
參考文獻 233
第11章 強化學習在飛行器控制中的應用 236
11.1 引言 236
11.2 問題描述 238
11.3 積分補償確定性策略梯度控制器 240
11.3.1 確定性策略梯度算法 241
11.3.2 帶積分補償?shù)拇_定性策略梯度算法 243
11.3.3 四旋翼 DPG-IC 控制器設計 244
11.4 基于 DPG-IC 的兩段式訓練算法 247
11.4.1 離線訓練階段 247
11.4.2 在線訓練階段 249
11.5 仿真實驗 249
11.5.1 訓練和測試環(huán)境 250
11.5.2 離線訓練過程與結果 251
11.5.3 離線控制策略實驗和結果 254
11.5.4 在線訓練實驗和結果 260
11.6 本章小結 261
參考文獻 261
第12章 強化學習在移動機器人導航與避障中的應用 264
12.1 引言 264
12.2 問題描述 266
12.3 模塊化深度強化學習導航與避障算法 268
12.3.1 局部避障模塊 269
12.3.2 全局導航模塊 272
12.3.3 動作調度模塊 273
12.4 仿真實驗 275
12.4.1 深度雙流 Q 網絡局部避障訓練與對比實驗 276
12.4.2 導航模塊離線訓練與測試結果 280
12.4.3 模塊化深度強化學習在線訓練與對比測試結果 280
12.5 本章小結 285
參考文獻 285
第13章 強化學習開源測試環(huán)境與算法庫 288
13.1 引言 288
13.2 強化學習開源測試環(huán)境 288
13.2.1 OpenAI Gym 289
13.2.2 Unity ML-Agents Toolkit 289
13.2.3 PyBullet 290
13.2.4 DeepMind Control Suite 290
13.3 玄策強化學習開源算法庫 291
13.3.1 軟件概述 291
13.3.2 軟件主要功能詳解 294
13.3.3 軟件使用說明 302
13.4 本章小結 305
第14章 總結與展望 306