本書通過系統(tǒng)化的理論講解與實戰(zhàn)導向的案例分析,幫助讀者掌握擴散模型與強化學習的結(jié)合應用,探索其針對實際問題的解決方案。書中首先介紹了生成模型的發(fā)展史,特別是擴散模型的起源和核心思想,為讀者學習后續(xù)章節(jié)奠定基礎(chǔ);然后深入探討了擴散模型在構(gòu)建決策智能體、結(jié)合價值函數(shù)等方面的應用,還詳細講解了如何利用擴散模型解決軌跡優(yōu)化和策略優(yōu)化等問題;接下來探索了擴散模型在多任務(wù)泛化和世界模型建模方面的擴展應用,展示了其在復雜環(huán)境中的適應性和靈活性;最后討論了利用強化學習優(yōu)化擴散模型的新進展,以及擴散模型在決策問題上的前沿研究方向。
·前沿技術(shù)解析:系統(tǒng)梳理Diffusion-QL、Plan Diffuser、DDPO、Diffusion-DPO等關(guān)鍵算法,緊跟學術(shù)與工業(yè)界進展。
·學用雙向賦能:不僅講解擴散模型在強化學習中的應用,更深入探討強化學習對擴散模型的優(yōu)化,實現(xiàn)技術(shù)閉環(huán)。
·理論實戰(zhàn)融合:提供大量可運行的代碼實例,涵蓋機器人控制、自動駕駛等場景。
·系統(tǒng)知識脈絡(luò):從數(shù)學基礎(chǔ)、模型設(shè)計到應用擴展,構(gòu)建“原理—實現(xiàn)—系統(tǒng)—優(yōu)化”的完整知識體系。
·面向生產(chǎn)科研:適合希望將擴散模型應用于復雜決策場景的工程師閱讀,也能夠滿足研究者對技術(shù)本質(zhì)與前沿方向的深度探索。
陳云
北京大學智能科學與技術(shù)專業(yè)學士、軟件工程碩士,現(xiàn)任阿里巴巴國際數(shù)字商業(yè)集團智能技術(shù)部推薦算法工程師,主要研究方向為生成式人工智能在智能推薦與商業(yè)廣告中的創(chuàng)新應用。曾于上海人工智能實驗室擔任研究員,深度參與開源強化學習平臺DI-engine的研發(fā)與維護,并在生成式策略學習與擴散模型方向持續(xù)輸出技術(shù)博客文章與開源實踐項目,目前多項研究成果發(fā)表于國際頂級會議及期刊。
牛雅哲
上海人工智能實驗室前沿探索中心研究員,開源決策智能組織OpenDILab(GitHub Star
數(shù)超2.7萬,為國內(nèi)影響力廣泛的決策智能開源組織)負責人。曾在NeurIPS、ICLR、AAAI等機器學習頂級會議上發(fā)表多篇論文,在強化學習、分布式系統(tǒng)及大模型訓練基建等領(lǐng)域擁有多年研發(fā)經(jīng)驗,長期致力于探索機器學習算法與系統(tǒng)設(shè)計優(yōu)化相結(jié)合的最佳實踐路徑。
張金歐文
上海人工智能實驗室AI For Science中心算法工程師,研究方向為生成模型、強化學習、科學智能與工業(yè)智能。
第 1 章 起源:擴散模型簡介 1
11 生成模型的發(fā)展史 1
12 擴散模型核心思想介紹 4
121 擴散過程及其逆過程 4
122 擴散模型的訓練 7
123 擴散模型的推斷 8
124 擴散模型的評價指標 9
125 擴散模型的類型 10
13 條件擴散模型 13
131 分類器引導采樣和無分類器引導采樣 13
132 ControlNet 15
14 擴散模型加速采樣方法 17
141 training-free 加速采樣方法 18
142 training-based 加速采樣方法24
參考文獻27
第 2 章 基石:擴散模型與軌跡優(yōu)化問題 29
21 離線強化學習 29
22 第 一個基于擴散模型的決策智能體:Plan Diffuser 31
221 以軌跡片段為對象的擴散模型 31
222 Plan Diffuser 的建模與優(yōu)化 32
223 Plan Diffuser 的特性 39
224 從實驗中解析 Plan Diffuser 40
225 靈活的測試目標 42
226 離線強化學習 43
227 擴散模型熱啟動 44
23 條件生成決策模型的集大成者:Decision Diffuser 45
231 Decision Diffuser 的建模與優(yōu)化 45
232 回報以外的條件變量 47
24 代碼實戰(zhàn) 54
241 導入第三方庫 54
242 準備數(shù)據(jù)集 54
243 配置擴散模型 56
244 實例化擴散模型 57
245 訓練條件擴散模型 57
246 條件采樣 58
參考文獻60
第 3 章 基石:擴散模型與價值函數(shù)的結(jié)合 61
31 強化學習中基于價值函數(shù)的策略優(yōu)化 61
32 Diffusion-QL :高效建模離線數(shù)據(jù)集中的行為策略 62
33 CEP 和 QGPO :借助能量函數(shù)設(shè)計新的引導器 64
331 對比能量預測法 65
332 基于 Q 價值函數(shù)引導的策略優(yōu)化 69
34 LDCQ :擴散模型約束下的 Q-learning 77
341 背景知識 78
342 隱空間擴散強化學習 80
343 以目標為條件的隱空間擴散模型 84
344 實驗與分析 84
345 局限性與展望 88
參考文獻89
第 4 章 基石:擴散模型訓練技巧指南 90
41 如何設(shè)計去噪網(wǎng)絡(luò) 90
411 U-Net 90
412 DiT 92
413 文本編碼器 98
42 如何設(shè)計訓練方案 99
421 連續(xù)時間擴散模型的訓練 99
422 擴散過程的設(shè)計與選擇 100
423 擴散模型建模目標與訓練方式的選擇 102
43 如何選擇擴散模型的類型 104
44 代碼實戰(zhàn) 105
參考文獻 106
第 5 章 擴展:多任務(wù)泛化 108
51 離線元強化學習 108
52 MetaDiffuser 108
521 面向任務(wù)的上下文編碼器 109
522 條件擴散模型架構(gòu) 110
523 雙引導增強規(guī)劃器 111
參考文獻 112
第 6 章 擴展:世界模型建模 113
61 世界模型簡介 113
62 基于 RNN 的世界模型 114
621 論文“World Models” 114
622 DreamerV3 115
63 基于 Transformer 的世界模型 122
631 IRIS 122
632 TWM 124
633 STORM 124
64 基于擴散模型的世界模型 126
641 擴散范式的最佳實踐126
642 實驗結(jié)果 129
參考文獻 132
第 7 章 反轉(zhuǎn):用強化學習來優(yōu)化擴散模型 133
71 引言 133
72 DDPO :將去噪過程建模為序列決策過程 133
721 將擴散模型建模為多步 MDP 135
722 策略梯度估計 136
723 各種獎勵模型下的采樣表現(xiàn) 136
73 Diffusion-DPO :運用于擴散模型的直接偏好優(yōu)化 139
731 從 RLHF 到 DPO 140
732 將 RLHF 用于文本圖像對齊 141
733 將 DPO 用于文本圖像對齊 142
734 將 DPO 用于擴散模型優(yōu)化 143
735 文本圖像對齊實驗 145
736 從強化學習角度推導 Diffusion-DPO 147
74 DRaFT :通過可微分獎勵函數(shù)直接優(yōu)化擴散模型 149
741 DRaFT 149
742 DRaFT-K 150
743 DRaFT-LV 151
744 實驗結(jié)果 151
75 代碼實戰(zhàn) 152
參考文獻 157
第 8 章 擴展:擴散模型在決策問題上的新進展 158
81 基于生成模型的強化學習策略 158
82 決策基模型中的擴散模型 161
821 ViNT 162
822 NoMaD 166
823 SuSIE 170
83 總結(jié)與展望 177
參考文獻 177