本書系統(tǒng)闡述了視覺語言模型的理論體系與技術(shù)實踐。全書共15章,分為三大部分:基礎(chǔ)綜述(第1章)、關(guān)鍵技術(shù)(第2~14章)與未來展望(第15章)。
第一部分詳解視覺語言模型的網(wǎng)絡(luò)架構(gòu)、預(yù)訓(xùn)練目標(biāo)、評估方法及數(shù)據(jù)集體系,對比分析對抗訓(xùn)練、生成式預(yù)訓(xùn)練等范式,并建立性能評估基準(zhǔn)。第二部分:第2章通過多個案例展示技術(shù)多樣性;第3~5章深入探討少樣本學(xué)習(xí)、魯棒微調(diào)等關(guān)鍵問題,提出約束線性探測等原創(chuàng)方法;第6~10章聚焦模型擴展性,涵蓋InternVL億級參數(shù)訓(xùn)練、VinVL視覺表征重構(gòu)等前沿實踐;第11~14章探索提示工程、異常檢測等應(yīng)用場景,包含MATCHER一次性分割等突破性方案。第三部分展望多模態(tài)生成、組合推理等未來方向。
本書系統(tǒng)性與前沿性并重,理論與實踐結(jié)合,非常適合AI算法工程師、大模型及多模態(tài)人工智能研究者學(xué)習(xí),也可用作高等院校相關(guān)專業(yè)的教材及參考書。
第1章 視覺任務(wù)的視覺語言模型綜述 001~035
1.1 視覺語言模型摘要 001
1.2 視覺語言模型問題提出 001
1.3 視覺語言模型背景 003
1.3.1 視覺識別的訓(xùn)練范式 003
1.3.2 用于視覺識別的VLM 的開發(fā) 004
1.3.3 相關(guān)調(diào)查 006
1.4 VLM 基礎(chǔ) 006
1.4.1 網(wǎng)絡(luò)架構(gòu) 006
1.4.2 VLM 預(yù)訓(xùn)練目標(biāo) 007
1.4.3 VLM 預(yù)訓(xùn)練框架 009
1.4.4 評估設(shè)置和下游任務(wù) 010
1.5 數(shù)據(jù)集 011
1.5.1 預(yù)訓(xùn)練VLM 的數(shù)據(jù)集 012
1.5.2 VLM 評估數(shù)據(jù)集 013
1.6 視覺語言模型預(yù)訓(xùn)練 013
1.6.1 具有對抗目標(biāo)的VLM 預(yù)訓(xùn)練 015
1.6.2 具有生成目標(biāo)的VLM 預(yù)訓(xùn)練 017
1.6.3 帶有對齊目標(biāo)的VLM 預(yù)訓(xùn)練 019
1.7 VLM 遷移學(xué)習(xí) 020
1.7.1 遷移學(xué)習(xí)的動機 020
1.7.2 遷移學(xué)習(xí)的常見設(shè)置 020
1.7.3 常見的遷移學(xué)習(xí)方法 020
1.8 視覺大模型語言知識提煉 024
1.8.1 從VLM 中提取知識的動機 025
1.8.2 常識提煉方法 025
1.9 性能比較 027
1.9.1 VLM 預(yù)訓(xùn)練的表現(xiàn) 027
1.9.2 VLM 遷移學(xué)習(xí)的性能 030
1.9.3 VLM 知識提取的性能 032
1.10 未來發(fā)展方向 033
1.11 小結(jié) 035
第2章 視覺語言模型各種示例 036~065
2.1 通過模仿和自我監(jiān)督學(xué)習(xí)創(chuàng)建多模態(tài)交互代理 036
2.2 DEPT:用于參數(shù)高效微調(diào)的分解式快速調(diào)諧 037
2.3 基于聚類掩蔽的高效視覺語言預(yù)訓(xùn)練 039
2.4 來自并行文本世界的LLM 訓(xùn)練的體現(xiàn)多模態(tài)智能體 041
2.5 在豐富的監(jiān)督下加強視覺語言預(yù)訓(xùn)練 043
2.6 FairCLIP:在視覺和語言學(xué)習(xí)中強調(diào)公平 043
2.7 用于開放式目標(biāo)檢測的生成區(qū)域語言預(yù)訓(xùn)練 044
2.8 FROSTER:凍結(jié)的CLIP 是開放詞匯動作識別的有力教師 048
2.9 Ins-DetCLIP:對齊檢測模型以遵循人類語言指令 049
2.10 MMICL:通過多模態(tài)語境學(xué)習(xí)增強視覺語言模型的能力 052
2.11 學(xué)習(xí)提示分割任何模型 055
2.12 NEMESIS:視覺語言模型軟性向量的歸一化 057
2.13 非自回歸序列到序列視覺語言模型 057
2.14 一個提示詞足以提高預(yù)訓(xùn)練視覺語言模型的對抗魯棒性 059
2.15 連續(xù)學(xué)習(xí)的快速梯度投影 060
2.16 檢索增強對比視覺文本模型 062
2.17 TCP:基于文本的類感知可視化語言模型的提示調(diào)優(yōu) 064
2.18 聯(lián)合學(xué)習(xí)中視覺語言模型的文本驅(qū)動提示生成 065
第3章 大視覺語言模型的少數(shù)樣本任務(wù)適配 066~079
3.1 少數(shù)樣本任務(wù)適配概述 066
3.2 少數(shù)樣本任務(wù)適配相關(guān)知識 066
3.2.1 少數(shù)樣本任務(wù)適配歷史淵源 066
3.2.2 相關(guān)工作概述 069
3.3 少數(shù)樣本任務(wù)適配準(zhǔn)備工作 069
3.3.1 對比視覺語言預(yù)訓(xùn)練大規(guī)模VLM 069
3.3.2 可遷移性 070
3.3.3 使用適配器進(jìn)行高效遷移學(xué)習(xí) 070
3.3.4 現(xiàn)有少樣本任務(wù)ETL 方法的陷阱 071
3.4 少樣本任務(wù)擬議辦法 071
3.4.1 重新審視線性探測 071
3.4.2 約束線性探測 072
3.4.3 線性探測的類自適應(yīng)約束 073
3.5 少樣本任務(wù)實驗 075
3.5.1 安裝程序 075
3.5.2 少樣本任務(wù)測試結(jié)果 076
3.5.3 少樣本任務(wù)消融實驗 078
3.6 少樣本任務(wù)限制 079
第4章 基于錨點的視覺語言模型魯棒微調(diào) 080~091
4.1 錨點視覺語言模型魯棒微調(diào)概要 080
4.2 錨點視覺語言模型魯棒微調(diào)相關(guān)技術(shù) 080
4.2.1 錨點視覺語言模型魯棒微調(diào)問題提出 080
4.2.2 錨點視覺語言模型魯棒微調(diào)相關(guān)工作 082
4.3 錨點視覺語言模型魯棒微調(diào)準(zhǔn)備工作 083
4.3.1 符號摘要 083
4.3.2 對比視覺語言模型 083
4.4 錨點視覺語言模型魯棒微調(diào)方法 084
4.4.1 問題設(shè)置 084
4.4.2 基于錨點的穩(wěn)健微調(diào)概述 085
4.5 錨點視覺語言模型魯棒微調(diào)實驗 087
4.5.1 域轉(zhuǎn)換下的評估 087
4.5.2 零樣本學(xué)習(xí)下的評價 089
4.5.3 消融研究 090
4.5.4 錨的定性示例 091
4.6 小結(jié) 091
第5章 視覺語言模型的一致性引導(dǎo)快速學(xué)習(xí) 092~104
5.1 一致性引導(dǎo)快速學(xué)習(xí)摘要 092
5.2 一致性引導(dǎo)快速學(xué)習(xí)問題提出及相關(guān)工作 092
5.2.1 一致性引導(dǎo)快速學(xué)習(xí)問題提出 092
5.2.2 一致性引導(dǎo)快速學(xué)習(xí)相關(guān)工作 094
5.3 一致性引導(dǎo)快速學(xué)習(xí)方法 095
5.3.1 準(zhǔn)備工作 095
5.3.2 協(xié)同學(xué)習(xí):以一致性為導(dǎo)向的快速學(xué)習(xí) 096
5.4 一致性引導(dǎo)快速學(xué)習(xí)4 個實驗 098
5.4.1 實驗設(shè)置 098
5.4.2 新概括的基礎(chǔ) 098
5.4.3 跨數(shù)據(jù)集評估 099
5.4.4 域泛化 100
5.4.5 消融研究 100
5.4.6 參數(shù)和計算復(fù)雜度 103
5.5 小結(jié) 104
第6章 InternVL:擴展視覺基礎(chǔ)模型并對齊通用視覺語言任務(wù) 105~133
6.1 InternVL 擴展視覺基礎(chǔ)模型并對齊摘要 105
6.2 擴展視覺基礎(chǔ)模型并對齊問題提出及相關(guān)工作 105
6.2.1 擴展視覺基礎(chǔ)模型并對齊問題提出 105
6.2.2 擴展視覺基礎(chǔ)模型并對齊相關(guān)工作 107
6.3 擴展視覺基礎(chǔ)模型并對齊擬議方法 108
6.3.1 總體架構(gòu) 108
6.3.2 模型設(shè)計 109
6.3.3 對齊策略 111
6.4 擴展視覺基礎(chǔ)模型并對齊實驗 113
6.4.1 實施細(xì)節(jié) 113
6.4.2 視覺感知基準(zhǔn) 113
6.4.3 視覺語言基準(zhǔn) 114
6.4.4 多模式對話基準(zhǔn) 118
6.4.5 消融研究 118
6.5 擴展視覺基礎(chǔ)模型并對齊結(jié)論 119
6.6 擴展視覺基礎(chǔ)模型并對齊補充材料 120
6.6.1 更多實驗 120
6.6.2 更多消融研究 123
6.6.3 詳細(xì)訓(xùn)練設(shè)置 124
6.6.4 預(yù)訓(xùn)練數(shù)據(jù)準(zhǔn)備 127
6.6.5 SFT 的數(shù)據(jù)準(zhǔn)備 131
第7章 提高大型視覺語言模型組合性的迭代學(xué)習(xí) 134~146
7.1 迭代學(xué)習(xí)摘要 134
7.2 迭代學(xué)習(xí)問題提出及相關(guān)工作 134
7.2.1 迭代學(xué)習(xí)問題提出 134
7.2.2 迭代學(xué)習(xí)相關(guān)工作 136
7.3 迭代學(xué)習(xí)方法 137
7.3.1 將視覺語言對抗學(xué)習(xí)重構(gòu)為劉易斯信號博弈 137
7.3.2 用于規(guī)范表示的共享碼本 137
7.3.3 訓(xùn)練中的迭代學(xué)習(xí) 138
7.4 迭代學(xué)習(xí)實驗 140
7.4.1 實驗設(shè)置 140
7.4.2 迭代學(xué)習(xí)提高了組合性 140
7.4.3 迭代學(xué)習(xí)不會損害識別 141
7.4.4 迭代學(xué)習(xí)分析 142
7.4.5 消融研究 145
7.5 小結(jié) 146
第8章 MATCHER:使用通用特征匹配一次性分割任何內(nèi)容 147~158
8.1 特征匹配一次性分割摘要 147
8.2 特征匹配一次性分割問題提出及相關(guān)工作 147
8.2.1 特征匹配一次性分割問題提出 147
8.2.2 特征匹配一次性分割相關(guān)工作 149
8.3 特征匹配一次性分割方法 150
8.3.1 對應(yīng)矩陣提取 150
8.3.2 提示生成 151
8.3.3 可控掩模生成 152
8.4 特征匹配一次性分割實驗 153
8.4.1 實驗設(shè)置 153
8.4.2 少樣本點語義分割 153
8.4.3 單樣本任務(wù)物體部分分割 154
8.4.4 視頻對象分割 155
8.4.5 消融研究 156
8.4.6 定性結(jié)果 157
8.5 小結(jié) 158
第9章 視覺啟發(fā)語言模型 159~172
9.1 視覺啟發(fā)摘要 159
9.2 視覺啟發(fā)問題提出及相關(guān)工作 159
9.2.1 視覺啟發(fā)問題提出 159
9.2.2 視覺啟發(fā)相關(guān)工作 161
9.3 視覺啟發(fā)方法 162
9.3.1 準(zhǔn)備工作 162
9.3.2 特征金字塔視覺提取器 163
9.3.3 深度視覺條件提示 165
9.4 視覺啟發(fā)實驗結(jié)果 166
9.4.1 實驗細(xì)節(jié) 166
9.4.2 方法的數(shù)據(jù)效率 167
9.4.3 科學(xué)QA 168
9.4.4 圖像字幕 169
9.4.5 視覺問答實驗與問答任務(wù) 170
9.4.6 消融研究 170
9.5 小結(jié) 172
第10章 VinVL:重新審視視覺語言模型中的視覺表示 173~185
10.1 審視視覺表示摘要 173
10.2 審視視覺表示問題提出與相關(guān)工作 173
10.2.1 審視視覺表示問題提出 173
10.2.2 提高視覺語言的視覺能力 175
10.2.3 VL 任務(wù)的高效區(qū)域特征提取器 177
10.3 OSCAR+ 預(yù)訓(xùn)練 177
10.3.1 預(yù)訓(xùn)練語料庫 178
10.3.2 預(yù)訓(xùn)練目標(biāo) 178
10.3.3 預(yù)訓(xùn)練模型 179
10.3.4 適應(yīng)VL 任務(wù) 179
10.4 審視視覺表示實驗與分析 179
10.4.1 主要成果 179
10.4.2 消融分析 182
10.5 小結(jié) 185
第11章 視覺語境提示 186~200
11.1 視覺語境提示摘要 186
11.2 視覺語境提示問題提出與相關(guān)工作 187
11.3 視覺語境提示方法 190
11.3.1 分段任務(wù)的統(tǒng)一公式 190
11.3.2 視覺提示公式 191
11.3.3 快速采樣 192
11.3.4 解碼器查詢公式 193
11.4 視覺語境提示實驗 194
11.4.1 安裝程序 194
11.4.2 通用分割和檢測 194
11.4.3 視頻對象分割 196
11.4.4 消融方法 197
11.5 視覺語境提示相關(guān)工程 199
11.5.1 通過文本提示進(jìn)行視覺感知 199
11.5.2 通過圖像示例進(jìn)行視覺感知 199
11.5.3 通過視覺提示進(jìn)行視覺感知 200
11.6 小結(jié) 200
第12章 ViTamin:在視覺語言時代設(shè)計可擴展的視覺模型 201~214
12.1 設(shè)計可擴展摘要 201
12.2 設(shè)計可擴展導(dǎo)言 201
12.3 設(shè)計可擴展相關(guān)工作 204
12.4 設(shè)計可擴展方法 204
12.4.1 CLIP 和訓(xùn)練協(xié)議 204
12.4.2 CLIP 環(huán)境中視覺模型的基準(zhǔn)測試 205
12.4.3 ViTamin 的設(shè)計 207
12.5 設(shè)計可擴展實驗 209
12.5.1 實施細(xì)節(jié) 209
12.5.2 主要成果 210
12.5.3 新的下游任務(wù)套件 213
12.6 小結(jié) 214
第13章 AnomalyCLIP:用于零樣本異常檢測的對象診斷快速學(xué)習(xí) 215~228
13.1 零樣本異常檢測診斷摘要 215
13.2 零樣本異常檢測診斷簡介 215
13.3 零樣本異常檢測診斷的計算 217
13.4 AnomalyCLIP:對象- 語義提示學(xué)習(xí) 218
13.4.1 方法概述 218
13.4.2 對象- 語義文本提示設(shè)計 219
13.4.3 學(xué)習(xí)一般異常和正常提示 220
13.5 零樣本異常檢測診斷實驗 222
13.5.1 實驗設(shè)置 222
13.5.2 主要結(jié)果 222
13.5.3 消融研究 226
13.6 零樣本異常檢測診斷相關(guān)工作 228
13.7 小結(jié) 228
第14章 任何促使分布泛化的轉(zhuǎn)變 229~241
14.1 分布泛化摘要 229
14.2 分布泛化導(dǎo)言 229
14.3 分布泛化基礎(chǔ)知識 230
14.4 分布泛化任何移位提示 232
14.4.1 快速建模 232
14.4.2 訓(xùn)練和推理 233
14.5 分布泛化相關(guān)工作 235
14.6 分布泛化實驗 236
14.6.1 各種分配變動的結(jié)果 237
14.6.2 消融研究 240
14.7 小結(jié) 241
第15章 探索視覺語言模型的前沿:當(dāng)前方法和未來方向綜述 242~264
15.1 視覺語言模型前沿摘要 242
15.2 視覺語言模型前沿導(dǎo)言 242
15.3 視覺語言模型類型 243
15.3.1 視覺語言理解 245
15.3.2 使用多模式輸入生成文本 246
15.3.3 多模態(tài)輸出與多模態(tài)輸入 262
15.4 視覺語言模型未來發(fā)展方向 263
15.5 小結(jié) 264
參考文獻(xiàn) 265~267