數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)
定 價(jià):69 元
- 作者:徐雪琪、徐藹婷
- 出版時(shí)間:2024/12/1
- ISBN:9787302696582
- 出 版 社:清華大學(xué)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》以應(yīng)用為導(dǎo)向介紹數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)相關(guān)理論與方法,包括概述、數(shù)據(jù)與數(shù)據(jù)平臺、數(shù)據(jù)預(yù)處理與特征工程、關(guān)聯(lián)分析、決策樹、集成學(xué)習(xí)、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)等相關(guān)理論及經(jīng)典算法,以及相關(guān)實(shí)踐案例。本書所有案例均通過R或Python實(shí)現(xiàn),同時(shí)包含詳細(xì)的分析過程和可視化內(nèi)容。本書可作為統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)等相關(guān)專業(yè)高年級本科生和碩士研究生的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)相關(guān)課程的教材,也可作為其他數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)愛好者的參考用書。
?突出實(shí)際案例應(yīng)用
?結(jié)合常用軟件實(shí)現(xiàn)
?提供豐富教學(xué)資源
?編寫風(fēng)格簡潔明了,結(jié)構(gòu)清晰。
?注重實(shí)踐,涵蓋全流程知識。
?強(qiáng)化育人功能,注重個(gè)性化發(fā)展。
?數(shù)字化資源豐富,便于學(xué)習(xí)。
在數(shù)字化浪潮席卷的今天,數(shù)據(jù)已成為驅(qū)動(dòng)社會(huì)發(fā)展的核心要素。我國在“十四五”規(guī)劃中明確提出加快數(shù)字化發(fā)展,
推動(dòng)人工智能、大數(shù)據(jù)等前沿技術(shù)與實(shí)體經(jīng)濟(jì)深度融合。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)作為這一進(jìn)程的核心技術(shù),其重要性不言而喻
。
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》是浙江省登峰學(xué)科(浙江工商大學(xué)統(tǒng)計(jì)學(xué))、國家一流本科專業(yè)建設(shè)點(diǎn)(經(jīng)濟(jì)統(tǒng)計(jì)學(xué))、浙江省大數(shù)據(jù)
專業(yè)教材研究基地、浙江省普通本科高!笆奈濉敝攸c(diǎn)立項(xiàng)建設(shè)教材的建設(shè)成果之一,具有以下顯著特點(diǎn)。
(1) 編寫風(fēng)格簡潔明了,結(jié)構(gòu)清晰。本教材每章的知識導(dǎo)圖將教材中的重要概念和關(guān)鍵內(nèi)容以圖形化方式顯示,從而更直觀
地呈現(xiàn)知識結(jié)構(gòu)和邏輯。同時(shí),本教材注重闡述關(guān)鍵概念和算法的基本思想,避免過度的公式推導(dǎo),使讀者更容易理解和掌
握。
(2) 注重實(shí)踐,涵蓋全流程知識。實(shí)踐的觀點(diǎn)是馬克思主義哲學(xué)的核心觀點(diǎn),本教材注重實(shí)踐,不僅闡述了數(shù)據(jù)挖掘和機(jī)器
學(xué)習(xí)的經(jīng)典理論與方法,還涵蓋了實(shí)踐全流程所需的知識,包括數(shù)據(jù)類型與存儲環(huán)境、大數(shù)據(jù)平臺(采集、存儲、處理與分
析)、預(yù)處理與特征工程常用的方法等。
(3) 強(qiáng)化育人功能,注重個(gè)性化發(fā)展。本教材在內(nèi)容安排上將價(jià)值性與知識性相統(tǒng)一,每章以與該章知識緊密相聯(lián)的導(dǎo)讀開
篇,引導(dǎo)讀者從國家需求、行業(yè)痛點(diǎn)和社會(huì)價(jià)值等維度思考問題。在個(gè)性化發(fā)展方面,本教材安排了R與Python兩類工具的
實(shí)踐案例,包含詳細(xì)的分析過程和可視化內(nèi)容;每章末尾的“拓展”部分,提出了可進(jìn)一步學(xué)習(xí)的不同方向,便于讀者選擇
性學(xué)習(xí)。
(4) 數(shù)字化資源豐富,便于學(xué)習(xí)。本教材教學(xué)資源豐富,讀者可通過掃描右側(cè)的二維碼獲取教學(xué)課件、案例數(shù)據(jù)、R與
Python軟件代碼、習(xí)題答案等數(shù)字資源,還可通過掃描文中二維碼進(jìn)行在線測試、觀看學(xué)習(xí)視頻。已建設(shè)完成的省級精品在
線開放課程網(wǎng)址,可通過掃描右側(cè)二維碼獲取。
本教材共分為8章。第1章為概述,主要介紹數(shù)據(jù)挖掘的發(fā)展歷程、過程模型、功能、機(jī)器學(xué)習(xí)、應(yīng)用領(lǐng)域等;第2章主要介
紹數(shù)據(jù)與數(shù)據(jù)平臺;第3章介紹數(shù)據(jù)預(yù)處理與特征工程;第4~8章介紹各類數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)方法的基本概念、經(jīng)典算法
及基于R和Python的實(shí)踐案例。
《數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)》主要針對統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)與大數(shù)據(jù)等相關(guān)專業(yè)的高年級本科生和碩士研究生編寫,以幫助學(xué)生領(lǐng)
悟數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的精髓,掌握從數(shù)據(jù)中挖掘知識、從模型中獲取決策依據(jù)的能力,并為其未來在學(xué)術(shù)研究或行業(yè)實(shí)踐
中應(yīng)用打下堅(jiān)實(shí)基礎(chǔ)。本教材也可作為其他數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)愛好者的參考用書。
結(jié)合筆者近二十年的教學(xué)實(shí)踐,以48學(xué)時(shí)為例(一學(xué)期16周,每周3學(xué)時(shí)),本教材的理論教學(xué)內(nèi)容建議安排33學(xué)時(shí),第4~8
章的實(shí)踐內(nèi)容建議安排15學(xué)時(shí)。在編寫過程中,筆者參考了國內(nèi)外相關(guān)領(lǐng)域許多學(xué)者的研究成果,在此深表謝意!
筆者雖已盡心竭力,但限于水平,書中謬誤之處在所難免,敬請讀者批評指正。
編者
2025年7月于杭州
第1章 概述 1
1.1 數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展 2
1.1.1 數(shù)據(jù)挖掘概念的提出 2
1.1.2 數(shù)據(jù)挖掘的發(fā)展歷程 3
1.1.3 當(dāng)前熱點(diǎn)與未來趨勢 6
1.2 數(shù)據(jù)挖掘過程 9
1.2.1 Fayyad過程模型 9
1.2.2 CRISP-DM過程模型 10
1.3 數(shù)據(jù)挖掘功能與使用技術(shù) 20
1.3.1 數(shù)據(jù)挖掘功能 20
1.3.2 數(shù)據(jù)挖掘使用技術(shù) 21
1.4 數(shù)據(jù)挖掘的核心利器:
機(jī)器學(xué)習(xí) 22
1.4.1 機(jī)器學(xué)習(xí)分類 22
1.4.2 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的
關(guān)系 23
1.5 數(shù)據(jù)挖掘應(yīng)用 24
1.5.1 金融領(lǐng)域的數(shù)據(jù)挖掘 24
1.5.2 電信領(lǐng)域的數(shù)據(jù)挖掘 25
1.5.3 零售與電子商務(wù)領(lǐng)域的
數(shù)據(jù)挖掘 25
1.5.4 政府政務(wù)領(lǐng)域的數(shù)據(jù)挖掘 26
1.5.5 醫(yī)療領(lǐng)域的數(shù)據(jù)挖掘 26
1.5.6 科學(xué)領(lǐng)域的數(shù)據(jù)挖掘 26
1.6 練習(xí)與拓展 27
第2章 數(shù)據(jù)與數(shù)據(jù)平臺 28
2.1 數(shù)據(jù)類型 29
2.1.1 數(shù)據(jù)形態(tài)與數(shù)據(jù)類型 29
2.1.2 數(shù)據(jù)環(huán)境與數(shù)據(jù)類型 38
2.2 關(guān)系型數(shù)據(jù)庫 39
2.2.1 關(guān)系型數(shù)據(jù)庫概述 39
2.2.2 關(guān)系型數(shù)據(jù)庫管理系統(tǒng) 40
2.3 傳統(tǒng)數(shù)據(jù)倉庫 41
2.3.1 概念與特點(diǎn) 41
2.3.2 數(shù)據(jù)集市 43
2.3.3 元數(shù)據(jù)與數(shù)據(jù)粒度 44
2.3.4 邏輯模型 44
2.4 NoSQL數(shù)據(jù)庫 47
2.4.1 鍵值數(shù)據(jù)庫 47
2.4.2 文檔數(shù)據(jù)庫 48
2.4.3 列族數(shù)據(jù)庫 50
2.4.4 圖數(shù)據(jù)庫 52
2.5 大數(shù)據(jù)平臺 53
2.5.1 數(shù)據(jù)采集層 54
2.5.2 數(shù)據(jù)存儲層 57
2.5.3 數(shù)據(jù)處理與分析層 59
2.6 練習(xí)與拓展 62
第3章 數(shù)據(jù)預(yù)處理與特征工程 64
3.1 數(shù)據(jù)預(yù)處理與特征工程概述 65
3.1.1 原始數(shù)據(jù)中存在的問題 65
3.1.2 數(shù)據(jù)預(yù)處理與特征工程的
主要任務(wù) 67
3.2 數(shù)據(jù)清洗 68
3.2.1 缺失數(shù)據(jù)處理 68
3.2.2 異常數(shù)據(jù)處理 70
3.3 數(shù)據(jù)集成與平衡 71
3.3.1 數(shù)據(jù)集成 71
3.3.2 數(shù)據(jù)平衡 73
3.4 特征構(gòu)造與變換 74
3.4.1 特征構(gòu)造 74
3.4.2 特征變換 78
3.5 數(shù)據(jù)歸約 80
3.5.1 屬性的歸約 80
3.5.2 記錄的歸約 82
3.5.3 數(shù)值的歸約 83
3.6 練習(xí)與拓展 84
第4章 關(guān)聯(lián)分析 85
4.1 關(guān)聯(lián)分析概述 86
4.1.1 關(guān)聯(lián)分析的基本概念 86
4.1.2 強(qiáng)關(guān)聯(lián)規(guī)則產(chǎn)生的基本
過程 88
4.2 Apriori算法 90
4.2.1 Apriori性質(zhì) 90
4.2.2 Apriori算法過程描述 91
4.2.3 Apriori算法產(chǎn)生頻繁項(xiàng)集
示例 92
4.3 關(guān)聯(lián)規(guī)則的評價(jià):提升度 95
4.3.1 強(qiáng)關(guān)聯(lián)規(guī)則不一定是有趣的
規(guī)則 95
4.3.2 基于提升度評價(jià)強(qiáng)關(guān)聯(lián)
規(guī)則 96
4.3.3 基于提升度的強(qiáng)關(guān)聯(lián)規(guī)則
提取 97
4.4 R實(shí)踐案例:購物籃分析 99
4.4.1 產(chǎn)生稀疏矩陣 100
4.4.2 了解數(shù)據(jù)概況 100
4.4.3 可視化數(shù)據(jù) 101
4.4.4 挖掘關(guān)聯(lián)規(guī)則 105
4.4.5 可視化關(guān)聯(lián)規(guī)則 107
4.5 Python實(shí)踐案例:影片推薦 112
4.5.1 數(shù)據(jù)集初探 112
4.5.2 變量探索 113
4.5.3 影片詞云分析 115
4.5.4 數(shù)據(jù)預(yù)處理 116
4.5.5 關(guān)聯(lián)規(guī)則挖掘 117
4.5.6 為用戶推薦影片 118
4.6 練習(xí)與拓展 119
第5章 決策樹 120
5.1 決策樹概述 121
5.1.1 決策樹分析的基本概念 121
5.1.2 決策樹構(gòu)建的基本過程 123
5.2 ID3算法 124
5.2.1 信息論的基本概念 124
5.2.2 ID3算法基本原理 125
5.2.3 使用ID3算法建立決策樹 126
5.3 C5.0算法 129
5.3.1 C5.0算法決策樹生長 129
5.3.2 C5.0算法決策樹修剪 134
5.4 CART算法 136
5.4.1 CART分類樹生長 136
5.4.2 CART回歸樹生長 141
5.4.3 CART剪枝 143
5.5 R實(shí)踐案例:客戶信用風(fēng)險(xiǎn)預(yù)測 144
5.5.1 數(shù)據(jù)探索 144
5.5.2 數(shù)據(jù)分區(qū) 153
5.5.3 模型訓(xùn)練與評估 153
5.5.4 使用代價(jià)矩陣調(diào)整模型 156
5.6 Python實(shí)踐案例:糖尿病預(yù)測 157
5.6.1 數(shù)據(jù)讀取與類型轉(zhuǎn)換 157
5.6.2 數(shù)據(jù)探索 158
5.6.3 數(shù)據(jù)預(yù)處理 163
5.6.4 模型訓(xùn)練與評估 164
5.7 練習(xí)與拓展 166
第6章 集成學(xué)習(xí) 167
6.1 集成學(xué)習(xí)概述 168
6.1.1 集成學(xué)習(xí)的基本概念 168
6.1.2 集成學(xué)習(xí)的主要類型 169
6.2 隨機(jī)森林 171
6.2.1 隨機(jī)森林的構(gòu)建過程 171
6.2.2 隨機(jī)森林的OOB估計(jì) 172
6.2.3 隨機(jī)森林中的特征重要性 172
6.3 AdaBoost 173
6.3.1 AdaBoost二分類算法 174
6.3.2 AdaBoost二分類問題示例 175
6.3.3 AdaBoost的正則化 178
6.4 Gradient Boosting之GBDT 178
6.4.1 Gradient Boosting基本思想 179
6.4.2 GBDT算法 180
6.4.3 GBDT回歸問題示例 181
6.5 R實(shí)踐案例:藥物預(yù)測 186
6.5.1 數(shù)據(jù)讀取與類型轉(zhuǎn)換 186
6.5.2 探索性分析 187
6.5.3 隨機(jī)森林模型構(gòu)建與評估 191
6.6 Python實(shí)踐案例:銀行客戶類別預(yù)測 195
6.6.1 數(shù)據(jù)讀取與預(yù)處理 196
6.6.2 探索性分析 199
6.6.3 模型構(gòu)建與評估 200
6.7 練習(xí)與拓展 205
第7章 貝葉斯分類 206
7.1 貝葉斯分類概述 207
7.1.1 貝葉斯定理 207
7.1.2 貝葉斯網(wǎng)絡(luò) 207
7.1.3 貝葉斯分類的基本過程 208
7.2 樸素貝葉斯分類 209
7.2.1 樸素貝葉斯分類原理 209
7.2.2 樸素貝葉斯分類示例 212
7.3 零概率問題:拉普拉斯平滑 214
7.3.1 拉普拉斯平滑法 214
7.3.2 拉普拉斯平滑法示例 215
7.4 TAN貝葉斯分類 216
7.4.1 TAN貝葉斯網(wǎng)絡(luò)結(jié)構(gòu) 216
7.4.2 TAN貝葉斯分類過程 216
7.5 R實(shí)踐案例:蘑菇分類 218
7.5.1 數(shù)據(jù)讀取與預(yù)處理 219
7.5.2 探索性分析 220
7.5.3 模型構(gòu)建與評估 223
7.6 Python實(shí)踐案例:垃圾短信預(yù)測 225
7.6.1 數(shù)據(jù)集初探 225
7.6.2 文本預(yù)處理 226
7.6.3 詞云分析 227
7.6.4 建立文檔—詞條矩陣 229
7.6.5 樸素貝葉斯分類模型構(gòu)建與評估 230
7.7 練習(xí)與拓展 233
第8章 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí) 234
8.1 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)概述 235
8.1.1 生物神經(jīng)元與人工神經(jīng)元 235
8.1.2 激活函數(shù) 236
8.1.3 神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu) 239
8.2 BP神經(jīng)網(wǎng)絡(luò) 241
8.2.1 BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程 241
8.2.2 BP算法描述 246
8.2.3 BP算法示例 247
8.2.4 常用的梯度下降法 249
8.3 卷積神經(jīng)網(wǎng)絡(luò) 250
8.3.1 卷積層 251
8.3.2 激活層 254
8.3.3 池化層 254
8.3.4 全連接層 255
8.4 R實(shí)踐案例:白葡萄酒品質(zhì)預(yù)測 256
8.4.1 數(shù)據(jù)探索 257
8.4.2 數(shù)據(jù)轉(zhuǎn)換與分區(qū) 260
8.4.3 模型構(gòu)建與評價(jià) 260
8.5 Python實(shí)踐案例:服飾圖片識別 265
8.5.1 Fashion-MNIST數(shù)據(jù)集加載及概況分析 265
8.5.2 預(yù)處理與可視化 266
8.5.3 CNN模型構(gòu)建與編譯 268
8.5.4 模型訓(xùn)練與評估 269
8.5.5 可視化卷積層特征圖 271
8.6 練習(xí)與拓展 274
參考文獻(xiàn) 276