大話數據科學——大數據與機器學習實戰(zhàn)(基于R語言)
定 價:128 元
當前圖書已被 40 所學校薦購過!
查看明細
- 作者:陳文賢
- 出版時間:2020/7/1
- ISBN:9787302551300
- 出 版 社:清華大學出版社
- 中圖法分類:TP274
- 頁碼:396
- 紙張:膠版紙
- 版次:1
- 開本:16K
本書以獨特的方式講解數據科學,不僅讓讀者可以輕松學習數據科學理論,又可以動手(手算和機算)進行數據科學實戰(zhàn)。本書特色:全彩印刷,圖形、表格、思維導圖豐富;避免深奧的數學證明,采用簡單的數學說明;用各種學習圖將本書內容貫穿起來;實戰(zhàn)計算,包含小型數據的演算和大型數據的實戰(zhàn)程序。
本書共13章,內容涵蓋豐富的數據科學模型,包含關聯(lián)分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等算法。利用小數據例題介紹計算步驟,同時用R語言驗證計算結果。另外,也有大數據的案例數據,例如:推薦系統(tǒng)、支持向量機、集成學習等。另外,本書只有大數據的案例數據用R語言計算。
本書適合各個專業(yè)領域(包含金融、電商、保險、互聯(lián)網等行業(yè))想掌握數據科學的讀者,也可以作為高校、社會培訓機構教材。由于內容比較多,教師可自行選擇教學內容。
"數據科學作為一門新興的學科,正在高速發(fā)展并落地應用。當前的各行各業(yè)都充滿了數據,這些數據的類型多種多樣,不僅包括傳統(tǒng)的結構化數據,也包括網頁、文本、圖像、視頻、語音等非結構化數據。 數據科學涵蓋的體系甚廣,對某一領域進行數據科學研究,首先要研究該領域(比如生物信息學、天體信息學、數字地球等)的特性,然后通過包括統(tǒng)計學、機器學習、數據挖掘、數據庫等技術從中分析出需要的結果。這些學科都是數據科學的重要組成部分,只有把它們有機地整合在一起,才能形成整個數據科學的全貌。 陳文賢老師作為數據科學的早等
篇基礎篇
章大數據概述3
1.1大數據與相關學科的定義4
1.1.1大數據的定義4
1.1.2數據挖掘6
1.1.3數據挖掘標準過程7
1.1.4機器學習9
1.1.5知識管理12
1.1.6數據科學14
1.1.7商業(yè)智能15
1.1.8人工智能17
1.1.9統(tǒng)計學與大數據比較19
1.1.10數據名詞的定義21
1.2系統(tǒng)與模型概念22
1.2.1系統(tǒng)定義與成分22
1.2.2輸入,處理,輸出與黑箱23
1.2.3環(huán)境24
1.2.4反饋25
1.2.5效率與效果25
1.2.6模型與建模26
1.2.7模型的假定與參數27
1.2.8敏感,穩(wěn)健或魯棒28
1.2.9模型的過擬合28
1.3大數據分析模型的分類30
1.3.1后設模型30
1.3.2關系與因果31
1.3.3基于因果關系的統(tǒng)計學分類32
1.3.4基于因果關系的大數據分類32
1.3.5基于數據類型的分類34
1.3.6基于測量的分類35
1.3.7數據科學模型的其他分類36
1.4大數據的江湖傳奇36
1.5R語言“詞云圖”代碼40
1.6本章思維導圖42
第2章大數據與R語言43
2.1大數據進位44
2.2R語言介紹45
2.2.1安裝R語言軟件45
2.2.2下載R語言程序包45
2.3R數據對象的屬性與結構46
2.3.1數值47
2.3.2整數47
2.3.3字符串47
2.3.4邏輯47
2.3.5向量48
2.3.6因子49
2.3.7矩陣50
2.3.8數據框52
2.3.9數組52
2.3.10列表53
2.3.11時間序列54
2.3.12訪問數據類型和結構54
2.3.13遺失值55
2.3.14讀入ExcelCSV數據55
2.3.15編輯數據55
2.3.16保存ExcelCSV數據55
2.3.17數據輸入窗口56
2.3.18R的數據結構和函數表56
2.4R的函數包56
2.5R的數據繪圖59
2.6本章思維導圖
第二篇非監(jiān)督式學習
第3章關聯(lián)分析67
3.1關聯(lián)分析介紹68
3.1.1事務與項目的定義68
3.1.2項集的關聯(lián)規(guī)則69
3.2關聯(lián)規(guī)則數據格式71
3.3關聯(lián)規(guī)則的算法72
3.3.1Apriori算法73
3.3.2關聯(lián)規(guī)則其他測度值74
3.3.3負關聯(lián)規(guī)則75
3.4關聯(lián)規(guī)則的優(yōu)點和缺點76
3.4.1Apriori算法的優(yōu)點76
3.4.2Apriori算法的缺點76
3.4.3關聯(lián)規(guī)則的評估76
3.5關聯(lián)規(guī)則的實例計算77
3.5.1尿布與啤酒77
3.5.2豆?jié){、燒餅與飯團79
3.5.3評估與應用82
3.6R語言實戰(zhàn)82
3.6.1泰坦尼克號82
3.6.2商店數據86
3.6.3食品雜貨數據90
3.6.4人口收入數據92
3.6.5鳶尾花數據93
3.7本章思維導圖96
第4章聚類分析97
4.1聚類分析介紹98
4.2距離與相似度衡量99
4.2.1數值數據距離99
4.2.2標準化與歸一化100
4.2.30-1數據距離和相似度100
4.2.4混合數據的距離102
4.2.5顧客數據的距離102
4.2.6距離和相似度的轉換104
4.2.7計算距離的R函數104
4.3層次聚類分析106
4.3.1兩類連接106
4.3.2顧客數據的聚類107
4.3.3層次聚類的優(yōu)點和缺點110
4.4非層次聚類分析110
4.4.1K-mean聚類110
4.4.2PAM聚類112
4.4.3K-mean聚類的優(yōu)點和缺點113
4.5聚類分析的評價113
4.6R語言實戰(zhàn)115
4.6.1歐洲語言的聚類115
4.6.2美國電力公司數據118
4.6.3歐州人蛋白質數據120
4.6.4紅酒數據124
4.6.5汽車數據126
4.7本章思維導圖128
第5章降維分析129
5.1降維分析介紹130
5.2主成分分析131
5.2.1主成分分析的計算理論132
5.2.2主成分分析的計算步驟134
5.2.3主成分分析的優(yōu)點和缺點134
5.3R語言程序135
5.4R語言實戰(zhàn)138
5.4.1鳶尾花數據138
5.4.2美國罪犯數據138
5.4.3美國法官數據145
5.4.4國家冰球聯(lián)盟資料146
5.4.5美國職業(yè)棒球數據149
5.4.6早餐麥片數據151
5.4.7紅酒數據151
5.4.8心理學數據152
5.5本章思維導圖154
第三篇監(jiān)督式學習
第6章模型選擇與評價157
6.1模型選擇與評價步驟158
6.2大數據的抽樣方法159
6.2.1保留方法抽樣160
6.2.2自助抽樣法162
6.2.3632自助法163
6.2.4過采樣1
6.3交驗證165
6.3.1k-折交驗證165
6.3.2留一交驗證166
6.4模型選擇167
6.4.1參數和非參數學習168
6.4.2偏差和方差169
6.4.3模型的復雜度170
6.4.4正則化171
6.4.5認真學習和懶惰學習171
6.5模型評價172
6.5.1二元0-1分類器的評價——混淆矩陣172
6.5.2混淆矩陣的舉例說明174
6.5.3二元分類器的成本計算176
6.5.4二元分類器例題數據R語言176
6.5.5多標簽分類器的評價179
6.5.6多標簽分類器評價R語言181
6.5.7交驗證分類的評價183
6.5.8分類學習的ROC曲線183
6.5.9連續(xù)型目標變量回歸模型的評價187
6.6R語言實戰(zhàn)189
6.6.1R語言自動調模與調參189
6.6.2汽車數據190
6.6.3乳腺癌診斷數據190
6.7本章思維導圖192
第7章回歸分析193
7.1多元線性回歸194
7.1.1多元線性回歸模型194
7.1.2參數估計195
7.1.3適合性檢驗196
7.1.4實例計算197
7.1.5R語言的實例計算199
7.2變量(特征)選擇200
7.2.1偏相關系數200
7.2.2逐步回歸203
7.2.3部分子集回歸204
7.2.4壓縮方法205
7.3Logistic邏輯回歸207
7.4R語言實戰(zhàn)209
7.4.1股票數據209
7.4.2乳腺癌病理數據210
7.4.3醫(yī)療保險數據213
7.4.4棒球數據215
7.4.5波士頓房價數據218
7.4.6皮瑪數據221
7.5本章思維導圖224
第8章近鄰法225
8.1學習器226
8.1.1認真學習器和懶惰學習器226
8.1.2基于實例學習器227
8.1.3參數學習器和非參數學習器228
8.2近鄰法介紹229
8.2.1k-近鄰法算法步驟229
8.2.2k-近鄰法分類器230
8.2.3k-近鄰法回歸231
8.2.4自變量是分類變量232
8.3近鄰法的優(yōu)點和缺點232
8.4R語言實戰(zhàn)233
8.4.1食材數據233
8.4.2鳶尾花數據234
8.4.3乳癌檢查數據236
8.4.4美國總統(tǒng)候選人數據238
8.4.5玻璃數據240
8.4.6波士頓房價數據241
8.4.7皮瑪數據242
8.5本章思維導圖244
第9章貝葉斯分類245
9.1貝葉斯公式246
9.2貝葉斯分類247
9.2.1樸素貝葉斯分類247
9.2.2特征值是連續(xù)變量248
9.2.3樸素貝葉斯分類的優(yōu)點和缺點249
9.3貝葉斯分類的實例計算249
9.3.1天氣和打網球249
9.3.2驗前概率與似然概率251
9.3.3拉普拉斯校準251
9.3.4R語言實例計算252
9.4R語言實戰(zhàn)255
9.4.1泰坦尼克號數據255
9.4.2鳶尾花數據256
9.4.3垃圾郵件數據258
9.4.4皮瑪數據261
9.5本章思維導圖262
0章決策樹263
10.1決策樹概述2
10.1.1圖形表示2
10.1.2邏輯表示265
10.1.3規(guī)則表示265
10.1.4數學公式表示265
10.2決策樹的信息計算266
10.2.1信息計算266
10.2.2熵與信息267
10.2.3信息增益267
10.2.4信息增益比268
10.2.5基尼系數與基尼增益268
10.2.6卡方統(tǒng)計量269
10.2.7分枝法則的選擇269
10.2.8回歸樹269
10.3決策樹的實例計算270
10.4決策樹的剪枝277
10.4.1貪婪算法277
10.4.2決策樹剪枝278
10.5決策樹的優(yōu)點和缺點279
10.6R語言實戰(zhàn)280
10.6.1決策樹R語言包280
10.6.2打網球數據280
10.6.3泰坦尼克號數據283
10.6.4鳶尾花數據284
10.6.5皮瑪數據289
10.6.6汽車座椅銷售數據292
10.6.7波士頓房價數據295
10.6.8貓數據297
10.6.9駝背數據300
10.6.10美國總統(tǒng)選舉投票數據301
10.6.11員工離職數據302
10.7本章思維導圖306
1章支持向量機307
11.1支持向量機概述308
11.2大間隔分類(硬間隔)310
11.3支持向量分類(軟間隔)311
11.4支持向量機(核函數)313
11.4.1支持向量機的核函數313
11.4.2多元分類支持向量機315
11.5支持向量機的優(yōu)點和缺點315
11.6支持向量機R語言應用316
11.6.1隨機正態(tài)分布數據線性核函數317
11.6.2隨機正態(tài)分布數據徑向基核函數318
11.6.3三分類數據徑向基核函數321
11.7R語言實戰(zhàn)322
11.7.1基因表達數據322
11.7.2鳶尾花數據322
11.7.3貓數據323
11.7.4皮瑪數據325
11.7.5字符數據328
11.7.6玻璃數據329
11.8本章思維導圖332
2章集成學習333
12.1集成學習介紹334
12.2個別分類方法評價335
12.3Bagging學習337
12.4隨機森林338
12.4.1隨機森林介紹338
12.4.2隨機森林算法步驟339
12.4.3R語言339
12.4.4隨機森林的優(yōu)點和缺點340
12.4.5非監(jiān)督式學習-鳶尾花數據340
12.4.6美國大學數據341
12.5Boosting學習342
12.6Stacking學習343
12.6.1皮瑪數據343
12.6.2員工離職數據344
12.7R語言實戰(zhàn)345
12.7.1紅酒數據345
12.7.2信用數據347
12.7.3皮瑪數據348
12.7.4波士頓房價數據349
12.7.5汽車座椅數據352
12.7.6顧客流失數據353
12.8本章思維導圖356
3章推薦系統(tǒng)357
13.1推薦系統(tǒng)概述358
13.2過濾推薦359
13.2.1相似度360
13.2.2基于用戶的協(xié)同過濾360
13.2.3基于項目的協(xié)同過濾361
13.2.4協(xié)同過濾的評價362
13.2.5協(xié)同過濾的優(yōu)點和缺點363
13.2.6混合的推薦機制3
13.3R語言應用365
13.3.1推薦系統(tǒng)R語言包365
13.3.2recommenderlab函數程序366
13.3.3模擬數據367
13.4R語言實戰(zhàn)369
13.4.1電影數據369
13.4.2笑話數據373
13.5本章思維導圖378
結語379
參考文獻381