數據分析與機器學習:基于R語言 [美]理查德·J.羅杰
定 價:99 元
當前圖書已被 1 所學校薦購過!
查看明細
- 作者:[美]理查德·J.羅杰
- 出版時間:2025/3/1
- ISBN:9787111770794
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP181
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書基于R語言介紹了機器學習算法、統計方法和數據分析方法,讓讀者在邊學邊做的過程中學會解決實際問題。本書首先使用簡單易懂的例子來逐步解釋各種機器學習算法。接下來,介紹如何用R編寫腳本,這些腳本會應用相關算法來解決實際數據中的問題。本書提供腳本代碼,讀者可利用相關腳本進行學習。
本書介紹了R語言、機器學習算法、統計方法和分析方法,用于讓讀者了解如何在數據中找到有趣的結構,以及學會如何使用數據來解決復雜問題。通過簡單、易懂的例子逐步解釋各種機器學習算法是如何獨立于任何編程語言工作的。本書詳細介紹了用R編寫的腳本,并將這些腳本應用于具有真實數據的復雜問題。提供了腳本代碼,允許讀者在學習時執(zhí)行腳本,涵蓋了多種機器學習技術的不同實現方式。本書既適合作為高校計算機及相關專業(yè)的教材,也適合作為IT技術人員的參考書。
前 言
本書主要介紹R語言、機器學習算法、統計方法學和分析方法,以便讀者學會使用數據來解決復雜問題。本書有兩個主要目標:
明確展示如何、為什么以及何時使用機器學習技術。
盡快為讀者提供成為R語言高效使用者所需的內容。
本書的方法非常直接,可以稱之為“先看后做”,原因如下:
通過簡單易懂的示例,逐步解釋各種機器學習算法是如何獨立于任何編程語言工作的。
解釋了腳本的細節(jié),這些腳本與包括第4版在內的所有R語言的版本兼容,并且可以用來解決具有真實數據的復雜問題。本書已提供這些腳本,以便讀者在閱讀本書的解釋時,可以觀察這些腳本的執(zhí)行過程。
涵蓋了多種機器學習技術的不同實現方式。
提供了章末練習題,其中許多練習題可以通過修改現有腳本來解決。
本書中提供的一些腳本可以被視為解決問題的模板,稍作修改后可以反復使用。當你對這些模板有了深入理解后,使用R將變得得心應手。
目標讀者
本書適合以下四種讀者群體:
學生:希望學習機器學習并渴望通過R語言進行實踐的學生。
教育工作者:決策科學、計算機科學、信息系統和信息技術領域的教育工作者,他們希望開設關于使用R語言進行機器學習和數據分析的單元、研討會或整套課程。
專業(yè)人員:需要了解如何將機器學習應用于解決業(yè)務問題的專業(yè)人員。
應用研究人員:希望將機器學習方法納入他們的問題解決和分析工具包中的研究人員。
如何使用本書
快速學習的最佳方式是觀察和實踐相結合。我們通過向你介紹超過50個用R編寫的腳本來提供這個機會。為了充分利用本書,你首先應閱讀并逐步實踐第1章到第4章中提供的腳本,這些章節(jié)為使用R進行機器學習奠定了基礎。
學習第5章需要一些時間,因為它提供了豐富的信息,其中一些是統計性質的。你將學習線性回歸、邏輯回歸以及樸素貝葉斯分類器。首先,你將學習如何使用訓練集和測試集的場景進行模型評估,以及如何進行交叉驗證。在學習邏輯回歸時,你將學習如何創(chuàng)建混淆矩陣,以及如何創(chuàng)建和解釋接收器操作特性(ROC)曲線下面積。
一旦掌握了第5章,那么就可以按照任意順序學習第6章至第11章。唯一的例外是第7章應該在第6章之后學習。第12章應該最后學習,因為第12章提供了一個案例,可以深入了解整個知識的發(fā)現過程。
補充材料
正文中對所有用于示例和章末練習題的數據集及腳本都進行了詳細的描述。這些數據集來自多個領域,包括商業(yè)、健康和醫(yī)學以及科學?梢栽谙率鰞蓚網址下載這些數據集和腳本:
CRC網站:https://www.crcpress.com/9780367439149。
https://krypton.mnsu.edu/~sa7379bt/。
致謝
非常感謝我的妻子蘇珊娜,感謝她一直以來的支持。
理查德·J. 羅杰(Richard J. Roiger)
明尼蘇達州立大學曼卡托分校的榮休教授,他在計算機與信息科學系從事教學和研究工作超過30年。羅杰博士于明尼蘇達大學獲得計算機與信息科學領域的博士學位。在機器學習和知識發(fā)現領域,他曾發(fā)表多篇會議論文和期刊論文。退休后,羅杰博士繼續(xù)擔任兼職教師,教授關于數據科學、人工智能和研究方法的課程。羅杰博士是明尼蘇達州退休教育協會的董事會成員,并擔任該協會的財務顧問。
目 錄
譯者序
前言
第1章 機器學習導論1
1.1 機器學習、統計分析和數據科學1
1.2 機器學習:第一個示例2
1.2.1 屬性-值格式2
1.2.2 用于診斷疾病的決策樹3
1.3 機器學習策略5
1.3.1 分類5
1.3.2 估計6
1.3.3 預測6
1.3.4 無監(jiān)督聚類9
1.3.5 市場購物籃分析9
1.4 評估性能9
1.4.1 評估監(jiān)督模型10
1.4.2 二分類誤差分析10
1.4.3 評估數值輸出11
1.4.4 通過測量提升比較模型11
1.4.5 評估無監(jiān)督模型13
1.5 倫理問題14
1.6 本章小結14
1.7 關鍵術語15
練習題16
第2章 R語言簡介18
2.1 R語言和RStudio簡介18
2.1.1 R的特性19
2.1.2 安裝R19
2.1.3 安裝RStudio20
2.2 瀏覽RStudio21
2.2.1 控制臺21
2.2.2 源面板22
2.2.3 全局環(huán)境24
2.2.4 包28
2.3 數據在哪里29
2.4 獲取幫助和額外信息29
2.5 本章小結30
練習題30
相關安裝包和函數總結31
第3章 數據結構和操作32
3.1 數據類型32
3.1.1 字符數據和因子33
3.2 單模式數據結構34
3.2.1 向量34
3.2.2 矩陣和數組36
3.3 多模式數據結構37
3.3.1 列表37
3.3.2 數據框38
3.4 編寫自己的函數39
3.4.1 寫一個簡單的函數39
3.4.2 條件語句41
3.4.3 迭代42
3.4.4 遞歸編程45
3.5 本章小結46
3.6 關鍵術語46
練習題46
相關安裝包和函數總結47
第4章 準備數據48
4.1 知識發(fā)現的過程模型48
4.2 創(chuàng)建目標數據集49
4.2.1 R與關系模型的接口49
4.2.2 目標數據的其他來源52
4.3 數據預處理52
4.3.1 噪聲數據 52
4.3.2 使用R進行預處理53
4.3.3 檢測異常值54
4.3.4 缺失數據55
4.4 數據轉換56
4.4.1 數據歸一化56
4.4.2 數據類型轉換57
4.4.3 屬性和實例選擇57
4.4.4 創(chuàng)建訓練集和測試集
數據58
4.4.5 交叉驗證和自助法59
4.4.6 大規(guī)模數據59
4.5 本章小結59
4.6 關鍵術語60
練習題60
相關安裝包和函數總結61
第5章 監(jiān)督統計技術62
5.1 簡單線性回歸62
5.2 多元線性回歸66
5.2.1 多元線性回歸:一個示例67
5.2.2 評估數值輸出69
5.2.3 評估訓練/測試集71
5.2.4 使用交叉驗證71
5.2.5 分類數據的線性回歸73
5.3 邏輯回歸78
5.3.1 變換線性回歸模型78
5.3.2 邏輯回歸模型79
5.3.3 R中的邏輯回歸79
5.3.4 創(chuàng)建混淆矩陣81
5.3.5 接收器操作特性曲線82
5.3.6 ROC曲線下面積85
5.4 樸素貝葉斯分類器85
5.4.1 貝葉斯分類器:一個示例85
5.4.2 零-值屬性計數87
5.4.3 缺失數據88
5.4.4 數值數據88
5.4.5 用樸素貝葉斯進行實驗90
5.5 本章小結93
5.6 關鍵術語94
練習題95
相關安裝包和函數總結97
第6章 基于樹的方法98
6.1 決策樹算法98
6.1.1 一種構建決策樹的算法98
6.1.2 C4.5屬性選擇99
6.1.3 構建決策樹的其他方法102
6.2 構建決策樹:C5.0102
6.2.1 信用卡促銷的決策樹103
6.2.2 模擬客戶流失的數據 104
6.2.3 使用C5.0預測客戶流失104
6.3 構建決策樹:rpart106
6.3.1 信用卡促銷的rpart決策樹 107
6.3.2 訓練和測試rpart:流失
數據109
6.3.3 交叉驗證rpart:流失數據113
6.4 構建決策樹:J48113
6.5 用于提高性能的集成技術115
6.5.1 裝袋算法116
6.5.2 提升116
6.5.3 提升:C5.0的示例117
6.5.4 隨機森林117
6.6 回歸樹119
6.7 本章小結121
6.8 關鍵術語122
練習題122
相關安裝包和函數總結123
第7章 基于規(guī)則的技術124
7.1 從樹到規(guī)則 124
7.1.1 垃圾郵件數據集125
7.1.2 垃圾郵件分類:C5.0125
7.2 基本的覆蓋規(guī)則算法128
7.3 生成關聯規(guī)則130
7.3.1 置信度和支持度130
7.3.2 挖掘關聯規(guī)則:一個示例131
7.3.3 一般考慮事項134
7.3.4 Rweka的Apriori函數134
7.4 Rattle用戶界面137
7.5 本章小結143
7.6 關鍵術語144
練習題144
相關安裝包和函數總結145
第8章 神經網絡146
8.1 前饋神經網絡146
8.1.1 神經網絡輸入格式147
8.1.2 神經網絡輸出格式148
8.1.3 sigmoid評估函數149
8.2 神經網絡訓練:概念視角150
8.2.1 使用前饋網絡的監(jiān)督學習150
8.2.2 具有自組織映射的無監(jiān)督
聚類150
8.3 神經網絡解釋151
8.4 一般考慮事項152
8.4.1 優(yōu)勢152
8.4.2 劣勢152