黨的二十大報(bào)告指出: 教育、科技、人才是全面建設(shè)社會(huì)主義現(xiàn)代化國家的基礎(chǔ)性、戰(zhàn)略性支撐。必須堅(jiān)持科技是第一生產(chǎn)力、人才是第一資源、創(chuàng)新是第一動(dòng)力,深入實(shí)施科教興國戰(zhàn)略、人才強(qiáng)國戰(zhàn)略、創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,開辟發(fā)展新領(lǐng)域新賽道,不斷塑造發(fā)展新動(dòng)能新優(yōu)勢。高等教育與經(jīng)濟(jì)社會(huì)發(fā)展緊密相連,對(duì)促進(jìn)就業(yè)創(chuàng)業(yè)、助力經(jīng)濟(jì)社會(huì)發(fā)展、增進(jìn)人民福祉具有重要意義。
隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,海量的數(shù)據(jù)產(chǎn)生。對(duì)這些數(shù)據(jù)的存儲(chǔ)、處理與分析帶動(dòng)了大數(shù)據(jù)技術(shù)的發(fā)展。其中,數(shù)據(jù)分析與挖掘結(jié)合了數(shù)據(jù)處理、統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)等領(lǐng)域的技術(shù),可以幫助人們?cè)邶嫶蟮臄?shù)據(jù)中進(jìn)行相關(guān)分析,找到有價(jià)值的信息和規(guī)律,使得人們對(duì)世界的認(rèn)識(shí)更快、更便捷。在數(shù)據(jù)科學(xué)領(lǐng)域,Python語言由于其簡單易用、第三方庫強(qiáng)大的特點(diǎn),深受數(shù)據(jù)分析與挖掘人員的青睞。
本書從Python數(shù)據(jù)分析與挖掘的基礎(chǔ)知識(shí)入手,結(jié)合大量的數(shù)據(jù)挖掘示例,系統(tǒng)介紹了數(shù)據(jù)分析與挖掘的原理、方法及應(yīng)用,帶領(lǐng)讀者快速掌握Python數(shù)據(jù)分析與挖掘的相關(guān)知識(shí),提高解決實(shí)際問題的能力。
全書共13章,包括緒論、Python編程基礎(chǔ)、NumPy數(shù)值計(jì)算、Pandas數(shù)據(jù)分析、Python數(shù)據(jù)可視化、認(rèn)識(shí)數(shù)據(jù)、數(shù)據(jù)預(yù)處理、回歸分析、關(guān)聯(lián)規(guī)則挖掘、分類、聚類、離群點(diǎn)檢測以及文本和時(shí)序數(shù)據(jù)挖掘等內(nèi)容。書中各章內(nèi)容相對(duì)獨(dú)立,以利于讀者選擇性學(xué)習(xí)。每章內(nèi)容力求原理敘述清晰簡潔,突出理論聯(lián)系實(shí)際,輔之以Python代碼實(shí)踐與指導(dǎo),引領(lǐng)讀者快速邁進(jìn)數(shù)據(jù)分析與挖掘領(lǐng)域。同時(shí),在每章后面設(shè)置了內(nèi)容小結(jié)、習(xí)題以及實(shí)訓(xùn)練習(xí),有利于讀者對(duì)內(nèi)容的理解和掌握。
本書具有以下特色。
(1) 實(shí)戰(zhàn)導(dǎo)向: 突出理論工具案例三位一體的教學(xué)理念。
(2) 體系完整: 覆蓋數(shù)據(jù)分析、可視化到數(shù)據(jù)建模的全流程。
(3) 技術(shù)前沿: 集成傳統(tǒng)統(tǒng)計(jì)分析工具與Python機(jī)器學(xué)習(xí)庫。
(4) 受眾廣泛: 適合多層級(jí)、多領(lǐng)域讀者自學(xué)或教學(xué)參考。
為便于教學(xué),本書提供豐富的配套資源,包括教學(xué)大綱、教學(xué)課件、電子教案、程序源碼、教學(xué)進(jìn)度表、在線作業(yè)、習(xí)題答案和1000分鐘的微課視頻。
資源下載提示
課件等資源: 掃描封底的圖書資源二維碼,在公眾號(hào)書圈下載。
素材(源碼)等資源: 掃描目錄上方的二維碼下載。
在線自測題: 掃描封底的作業(yè)系統(tǒng)二維碼,再掃描自測題二維碼,可以在線做題及查看答案。
微課視頻: 掃描封底的文泉云盤防盜碼,再掃描書中相應(yīng)章節(jié)的視頻講解二維碼,可以在線學(xué)習(xí)。
本書由西北師范大學(xué)魏偉一教授編寫。由于編者水平有限,書中難免存在疏漏和不足之處,敬請(qǐng)讀者批評(píng)指正。
編者
西北師范大學(xué)
2025年1月
掃一掃
源碼下載
第1章緒論
1.1數(shù)據(jù)分析與數(shù)據(jù)挖掘
1.1.1數(shù)據(jù)分析
1.1.2數(shù)據(jù)挖掘
1.1.3數(shù)據(jù)分析與數(shù)據(jù)挖掘的聯(lián)系
1.2數(shù)據(jù)挖掘的主要任務(wù)
1.2.1關(guān)聯(lián)分析
1.2.2數(shù)據(jù)的預(yù)測建模
1.2.3聚類分析
1.2.4離群點(diǎn)檢測
1.3數(shù)據(jù)挖掘的數(shù)據(jù)源
1.3.1數(shù)據(jù)庫數(shù)據(jù)
1.3.2數(shù)據(jù)倉庫
1.3.3事務(wù)數(shù)據(jù)庫
1.3.4其他類型數(shù)據(jù)
1.4數(shù)據(jù)挖掘使用的技術(shù)
1.4.1統(tǒng)計(jì)學(xué)
1.4.2機(jī)器學(xué)習(xí)
1.4.3數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫
1.5數(shù)據(jù)挖掘存在的主要問題
1.6數(shù)據(jù)挖掘建模常用的工具
1.6.1商用工具
1.6.2開源工具
1.7為何選用Python進(jìn)行數(shù)據(jù)挖掘
1.8Python數(shù)據(jù)挖掘常用的庫
1.9Jupyter Notebook的使用
1.10小結(jié)
習(xí)題1
第2章Python編程基礎(chǔ)
2.1Python語言的基本語法
2.1.1基礎(chǔ)數(shù)據(jù)類型
2.1.2變量和賦值
2.1.3運(yùn)算符和表達(dá)式
2.1.4字符串
2.1.5流程控制
2.2內(nèi)置數(shù)據(jù)類型
2.2.1列表
2.2.2元組
2.2.3字典
2.2.4集合
2.3函數(shù)
2.3.1函數(shù)的定義
2.3.2lambda函數(shù)
2.4文件操作
2.4.1文件處理過程
2.4.2數(shù)據(jù)的讀取方法
2.4.3讀取CSV文件
2.4.4文件的寫入與關(guān)閉
2.5小結(jié)
習(xí)題2
本章實(shí)訓(xùn)
第3章NumPy數(shù)值計(jì)算
3.1NumPy多維數(shù)組
3.1.1創(chuàng)建數(shù)組對(duì)象
3.1.2ndarray對(duì)象的屬性和數(shù)據(jù)轉(zhuǎn)換
3.1.3生成隨機(jī)數(shù)
3.1.4數(shù)組變換
3.2數(shù)組的索引和切片
3.2.1一維數(shù)組的索引
3.2.2多維數(shù)組的索引
3.3數(shù)組的運(yùn)算
3.3.1數(shù)組和標(biāo)量間的運(yùn)算
3.3.2ufunc函數(shù)
3.3.3條件邏輯運(yùn)算
3.4數(shù)組的讀/寫
3.4.1讀/寫二進(jìn)制文件
3.4.2讀/寫文本文件
3.4.3讀取CSV文件
3.5NumPy中的數(shù)據(jù)統(tǒng)計(jì)與分析
3.5.1排序
3.5.2重復(fù)數(shù)據(jù)與去重
3.5.3常用統(tǒng)計(jì)函數(shù)
3.6小結(jié)
習(xí)題3
本章實(shí)訓(xùn)
第4章Pandas數(shù)據(jù)分析
4.1Pandas中的數(shù)據(jù)結(jié)構(gòu)
4.1.1Series
4.1.2DataFrame
4.1.3索引對(duì)象
4.1.4查看DataFrame的常用屬性
4.2數(shù)據(jù)的載入
4.2.1讀/寫文本文件
4.2.2讀/寫Excel文件
4.2.3讀/寫JSON數(shù)據(jù)
4.2.4讀取數(shù)據(jù)庫文件
4.3Pandas索引操作
4.3.1重新索引
4.3.2更換索引
4.4DataFrame數(shù)據(jù)的查詢與編輯
4.4.1DataFrame數(shù)據(jù)的查詢
4.4.2DataFrame數(shù)據(jù)的編輯
4.4.3DataFrame數(shù)據(jù)的變換
4.5Pandas數(shù)據(jù)運(yùn)算
4.5.1算術(shù)運(yùn)算
4.5.2DataFrame數(shù)據(jù)的比較
4.5.3函數(shù)應(yīng)用和映射
4.5.4排序
4.5.5匯總與統(tǒng)計(jì)
4.6數(shù)據(jù)分組與聚合
4.6.1數(shù)據(jù)分組
4.6.2數(shù)據(jù)聚合
4.6.3分組運(yùn)算
4.7數(shù)據(jù)透視表
4.7.1透視表
4.7.2交叉表
4.8Pandas可視化
4.8.1線形圖
4.8.2柱狀圖
4.8.3直方圖
4.8.4密度圖
4.8.5散點(diǎn)圖
4.9小結(jié)
習(xí)題4
本章實(shí)訓(xùn)
第5章Python數(shù)據(jù)可視化
5.1Matplotlib數(shù)據(jù)可視化
5.1.1Matplotlib繪圖基礎(chǔ)
5.1.2設(shè)置pyplot的rc參數(shù)
5.1.3繪圖的填充
5.1.4文本注解
5.1.5在繪圖中顯示公式
5.1.6pyplot中的常用繪圖
5.1.7詞云
5.2Seaborn數(shù)據(jù)可視化
5.2.1風(fēng)格設(shè)置
5.2.2Seaborn中的常用繪圖
5.3pyecharts數(shù)據(jù)可視化
5.3.1pyecharts的使用方法
5.3.2pyecharts中的常用繪圖
5.4小結(jié)
習(xí)題5
本章實(shí)訓(xùn)
第6章認(rèn)識(shí)數(shù)據(jù)
6.1屬性及其類型
6.1.1屬性
6.1.2屬性的類型
6.2數(shù)據(jù)的基本統(tǒng)計(jì)描述
6.2.1中心趨勢度量
6.2.2數(shù)據(jù)散布度量
6.3數(shù)據(jù)可視化
6.3.1基于像素的可視化技術(shù)
6.3.2幾何投影可視化技術(shù)
6.3.3基于圖符的可視化技術(shù)
6.3.4層次可視化技術(shù)
6.3.5可視化復(fù)雜對(duì)象和關(guān)系
6.3.6高維數(shù)據(jù)可視化
6.3.7Python可視化
6.4數(shù)據(jù)對(duì)象的相似性度量
6.4.1數(shù)據(jù)矩陣和相異性矩陣
6.4.2標(biāo)稱屬性的相似性度量
6.4.3二元屬性的相似性度量
6.4.4數(shù)值屬性的相似性度量
6.4.5序數(shù)屬性的相似性度量
6.4.6混合類型屬性的相似性
6.4.7余弦相似性
6.4.8距離度量的Python實(shí)現(xiàn)
6.5小結(jié)
習(xí)題6
本章實(shí)訓(xùn)
第7章數(shù)據(jù)預(yù)處理
7.1數(shù)據(jù)預(yù)處理的必要性
7.1.1原始數(shù)據(jù)中存在的問題
7.1.2數(shù)據(jù)質(zhì)量要求
7.2數(shù)據(jù)清洗
7.2.1數(shù)據(jù)清洗方法
7.2.2使用Pandas進(jìn)行數(shù)據(jù)清洗
7.3數(shù)據(jù)集成
7.3.1數(shù)據(jù)集成過程中的關(guān)鍵問題
7.3.2使用Pandas合并數(shù)據(jù)
7.4數(shù)據(jù)標(biāo)準(zhǔn)化
7.4.1離差標(biāo)準(zhǔn)化數(shù)據(jù)
7.4.2標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化數(shù)據(jù)
7.5數(shù)據(jù)歸約
7.5.1維歸約
7.5.2數(shù)量歸約
7.5.3數(shù)據(jù)壓縮
7.6數(shù)據(jù)變換與數(shù)據(jù)離散化
7.6.1數(shù)據(jù)變換的策略
7.6.2Python數(shù)據(jù)變換與離散化
7.7使用scikitlearn進(jìn)行數(shù)據(jù)預(yù)處理
7.8小結(jié)
習(xí)題7
本章實(shí)訓(xùn)
第8章回歸分析
8.1回歸分析概述
8.1.1回歸分析的定義與分類
8.1.2回歸分析的過程
8.1.3回歸算法的評(píng)價(jià)
8.2一元線性回歸分析
8.2.1一元線性回歸方法
8.2.2一元線性回歸模型的參數(shù)估計(jì)
8.2.3一元線性回歸模型的誤差項(xiàng)方差估計(jì)
8.2.4一元線性回歸模型的統(tǒng)計(jì)檢驗(yàn)
8.2.5一元線性回歸的Python實(shí)現(xiàn)
8.3多元線性回歸
8.3.1多元線性回歸模型
8.3.2多元線性回歸模型的參數(shù)估計(jì)
8.3.3多元線性回歸的假設(shè)檢驗(yàn)及評(píng)價(jià)
8.3.4多元線性回歸的Python實(shí)現(xiàn)
8.4邏輯回歸
8.4.1邏輯回歸模型
8.4.2邏輯回歸的Python實(shí)現(xiàn)
8.5其他回歸分析
8.5.1多項(xiàng)式回歸
8.5.2嶺回歸
8.5.3LASSO回歸
8.5.4彈性網(wǎng)絡(luò)回歸
8.5.5逐步回歸
8.6小結(jié)
習(xí)題8
本章實(shí)訓(xùn)
第9章關(guān)聯(lián)規(guī)則挖掘
9.1關(guān)聯(lián)規(guī)則分析概述
9.2頻繁項(xiàng)集、閉項(xiàng)集和關(guān)聯(lián)規(guī)則
9.3頻繁項(xiàng)集挖掘方法
9.3.1Apriori算法
9.3.2由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則
9.3.3提高Apriori算法的效率
9.3.4頻繁模式增長算法
9.3.5使用垂直數(shù)據(jù)格式挖掘頻繁項(xiàng)集
9.4關(guān)聯(lián)模式評(píng)估方法
9.4.1強(qiáng)關(guān)聯(lián)規(guī)則不一定是有趣的
9.4.2從關(guān)聯(lián)分析到相關(guān)分析
9.5Apriori算法的應(yīng)用
9.6小結(jié)
習(xí)題9
本章實(shí)訓(xùn)
第10章分類
10.1分類概述
10.2決策樹歸納
10.2.1決策樹的原理
10.2.2ID3算法
10.2.3C4.5算法
10.2.4CART算法
10.2.5樹的剪枝
10.2.6決策樹的應(yīng)用
10.3K近鄰算法
10.3.1算法的原理
10.3.2Python算法的實(shí)現(xiàn)
10.4支持向量機(jī)
10.4.1算法的原理
10.4.2Python算法的實(shí)現(xiàn)
10.5貝葉斯分類
10.5.1算法的原理
10.5.2樸素貝葉斯分類
10.5.3高斯樸素貝葉斯分類
10.5.4多項(xiàng)式樸素貝葉斯分類
10.5.5樸素貝葉斯分類的應(yīng)用
10.6神經(jīng)網(wǎng)絡(luò)
10.6.1神經(jīng)元模型
10.6.2感知機(jī)與多層網(wǎng)絡(luò)
10.6.3BP神經(jīng)網(wǎng)絡(luò)
10.6.4BP神經(jīng)網(wǎng)絡(luò)的應(yīng)用
10.7模型評(píng)估與選擇
10.7.1分類器性能的度量
10.7.2模型選擇
10.8組合分類
10.8.1組合分類方法簡介
10.8.2裝袋
10.8.3提升和AdaBoost
10.8.4隨機(jī)森林
10.9小結(jié)
習(xí)題10
本章實(shí)訓(xùn)
第11章聚類
11.1聚類分析概述
11.1.1聚類分析的概念
11.1.2聚類算法的分類
11.2KMeans聚類
11.2.1算法的原理
11.2.2算法的改進(jìn)
11.2.3KMeans算法的實(shí)現(xiàn)
11.3層次聚類
11.3.1算法的原理
11.3.2簇間的距離度量
11.3.3凝聚層次聚類
11.3.4分裂層次聚類
11.3.5層次聚類的應(yīng)用
11.4基于密度的聚類
11.4.1算法的原理
11.4.2算法的改進(jìn)
11.4.3DBSCAN算法的實(shí)現(xiàn)
11.5其他聚類方法
11.5.1STING聚類
11.5.2概念聚類
11.5.3模糊聚類
11.5.4高斯混合模型聚類
11.5.5近鄰傳播聚類
11.6聚類評(píng)估
11.6.1聚類趨勢的估計(jì)
11.6.2聚類簇?cái)?shù)的確定
11.6.3聚類質(zhì)量的測定
11.7小結(jié)
習(xí)題11
本章實(shí)訓(xùn)
第12章離群點(diǎn)檢測
12.1離群點(diǎn)概述
12.1.1離群點(diǎn)的概念
12.1.2離群點(diǎn)的類型
12.1.3離群點(diǎn)檢測的挑戰(zhàn)
12.2離群點(diǎn)的檢測
12.2.1基于統(tǒng)計(jì)學(xué)的離群點(diǎn)檢測
12.2.2基于鄰近性的離群點(diǎn)檢測
12.2.3基于聚類的離群點(diǎn)檢測
12.2.4基于分類的離群點(diǎn)檢測
12.3scikitlearn中的異常檢測方法
12.4小結(jié)
習(xí)題12
本章實(shí)訓(xùn)
第13章文本和時(shí)序數(shù)據(jù)挖掘
13.1文本數(shù)據(jù)挖掘
13.1.1文本挖掘概述
13.1.2文本挖掘的過程與任務(wù)
13.1.3文本分析與挖掘的主要方法
13.2時(shí)序數(shù)據(jù)挖掘
13.2.1時(shí)間序列和時(shí)間序列數(shù)據(jù)分析
13.2.2時(shí)間序列平穩(wěn)性和隨機(jī)性判定
13.2.3自回歸滑動(dòng)平均(ARMA)模型
13.2.4差分整合移動(dòng)平均自回歸(ARIMA)模型
13.2.5季節(jié)性差分自回歸移動(dòng)平均(SARIMA)模型
13.3小結(jié)
習(xí)題13
參考文獻(xiàn)