《大數(shù)據(jù)分析基礎(chǔ)》首先全面介紹了信息技術(shù)、計(jì)算機(jī)基礎(chǔ),以及計(jì)算機(jī)的起源與發(fā)展、計(jì)算機(jī)系統(tǒng)的組成、操作系統(tǒng)和文件管理等內(nèi)容,然后深入探討了Python編程的基礎(chǔ)知識(shí),包括編程環(huán)境、語(yǔ)法、流程控制、組合數(shù)據(jù)類型、函數(shù)和模塊、常用的庫(kù)等,并通過(guò)豐富的實(shí)操練習(xí)幫助讀者掌握Python在文件管理、數(shù)據(jù)處理、科學(xué)計(jì)算等領(lǐng)域的應(yīng)用能力。此外,本書(shū)涵蓋了機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析框架及國(guó)產(chǎn)大模型DeepSeek等內(nèi)容,有助于讀者建立從基礎(chǔ)到前沿 的Python知識(shí)體系。本書(shū)包含豐富的代碼示例和綜合案例,可以幫助讀者快速掌握大數(shù)據(jù)分析理論和實(shí)用的編程技能。
本書(shū)適用于高等院校計(jì)算機(jī)相關(guān)專業(yè)的學(xué)生、Python編程初學(xué)者,以及對(duì)數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)感興趣的讀者。
?構(gòu)建從基礎(chǔ)到前沿的知識(shí)體系,涵蓋Python、機(jī)器學(xué)習(xí)及國(guó)產(chǎn)大模型
?以問(wèn)題為導(dǎo)向,通過(guò)實(shí)戰(zhàn)解析技術(shù)應(yīng)用邏輯與設(shè)計(jì)初衷
?包含豐富代碼示例與綜合案例,強(qiáng)化實(shí)操技能掌握
?覆蓋多行業(yè)場(chǎng)景,聚焦從數(shù)據(jù)到?jīng)Q策的落地能力培養(yǎng)
?架構(gòu)設(shè)計(jì)聚焦數(shù)據(jù)友好型語(yǔ)法,突出實(shí)戰(zhàn)脈絡(luò)呈現(xiàn)
作者簡(jiǎn)介
李石明, 博士,畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),主要研究方向?yàn)榇髷?shù)據(jù)、電子政務(wù)、企業(yè)管理等學(xué)科的教學(xué)和研究工作;近年來(lái),主持省部級(jí)以上課題4項(xiàng),參與課題2項(xiàng),出版《綠色未來(lái): ESG視角下的碳信息披露與企業(yè)價(jià)值重塑》《電子商務(wù)專業(yè)辦學(xué)特色的探索與實(shí)踐》專著2部,《公司戰(zhàn)略與風(fēng)險(xiǎn)管理》《Python編程:從入門到實(shí)踐》等教材4部,公開(kāi)發(fā)表SCI 、CSSCI及北大核心期刊論文12篇。
序言
在數(shù)字化浪潮席卷的今天,數(shù)據(jù)已無(wú)可爭(zhēng)議地成為推動(dòng)社會(huì)進(jìn)步、經(jīng)濟(jì)繁榮與科技創(chuàng)新的核心要素。從微觀的企業(yè)運(yùn)營(yíng)到宏觀的國(guó)家治理,從日常生活的便捷化到科學(xué)研究的深化,數(shù)據(jù)的力量無(wú)處不在,其價(jià)值之巨大,堪比工業(yè)時(shí)代的原油。然而,正如原油須經(jīng)提煉方能成為動(dòng)力之源,數(shù)據(jù)的價(jià)值也需要通過(guò)深度挖掘、精準(zhǔn)分析與有效轉(zhuǎn)化方能顯現(xiàn)。這正是大數(shù)據(jù)分析技術(shù)的魅力所在,也是《大數(shù)據(jù)分析基礎(chǔ)》 一書(shū)的初衷與使命。
在大數(shù)據(jù)時(shí)代的背景下,培養(yǎng)具備跨學(xué)科視野、扎實(shí)技術(shù)基礎(chǔ)與創(chuàng)新能力的人才何等重要。Python,這門融合了簡(jiǎn)潔性與強(qiáng)大功能的編程語(yǔ)言,憑借其豐富的開(kāi)源生態(tài)與高效的開(kāi)發(fā)效率,在大數(shù)據(jù)處理與分析領(lǐng)域大放異彩,已成為連接理論與實(shí)踐、學(xué)術(shù)與產(chǎn)業(yè)的橋梁!洞髷(shù)據(jù)分析基礎(chǔ)》以Python為工具,旨在為讀者搭建一個(gè)從理論到實(shí)踐、從基礎(chǔ)到進(jìn)階的全方位學(xué)習(xí)平臺(tái),助力大家在大數(shù)據(jù)的海洋中乘風(fēng)破浪,探索未知。
大數(shù)據(jù)分析技術(shù)的應(yīng)用,早已超越了單一行業(yè)的界限,它正以前所未有的速度滲透到金融、醫(yī)療、教育、政務(wù)、農(nóng)業(yè)等各個(gè)領(lǐng)域,成為推動(dòng)行業(yè)變革與升級(jí)的關(guān)鍵力量。然而,面對(duì)龐雜的技術(shù)棧與多變的應(yīng)用場(chǎng)景,初學(xué)者往往感到無(wú)所適從,或是學(xué)了一堆技術(shù)卻不知如何用于解決實(shí)際問(wèn)題。《大數(shù)據(jù)分析基礎(chǔ)》正是為了解決這一痛點(diǎn)而著,它摒棄了傳統(tǒng)技術(shù)書(shū)籍單純羅列知識(shí)點(diǎn)的做法,轉(zhuǎn)而以問(wèn)題為導(dǎo)向,以實(shí)戰(zhàn)為脈絡(luò),通過(guò)一系列精心設(shè)計(jì)的案例,引導(dǎo)讀者從真實(shí)場(chǎng)景出發(fā),深入理解大數(shù)據(jù)分析的精髓。
書(shū)中,不僅詳細(xì)介紹了Python編程的基礎(chǔ)知識(shí),包括數(shù)據(jù)友好型語(yǔ)法、 Pandas庫(kù)的使用、Matplotlib與Seaborn的可視化技巧等,還深入探討了機(jī)器學(xué)習(xí)、分布式計(jì)算、大模型構(gòu)建等前沿話題。通過(guò)電商數(shù)據(jù)分析、社交媒體情感分析、財(cái)務(wù)大數(shù)據(jù)分析、政務(wù)大數(shù)據(jù)分析等真實(shí)案例,展示了如何將理論知識(shí)用于解決實(shí)際問(wèn)題,實(shí)現(xiàn)從數(shù)據(jù)到商業(yè)價(jià)值的轉(zhuǎn)化。這種“從數(shù)據(jù)到行動(dòng)”的閉環(huán)思維,不僅能夠幫助讀者建立扎實(shí)的理論基礎(chǔ),更能夠培養(yǎng)大家的實(shí)踐能力和創(chuàng)新思維。
作為教育者,我深知一本好書(shū)對(duì)于學(xué)生成長(zhǎng)的重要性。《大數(shù)據(jù)分析基礎(chǔ)》不僅是一本技術(shù)書(shū)籍,更是一本啟發(fā)思維、激發(fā)潛能的寶典。它鼓勵(lì)讀者先跑通代碼,再優(yōu)化細(xì)節(jié);善用工具箱思維,掌握核心范式;從“為什么”到“怎么做”,培養(yǎng)批判性思維;加入社區(qū),保持好奇心,持續(xù)精進(jìn)。通過(guò)閱讀本書(shū),讀者不僅能夠掌握大數(shù)據(jù)分析的核心技能,更能夠在實(shí)踐中不斷探索、不斷創(chuàng)新,成為推動(dòng)社會(huì)進(jìn)步的重要力量。
最后,我衷心希望《大數(shù)據(jù)分析基礎(chǔ)》能夠成為廣大讀者探索數(shù)據(jù)世界的得力助手,助力大家在算法的海洋中錨定方向,在信息的洪流中捕捉價(jià)值。攜手共進(jìn),在這場(chǎng)“解碼世界”的旅程中,不斷探索、不斷前行,共同開(kāi)創(chuàng)一個(gè)更加智慧、更加美好的未來(lái)。
黃恒學(xué)
2025年5月1 日寫于北京大學(xué)廖凱原樓
前言
在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,信息技術(shù)的每一次革新都在重塑人們的認(rèn)知范式。從智能手機(jī)的普及到人工智能的突破,從物聯(lián)網(wǎng)到云計(jì)算的泛在化,數(shù)據(jù)已成為推動(dòng)社會(huì)發(fā)展的新“原油”。需要指出的是,數(shù)據(jù)的價(jià)值并非與生俱來(lái)—它必須經(jīng)過(guò)挖掘、分析和轉(zhuǎn)化,這正是大數(shù)據(jù)技術(shù)的核心使命。
Python作為一門兼具簡(jiǎn)潔性與強(qiáng)大功能的編程語(yǔ)言,憑借其豐富的開(kāi)源生態(tài)和高效的開(kāi)發(fā)效率,已成為大數(shù)據(jù)處理與分析領(lǐng)域的“通用語(yǔ)言”。無(wú)論是數(shù)據(jù)清洗、機(jī)器學(xué)習(xí)建模,還是實(shí)時(shí)流處理、分布式計(jì)算,都可以使用Python完成!洞髷(shù)據(jù)分析基礎(chǔ)》旨在幫助讀者跨越理論與實(shí)踐的鴻溝,掌握使用Python解決實(shí)際數(shù)據(jù)問(wèn)題的能力。
本書(shū)特色
大數(shù)據(jù)技術(shù)的應(yīng)用早已突破科技公司的邊界,融入金融、醫(yī)療、教育、政務(wù)、農(nóng)業(yè)等各個(gè)領(lǐng)域。零售企業(yè)需要通過(guò)用戶行為數(shù)據(jù)分析優(yōu)化庫(kù)存,城市需要通過(guò)交通流量數(shù)據(jù)分析緩解擁堵,醫(yī)院需要通過(guò)患者數(shù)據(jù)分析預(yù)測(cè)疾病風(fēng)險(xiǎn)……這些場(chǎng)景的共同點(diǎn)在于:數(shù)據(jù)是起點(diǎn),決策才是終點(diǎn)。許多初學(xué)者往往陷入兩種困境:一是被龐雜的技術(shù)棧(如Hadoop 、Spark 、Flink等)所困擾;二是學(xué)了一堆技術(shù),卻不知如何解決實(shí)際問(wèn)題。
《大數(shù)據(jù)分析基礎(chǔ)》的初衷即在于此—以問(wèn)題為導(dǎo)向,以實(shí)戰(zhàn)為脈絡(luò)。本書(shū)摒棄了單純羅列技術(shù)的寫法,從真實(shí)場(chǎng)景出發(fā),通過(guò)實(shí)操練習(xí),讓讀者不僅學(xué)會(huì)“如何寫代碼”,而且理解“為什么這樣設(shè)計(jì)”。例如,介紹文本分析時(shí),會(huì)從社交媒體評(píng)論出發(fā),逐步展示如何用Python提取關(guān)鍵詞、分析情感傾向、定位問(wèn)題根源,最終形成可落地的改進(jìn)方案。這種“從數(shù)據(jù)到行動(dòng)”的閉環(huán)思維,正是本書(shū)區(qū)別于其他相關(guān)技術(shù)書(shū)籍的核心特色。
本書(shū)的結(jié)構(gòu)與主要內(nèi)容
全書(shū)圍繞基礎(chǔ)、工具、應(yīng)用、拓展四層架構(gòu)展開(kāi),共分為三大部分。
(1) 第1部分“筑基篇—Python與數(shù)據(jù)科學(xué)的橋梁”共包含四章內(nèi)容,幫助讀者奠定知識(shí)基礎(chǔ)。
第1章從信息技術(shù)的演進(jìn)切入,解析大數(shù)據(jù)的5V(volume 、velocity 、variety 、veracity、value)特征,并探討數(shù)據(jù)驅(qū)動(dòng)決策的底層邏輯。
第2章和第3章深入介紹Python編程,但與傳統(tǒng)編程語(yǔ)言書(shū)籍不同,本書(shū)聚焦“數(shù)據(jù)友好型”語(yǔ)法,如列表推導(dǎo)式處理多維數(shù)據(jù)、使用Pandas庫(kù)實(shí)現(xiàn)類SQL操作、使用Matplotlib與Seaborn構(gòu)建可視化敘事。
第4章揭開(kāi)機(jī)器學(xué)習(xí)的神秘面紗,通過(guò)scikit-learn庫(kù)的實(shí)戰(zhàn),闡釋如何用Python訓(xùn)練一個(gè)預(yù)測(cè)模型,并重點(diǎn)討論過(guò)擬合陷阱、特征工程等容易被忽視的實(shí)戰(zhàn)要點(diǎn)。
(2) 第2部分“進(jìn)階篇—分布式計(jì)算與生態(tài)工具”共包含兩章內(nèi)容,引領(lǐng)讀者初步認(rèn)識(shí)工業(yè)級(jí)大數(shù)據(jù)處理領(lǐng)域。
第5章深入解析Hadoop與Spark架構(gòu)設(shè)計(jì),避免陷入配置參數(shù)細(xì)節(jié),通過(guò)PySpark實(shí)例演示如何用Python調(diào)用分布式計(jì)算能力。例如,用彈性分布式數(shù)據(jù)集(RDD)處理TB級(jí)日志文件,用MLlib庫(kù)構(gòu)建分布式推薦系統(tǒng)。
第6章專章剖析國(guó)產(chǎn)大模型DeepSeek,包含從預(yù)訓(xùn)練數(shù)據(jù)集的構(gòu)建到垂直領(lǐng)域的微調(diào)策略等大模型構(gòu)建過(guò)程,并通過(guò)醫(yī)療影像分析、金融風(fēng)控等案例,展現(xiàn)國(guó)產(chǎn)AI框架的獨(dú)特優(yōu)勢(shì)與技術(shù)突破。
(3) 第3部分“實(shí)戰(zhàn)篇—從數(shù)據(jù)到商業(yè)價(jià)值”包含一章內(nèi)容,是全書(shū)的提高篇,介紹了六個(gè)案例,均源自真實(shí)業(yè)務(wù)場(chǎng)景。
電商數(shù)據(jù)分析案例:數(shù)據(jù)科學(xué)中的一個(gè)重要應(yīng)用場(chǎng)景,涉及數(shù)據(jù)清洗、探索性分析、可視化、用戶行為分析、銷售趨勢(shì)分析等。
社交媒體情感分析案例:自然語(yǔ)言處理(NLP)中的一個(gè)重要應(yīng)用場(chǎng)景,旨在通過(guò)分析社交媒體上的文本數(shù)據(jù)(如推文、評(píng)論等)來(lái)判斷用戶的情感傾向(正面、負(fù)面或中性)。
財(cái)務(wù)大數(shù)據(jù)分析案例:數(shù)據(jù)科學(xué)在金融領(lǐng)域的重要應(yīng)用,涉及財(cái)務(wù)報(bào)表分析、趨勢(shì)預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估、組合優(yōu)化等任務(wù)。
政務(wù)大數(shù)據(jù)分析案例:利用大數(shù)據(jù)技術(shù)對(duì)政府相關(guān)數(shù)據(jù)進(jìn)行分析,以支持政策制定、資源分配、公共服務(wù)優(yōu)化等決策。
自媒體大數(shù)據(jù)分析案例:利用大數(shù)據(jù)技術(shù)對(duì)自媒體平臺(tái)(如微博、
李石明,博士,畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),主要研究方向?yàn)榇髷?shù)據(jù)、電子政務(wù)、企業(yè)管理等學(xué)科的教學(xué)和研究工作;近年來(lái),主持省部級(jí)以上課題4項(xiàng),參與課題2項(xiàng),出版《綠色未來(lái):ESG視角下的碳信息披露與企業(yè)價(jià)值重塑》《電子商務(wù)專業(yè)辦學(xué)特色的探索與實(shí)踐》專著2部,《公司戰(zhàn)略與風(fēng)險(xiǎn)管理》《Python編程:從入門到實(shí)踐》等教材4部,公開(kāi)發(fā)表SCI、CSSCI及北大核心期刊論文12篇。
目錄
第 1 部分 筑基篇——Python 與數(shù)據(jù)科學(xué)的橋梁
第1章 信息技術(shù)與計(jì)算機(jī)基礎(chǔ) / 2
1.1 信息社會(huì)與計(jì)算機(jī) / 3
1.1.1 信息與信息處理 / 3
1.1.2 計(jì)算機(jī)的起源與發(fā)展 / 4
1.1.3 計(jì)算機(jī)的分類和應(yīng)用領(lǐng)域 / 9
1.1.4 計(jì)算思維 / 11
1.2 計(jì)算機(jī)基礎(chǔ)知識(shí) / 13
1.2.1 信息編碼 / 13
1.2.2 計(jì)算機(jī)系統(tǒng) / 24
1.2.3 操作系統(tǒng)和文件 / 32
本章小結(jié) / 37
習(xí)題 / 38
第2章 Python編程基礎(chǔ) / 39
2.1 Python概述 / 40
2.1.1 產(chǎn)生背景 / 40
2.1.2 歷史發(fā)展 / 40
2.1.3 版本更迭 / 41
2.1.4 應(yīng)用分析 / 41
2.1.5 發(fā)展趨勢(shì) / 42
2.2 編程環(huán)境 / 42
2.2.1 安裝Python解釋器 / 43
2.2.2 選擇合適的IDE / 43
2.2.3 安裝常用的庫(kù)和工具 / 43
2.2.4 配置環(huán)境變量 / 43
2.2.5 測(cè)試和驗(yàn)證 / 44
2.3 基礎(chǔ)知識(shí) / 45
2.3.1 標(biāo)識(shí)符 / 45
2.3.2 變量 / 46
2.3.3 數(shù)據(jù)類型 / 46
2.3.4 字符串的表示及格式化 / 47
2.3.5 語(yǔ)句input/output / 48
2.4 流程控制 / 50
2.4.1 程序的基本結(jié)構(gòu) / 50
2.4.2 分支結(jié)構(gòu) / 50
2.4.3 循環(huán)結(jié)構(gòu) / 53
2.4.4 綜合案例 / 55
2.5 組合數(shù)據(jù)類型 / 61
2.5.1 列表及其操作 / 61
2.5.2 元組及其操作 / 64
2.5.3 字典及其操作 / 66
2.5.4 集合及其操作 / 68
2.6 函數(shù)和模塊 / 71
2.6.1 函數(shù) / 71
2.6.2 實(shí)操練習(xí):成績(jī)管理系統(tǒng) / 77
2.6.3 模塊 / 79
2.6.4 實(shí)操練習(xí):學(xué)生管理系統(tǒng) / 80
2.7 常用的庫(kù) / 82
2.7.1 隨機(jī)數(shù)random庫(kù) / 82
2.7.2 繪圖工具turtle庫(kù) / 83
2.7.3 中文分詞jieba庫(kù) / 85
2.7.4 詞云工具wordcloud庫(kù) / 85
本章小結(jié) / 86
習(xí)題 / 87
第3章 Python操作實(shí)踐 / 88
3.1 文件和目錄操作 / 89
3.1.1 基本概念 / 89
3.1.2 文件的打開(kāi)與關(guān)閉 / 89
3.1.3 文件的讀寫 / 90
3.1.4 文件和目錄的管理 / 91
3.1.5 實(shí)操練習(xí):文件和目錄管理 / 92
3.2 Word文檔處理 / 93
3.2.1 安裝 python-docx 庫(kù) / 93
3.2.2 創(chuàng)建新文檔 / 93
3.2.3 修改現(xiàn)有文檔 / 94
3.2.4 高級(jí)功能與擴(kuò)展功能 / 94
3.2.5 實(shí)操練習(xí):Word文檔處理 / 95
3.3 PDF文件處理 / 99
3.3.1 安裝 PyPDF2 和 pdfplumber / 99
3.3.2 內(nèi)容提取 / 99
3.3.3 合并與拆分 / 99
3.3.4 加密與解密 / 100
3.3.5 實(shí)操練習(xí):自動(dòng)生成報(bào)告 / 100
3.4 Excel電子表格處理 / 101
3.4.1 安裝依賴庫(kù) / 101
3.4.2 讀取Excel中的數(shù)據(jù) / 101
3.4.3 數(shù)據(jù)清洗與處理 / 101
3.4.4 將數(shù)據(jù)寫入Excel / 101
3.4.5 高級(jí)操作 / 101
3.4.6 實(shí)操練習(xí):自動(dòng)生成銷售數(shù)據(jù)分析報(bào)告 / 102
3.5 PPT演示文稿處理 / 102
3.5.1 安裝 python-pptx 庫(kù) / 102
3.5.2 創(chuàng)建基礎(chǔ)PPT / 103
3.5.3 高級(jí)功能 / 104
3.6 NumPy 科學(xué)計(jì)算庫(kù) / 105
3.6.1 Nu