![]() ![]() |
R語言數(shù)據(jù)分析項目全程實錄 ![]() 《R語言數(shù)據(jù)分析項目全程實錄》精選不同行業(yè)、不同分析方法及預(yù)測方法等8個熱門R語言數(shù)據(jù)分析項目,既可作為練手項目,也可應(yīng)用到實際數(shù)據(jù)分析工作中,其中的機器學(xué)習(xí)也可供參賽項目參考,總體來說各個項目實用性都非常強。具體項目包含學(xué)生成績統(tǒng)計分析、汽車數(shù)據(jù)可視化分析系統(tǒng)、泰坦尼克號數(shù)據(jù)集分析實戰(zhàn)、鳶尾花數(shù)據(jù)分析與預(yù)測、基于會員數(shù)據(jù)的探索和聚類分析、快團(tuán)團(tuán)訂單數(shù)據(jù)統(tǒng)計分析與關(guān)聯(lián)分析、抖音賬號運營數(shù)據(jù)分析與預(yù)測、基于diamonds(鉆石)數(shù)據(jù)集的分析與預(yù)測。本書從數(shù)據(jù)分析、機器學(xué)習(xí)的角度出發(fā),按照項目開發(fā)的順序,系統(tǒng)、全面地講解每一個項目的開發(fā)實現(xiàn)過程。在體例上,每章一個項目,統(tǒng)一采用“開發(fā)背景→系統(tǒng)設(shè)計→技術(shù)準(zhǔn)備→各功能模塊實現(xiàn)→項目運行→源碼下載”的形式完整呈現(xiàn)項目,給讀者明確的成就感,可以讓讀者快速積累實際數(shù)據(jù)分析的經(jīng)驗與技巧,早日實現(xiàn)就業(yè)目標(biāo)。 1.實戰(zhàn)導(dǎo)向,即學(xué)即用:本書精選學(xué)生成績統(tǒng)計、汽車數(shù)據(jù)可視化、泰坦尼克號數(shù)據(jù)分析、抖音運營預(yù)測等8個跨行業(yè)熱門R語言項目,覆蓋基礎(chǔ)統(tǒng)計、機器學(xué)習(xí)、關(guān)聯(lián)分析等核心技術(shù),既是新手練手的優(yōu)質(zhì)素材,更是職場人解決實際業(yè)務(wù)問題的“工具手冊”,項目代碼可直接遷移至工作場景,實用性拉滿!?2.體系化教學(xué),零門檻上手:不同于零散的教程,《R語言數(shù)據(jù)分析項目全程實錄》遵循“開發(fā)背景→系統(tǒng)設(shè)計→技術(shù)準(zhǔn)備→功能實現(xiàn)→項目運行→源碼下載”的項目開發(fā)流程,每章聚焦一個完整項目。讀者無需擔(dān)心思路斷裂,跟著步驟操作即可產(chǎn)出可落地的成果,快速積累真實數(shù)據(jù)分析經(jīng)驗,收獲清晰的學(xué)習(xí)成就感。?3.覆蓋多場景需求,適用人群廣泛:無論是R語言入門自學(xué)者想拓展實戰(zhàn)視野,統(tǒng)計學(xué)/計算機專業(yè)學(xué)生做實訓(xùn)或畢業(yè)設(shè)計,還是高校教師、IT講師尋找教學(xué)案例,亦或是數(shù)據(jù)分析從業(yè)者、求職者提升實戰(zhàn)能力——本書都能提供精準(zhǔn)助力。
前言
叢書說明:“軟件項目開發(fā)全程實錄”叢書第 1 版于 2008 年 6 月出版,因其定位于項目開發(fā)案例、面向?qū)嶋H開發(fā)應(yīng)用,并解決了社會需求和高校課程設(shè)置相對脫節(jié)的痛點,在軟件項目開發(fā)類圖書市場上產(chǎn)生了很大的反響,在軟件項目開發(fā)零售圖書排行榜中名列前茅。 “軟件項目開發(fā)全程實錄”叢書第 2 版于 2011 年 1 月出版,第 3 版于 2013 年 10 月出版,第 4 版于 2018 年 5 月出版。經(jīng)過十六年的錘煉打造,不僅深受廣大程序員的喜愛,還被百余所高校選為計算機科學(xué)、軟件工程等相關(guān)專業(yè)的教材及教學(xué)參考用書,更被廣大高校學(xué)子用作畢業(yè)設(shè)計和工作實習(xí)的參考用書。 “軟件項目開發(fā)全程實錄”叢書第 5 版在繼承前 4 版所有優(yōu)點的基礎(chǔ)上,進(jìn)行了大幅的改版升級。首先,結(jié)合當(dāng)前技術(shù)發(fā)展的趨勢與市場需求,增加了程序員求職急需的新圖書品種;其次,對圖書內(nèi)容進(jìn)行了深度更新、優(yōu)化,新增了當(dāng)前熱門的流行項目,優(yōu)化了原有經(jīng)典項目,將開發(fā)環(huán)境和工具更新為目前的新版本等,使之更與時代接軌,更適合讀者學(xué)習(xí);最后,錄制了全新的項目精講視頻,并配備了更加豐富的學(xué)習(xí)資源與服務(wù),可以給讀者帶來更好的項目學(xué)習(xí)及使用體驗。 隨著人工智能和機器學(xué)習(xí)的迅猛發(fā)展,R語言作為一種強大的統(tǒng)計分析工具,將更深入地融入這些技術(shù)中,以提升數(shù)據(jù)處理和模型構(gòu)建的能力。R語言社區(qū)也不斷推出新版本,優(yōu)化了性能,增加了新功能,特別是在機器學(xué)習(xí)、深度學(xué)習(xí)及大數(shù)據(jù)處理方面取得了顯著進(jìn)展。作為開源軟件的典范,R語言在范圍內(nèi)擁有龐大的用戶群體和活躍的社區(qū)支持。未來,R語言有望在以下幾個方面繼續(xù)深入發(fā)展。 (1)與人工智能的深度融合:R語言將進(jìn)一步整合先進(jìn)的機器學(xué)習(xí)算法和深度學(xué)習(xí)框架,如 TensorFlow和 PyTorch,提供更高效的模型訓(xùn)練和預(yù)測能力。這將使 R語言在自然語言處理、計算機視覺等前沿領(lǐng)域發(fā)揮更大作用。 (2)大數(shù)據(jù)處理能力的提升:隨著數(shù)據(jù)量的爆炸式增長,R語言將繼續(xù)優(yōu)化其與 Hadoop、Spark等大數(shù)據(jù)平臺的集成,提升處理海量數(shù)據(jù)的效率。同時,R語言將引入更多并行計算和分布式計算技術(shù),以應(yīng)對復(fù)雜的數(shù)據(jù)分析任務(wù)。 (3)數(shù)據(jù)隱私與安全的強化:隨著數(shù)據(jù)隱私法規(guī)的日益嚴(yán)格,R語言將進(jìn)一步加強數(shù)據(jù)加密、匿名化處理等功能,確保用戶數(shù)據(jù)的安全性和合規(guī)性。這將使 R語言在金融、醫(yī)療等對數(shù)據(jù)安全要求極高的領(lǐng)域更具競爭力。 (4)跨平臺與跨語言的協(xié)作:R語言將更加注重與其他編程語言(如 Python、Julia)的互操作性,推動跨平臺的數(shù)據(jù)分析和模型開發(fā)。這將使 R語言用戶能夠更靈活地利用不同工具的優(yōu)勢,提升工作效率。 (5)教育與培訓(xùn)的普及:隨著 R語言應(yīng)用場景的擴(kuò)展,范圍內(nèi)針對掌握 R語言的教育和培訓(xùn)需求也將大幅增加。R語言社區(qū)將繼續(xù)推動在線課程、教材和認(rèn)證項目的發(fā)展,幫助更多初學(xué)者和專業(yè)人士掌握這一工具。 (6)行業(yè)應(yīng)用的拓展:除了傳統(tǒng)的統(tǒng)計分析領(lǐng)域,R語言將在更多新興行業(yè)中找到應(yīng)用場景。例如,在智能汽車領(lǐng)域,R語言可以用于車輛數(shù)據(jù)的實時分析和預(yù)測;在金融科技領(lǐng)域,R語言可以用于風(fēng)險評估和量化交易;在醫(yī)療健康領(lǐng)域,R語言可以用于基因組數(shù)據(jù)分析和疾病預(yù)測。 總之,R語言作為數(shù)據(jù)科學(xué)領(lǐng)域的重要工具,將繼續(xù)在技術(shù)創(chuàng)新和行業(yè)應(yīng)用中發(fā)揮重要作用。隨著數(shù)據(jù)驅(qū)動決策的趨勢不斷加強,R語言的重要性將愈發(fā)凸顯,成為未來數(shù)據(jù)分析和人工智能領(lǐng)域不可或缺的一部分。 本書以中小型項目為載體,帶領(lǐng)讀者切身感受數(shù)據(jù)分析在各個領(lǐng)域應(yīng)用的實際過程,從而提升數(shù)據(jù)分析技能和數(shù)據(jù)分析項目經(jīng)驗,掌握各種分析方法以及預(yù)測方法。全書內(nèi)容不是枯燥的語法和陌生的術(shù)語,而是一步一步地引導(dǎo)讀者實現(xiàn)一個個熱門的項目,從而激發(fā)讀者學(xué)習(xí)數(shù)據(jù)分析的興趣,變被動學(xué)習(xí)為主動學(xué)習(xí)。另外,本書的項目開發(fā)過程完整,可以應(yīng)用到實際工作中,本書可以作為數(shù)據(jù)分析師以及從事數(shù)據(jù)相關(guān)工作的人員提升數(shù)據(jù)分析項目經(jīng)驗的工具書,同時也可以作為大學(xué)生畢業(yè)設(shè)計的項目參考用書。 本書內(nèi)容 本書提供不同行業(yè)、不同分析方法及預(yù)測方法等 8 個熱門 R語言數(shù)據(jù)分析項目,具體項目包括:學(xué)生成績統(tǒng)計分析、汽車數(shù)據(jù)可視化分析系統(tǒng)、泰坦尼克號數(shù)據(jù)集分析實戰(zhàn)、鳶尾花數(shù)據(jù)分析與預(yù)測、基于會員數(shù)據(jù)的探索和聚類分析、快團(tuán)團(tuán)訂單數(shù)據(jù)統(tǒng)計分析與關(guān)聯(lián)分析、抖音賬號運營數(shù)據(jù)分析與預(yù)測、基于 diamonds(鉆石)數(shù)據(jù)集的分析與預(yù)測。 本書特點 (1)項目典型。本書精選 8 個熱點項目。所有項目均是當(dāng)前實際開發(fā)領(lǐng)域常見的熱門項目,且均從實際應(yīng)用角度出發(fā)展開系統(tǒng)性的講解,可以讓讀者從項目學(xué)習(xí)中積累豐富的數(shù)據(jù)分析經(jīng)驗。 (2)流程清晰。本書項目從軟件工程的角度出發(fā),統(tǒng)一采用“開發(fā)背景→系統(tǒng)設(shè)計→技術(shù)準(zhǔn)備→各功能模塊實現(xiàn)→項目運行→源碼下載”的形式呈現(xiàn)內(nèi)容,可以讓讀者更加清晰項目的完整開發(fā)流程,給讀者明確的成就感和信心。 (3)技術(shù)新穎。本書所有項目的實現(xiàn)技術(shù)均采用目前業(yè)內(nèi)推薦使用的穩(wěn)定版本,與時俱進(jìn),實用性極強。同時,項目全部配備“技術(shù)準(zhǔn)備”,對項目中用到的 R語言數(shù)據(jù)分析基本技術(shù)點、高級應(yīng)用、第三方 R包等進(jìn)行精要講解,在 R語言數(shù)據(jù)分析基礎(chǔ)和項目開發(fā)之間搭建了有效的橋梁,為僅有 R語言數(shù)據(jù)分析基礎(chǔ)的初級編程人員參與數(shù)據(jù)分析項目掃清了障礙。 (4)精彩欄目。本書根據(jù)項目學(xué)習(xí)的需要,在每個項目講解過程的關(guān)鍵位置添加了“注意”“說明”等特色欄目,點撥項目的開發(fā)要點和精華,以便讀者能更快地掌握相關(guān)技術(shù)的應(yīng)用技巧。 (5)源碼下載。本書每個項目最后都安排了“源碼下載”一節(jié),讀者能夠通過掃描對應(yīng)二維碼下載對應(yīng)項目的完整源碼,方便學(xué)習(xí)。 (6)項目視頻。本書為每個項目提供了開發(fā)及使用微視頻,使讀者能夠更加輕松地搭建、運行、使用項目,并能夠隨時隨地查看學(xué)習(xí)。 讀者對象:數(shù)據(jù)分析愛好者;高等院校的教師; R語言愛好者;IT培訓(xùn)機構(gòu)的教師與學(xué)員;提升數(shù)據(jù)分析技能的職場人員;數(shù)據(jù)分析師;參加畢業(yè)設(shè)計的學(xué)生;編程愛好者。 資源與服務(wù) 本書提供了大量的輔助學(xué)習(xí)資源,同時還提供了專業(yè)的知識拓展與答疑服務(wù),旨在幫助讀者提高學(xué)習(xí)效率并解決學(xué)習(xí)過程中遇到的各種疑難問題。讀者需要刮開圖書封底的刮刮卡,掃描并綁定微信,以獲取學(xué)習(xí)權(quán)限。 (1)開發(fā)環(huán)境搭建視頻。搭建環(huán)境對于項目開發(fā)非常重要,它確保項目開發(fā)在一致的環(huán)境下進(jìn)行,減少因環(huán)境差異導(dǎo)致的錯誤和沖突。通過搭建開發(fā)環(huán)境,可以方便地管理項目依賴,提高開發(fā)效率。本書提供了環(huán)境搭建的講解視頻,可以引導(dǎo)讀者快速準(zhǔn)確地搭建本書項目的開發(fā)環(huán)境。掃描二維碼即可觀看學(xué)習(xí)。 (2)項目精講視頻。本書每個項目均配有對應(yīng)的項目精講微視頻,主要針對項目的需求背景、應(yīng)用價值、功能結(jié)構(gòu)、業(yè)務(wù)流程、實現(xiàn)邏輯以及所用到的核心技術(shù)點進(jìn)行精要講解,可以幫助讀者了解項目概要,把握項目要領(lǐng),快速進(jìn)入學(xué)習(xí)狀態(tài)。掃描每章首頁的對應(yīng)二維碼即可觀看學(xué)習(xí)。 (3)項目源碼。本書每章圍繞一個項目,系統(tǒng)全面地講解了該項目的前后端設(shè)計及實現(xiàn)過程。為了方便讀者學(xué)習(xí),本書提供了完整的項目源碼(包含項目中用到的所有素材,如圖片、數(shù)據(jù)表等)。掃描每章最后的二維碼即可下載。 (4)AI 輔助開發(fā)手冊。在人工智能浪潮的席卷之下,AI大模型工具呈現(xiàn)百花齊放之態(tài),輔助編程開發(fā)的代碼助手類工具不斷涌現(xiàn), 明日科技,全稱是吉林省明日科技有限公司,是一家專業(yè)從事軟件開發(fā)、教育培訓(xùn)以及軟件開發(fā)教育資源整合的高科技公司,其編寫的教材非常注重選取軟件開發(fā)中的必需、常用內(nèi)容,同時也很注重內(nèi)容的易學(xué)、方便性以及相關(guān)知識的拓展性,深受讀者喜愛。其教材多次榮獲“全行業(yè)暢銷品種”“高校出版社暢銷書”等獎項,多個品種長期位居同類圖書銷售排行榜的前列。
目錄
第1章 學(xué)生成績統(tǒng)計分析 1 ——openxlsx + 數(shù)據(jù)計算 + 分組統(tǒng)計 +基本繪圖 1.1 開發(fā)背景 1 1.2 系統(tǒng)設(shè)計 2 1.2.1 開發(fā)環(huán)境 2 1.2.2 分析流程 2 1.2.3 功能結(jié)構(gòu) 2 1.3 技術(shù)準(zhǔn)備 2 1.3.1 技術(shù)概覽 2 1.3.2 VIM 包 3 1.3.3 rank()函數(shù)詳細(xì)解析 4 1.4 前期工作 6 1.4.1 安裝第三方R 包 6 1.4.2 新建工程 6 1.4.3 新建項目文件夾 8 1.5 數(shù)據(jù)準(zhǔn)備 8 1.5.1 數(shù)據(jù)集介紹 8 1.5.2 讀取數(shù)據(jù) 10 1.6 數(shù)據(jù)預(yù)處理 12 1.6.1 查看數(shù)據(jù) 12 1.6.2 缺失值查看與處理 13 1.6.3 描述性統(tǒng)計量 14 1.7 數(shù)據(jù)統(tǒng)計分析 15 1.7.1 綜合排名 15 1.7.2 直方圖分析各科成績 17 1.7.3 箱形圖分析各科成績 18 1.7.4 各科最高分和最低分狀況分析 19 1.7.5 各科中上等成績統(tǒng)計分析 20 1.7.6 語數(shù)英成績等級狀況分析 22 1.7.7 成績波動情況分析 23 1.7.8 個人成績排名分析 24 1.8 項目運行 25 1.9 源碼下載 26 第2章 汽車數(shù)據(jù)可視化分析系統(tǒng) 27 ——分組統(tǒng)計 + 基本繪圖 + ggplot2 + 相關(guān)性分析 2.1 開發(fā)背景 27 2.2 系統(tǒng)設(shè)計 28 2.2.1 開發(fā)環(huán)境 28 2.2.2 分析流程 28 2.2.3 功能結(jié)構(gòu) 28 2.3 技術(shù)準(zhǔn)備 29 2.3.1 技術(shù)概覽 29 2.3.2 ordered()函數(shù)的應(yīng)用 29 2.3.3 詳解 pairs.panels()函數(shù) 30 2.3.4 了解 coplot()函數(shù) 32 2.4 前期工作 34 2.4.1 安裝第三方R 包 34 2.4.2 新建項目文件夾 34 2.5 數(shù)據(jù)集介紹 35 2.6 數(shù)據(jù)預(yù)處理 36 2.6.1 導(dǎo)入 mtcars 數(shù)據(jù)集 36 2.6.2 查看數(shù)據(jù) 36 2.6.3 缺失值查看 37 2.6.4 描述性統(tǒng)計分析 37 2.7 數(shù)據(jù)統(tǒng)計分析 39 2.7.1 矩陣圖分析相關(guān)性 39 2.7.2 相關(guān)系數(shù)分析相關(guān)性 40 2.7.3 箱形圖分析氣缸數(shù)與里程數(shù) 41 2.7.4 箱形圖分析變速器與里程數(shù) 42 2.7.5 散點圖分析重量與里程數(shù) 43 2.7.6 氣缸數(shù)、里程數(shù)和排量之間的關(guān)系 43 2.7.7 里程數(shù)、總馬力和重量之間的關(guān)系 44 2.8 項目運行 45 2.9 源碼下載 46 第3章 泰坦尼克號數(shù)據(jù)集分析實戰(zhàn) 47 ——數(shù)據(jù)計算 + 分組統(tǒng)計 + ggplot2 + pie+reshape2 3.1 開發(fā)背景 48 3.2 系統(tǒng)設(shè)計 48 3.2.1 開發(fā)環(huán)境 48 3.2.2 分析流程 48 3.2.3 功能結(jié)構(gòu) 48 3.3 技術(shù)準(zhǔn)備 49 3.3.1 技術(shù)概覽 49 3.3.2 批量數(shù)據(jù)類型轉(zhuǎn)換 49 3.3.3 詳解 group_by()函數(shù) 50 3.3.4 巧用管道符%>% 51 3.4 前期工作 51 3.4.1 安裝第三方R 包 51 3.4.2 新建項目文件夾 52 3.5 數(shù)據(jù)準(zhǔn)備 53 3.5.1 數(shù)據(jù)集介紹 53 3.5.2 讀取數(shù)據(jù) 54 3.6 數(shù)據(jù)預(yù)處理 55 3.6.1 查看數(shù)據(jù)信息 55 3.6.2 缺失值分析與處理 55 3.7 基本統(tǒng)計分析 58 3.7.1 乘客年齡分析 58 3.7.2 乘客性別分析 60 3.7.3 不同性別乘客的年齡分布情況 61 3.7.4 不同年齡乘客親屬數(shù)量分析 61 3.7.5 船艙等級情況分析 63 3.7.6 票價分布情況 64 3.8 乘客生存情況分析 65 3.8.1 總體生存情況分析 65 3.8.2 不同等級船艙乘客生存情況分析 65 3.8.3 各個登船港口乘客生存情況分析 66 3.8.4 性別與乘客生存情況分析 68 3.8.5 年齡和性別與乘客生存情況分析 70 3.8.6 乘客親屬數(shù)量與生存情況分析 71 3.9 項目運行 73 3.10 源碼下載 74 第4章 鳶尾花數(shù)據(jù)分析與預(yù)測 75 ——基本繪圖 + ggplot2 + lattice + caret +隨機森林 randomForest 包 4.1 開發(fā)背景 76 4.2 系統(tǒng)設(shè)計 76 4.2.1 開發(fā)環(huán)境 76 4.2.2 分析流程 76 4.2.3 功能結(jié)構(gòu) 77 4.3 技術(shù)準(zhǔn)備 77 4.3.1 技術(shù)概覽 77 4.3.2 scale()函數(shù)詳解 77 4.3.3 訓(xùn)練集和測試集劃分 78 4.3.4 隨機森林 randomForest 包 79 4.4 前期工作 84 4.4.1 安裝第三方R 包 84 4.4.2 新建項目文件夾 85 4.4.3 認(rèn)識鳶尾花 86 4.4.4 了解鳶尾花數(shù)據(jù)集 iris 86 4.5 查看數(shù)據(jù)概況 86 4.5.1 加載數(shù)據(jù) 86 4.5.2 查看數(shù)據(jù) 87 4.6 描述性統(tǒng)計分析 87 4.6.1 查看數(shù)據(jù)統(tǒng)計信息 87 4.6.2 分組查看數(shù)據(jù)統(tǒng)計信息 88 4.7 數(shù)據(jù)統(tǒng)計分析 89 4.7.1 繪制花萼長度的箱形圖 89 4.7.2 繪制花瓣長度的箱形圖 89 4.7.3 鳶尾花最常見的花瓣 90 4.7.4 直方圖分析鳶尾花花瓣長度 90 4.8 相關(guān)性分析 91 4.8.1 相關(guān)系數(shù)分析 91 4.8.2 各特征之間關(guān)系矩陣圖 92 4.8.3 散點圖分析鳶尾花花瓣長度和寬度的關(guān)系 93 4.8.4 散點圖分析鳶尾花花萼長度和寬度的關(guān)系 94 4.8.5 鳶尾花的線性關(guān)系分析 95 4.9 隨機森林預(yù)測鳶尾花種類 95 4.9.1 數(shù)據(jù)標(biāo)準(zhǔn)化處理 95 4.9.2 劃分訓(xùn)練集和測試集 96 4.9.3 構(gòu)建隨機森林模型 97 4.9.4 預(yù)測鳶尾花種類 98 4.9.5 評估模型性能 98 4.10 項目運行 98 4.11 源碼下載 99 第5章 基于會員數(shù)據(jù)的探索和聚類分析 100 ——日期時間 + 分組統(tǒng)計 + 基本繪圖 + RFM 模型 + NbClust+wskm+cluster 5.1 開發(fā)背景 101 5.2 系統(tǒng)設(shè)計 101 5.2.1 開發(fā)環(huán)境 101 5.2.2 分析流程 101 5.2.3 功能結(jié)構(gòu) 102 5.3 技術(shù)準(zhǔn)備 102 5.3.1 技術(shù)概覽 102 5.3.2 3 種方法統(tǒng)計各列缺失值 102 5.3.3 RFM 模型 103 5.3.4 k 均值聚類分析 104 5.3.5 聚類方案NbClust 包 106 5.3.6 聚類可視化 107 5.4 前期工作 109 5.4.1 安裝第三方R 包 109 5.4.2 新建項目文件夾 109 5.5 數(shù)據(jù)準(zhǔn)備 110 5.6 數(shù)據(jù)預(yù)處理 111 5.6.1 數(shù)據(jù)預(yù)覽 111 5.6.2 日期時間數(shù)據(jù)處理 112 5.6.3 缺失性分析 113 5.6.4 計算RFM 值 114 5.7 數(shù)據(jù)統(tǒng)計分析 115 5.7.1 消費周期分析 115 5.7.2 消費頻次分析 116 5.7.3 消費金額分析 117 5.8 K-means 聚類分析 118 5.8.1 數(shù)據(jù)標(biāo)準(zhǔn)化 118 5.8.2 聚類方案 119 5.8.3 K 均值聚類分析 120 5.9 項目運行 121 5.10 源碼下載 122 第6章 快團(tuán)團(tuán)訂單數(shù)據(jù)統(tǒng)計分析與關(guān)聯(lián)分析 123 ——分組統(tǒng)計 + 數(shù)據(jù)合并 + 基本繪圖 + ggplot2 + Apriori 關(guān)聯(lián)分析 + arules 6.1 開發(fā)背景 124 6.2 系統(tǒng)設(shè)計 124 6.2.1 開發(fā)環(huán)境 124 6.2.2 分析流程 124 6.2.3 功能結(jié)構(gòu) 124 6.3 技術(shù)準(zhǔn)備 125 6.3.1 技術(shù)概覽 125 6.3.2 繪圖排序 reorder()函數(shù) 125 6.3.3 詳解 ggplot2 包的主題函數(shù) theme() 126 6.3.4 Apriori 關(guān)聯(lián)分析 127 6.3.5 詳解 arules 包 128 6.4 前期工作 130 6.4.1 新建項目文件夾 130 6.4.2 數(shù)據(jù)準(zhǔn)備 131 6.5 數(shù)據(jù)預(yù)處理 132 6.5.1 查看數(shù)據(jù) 132 6.5.2 缺失性分析 133 6.5.3 描述性統(tǒng)計分析 133 6.5.4 異常數(shù)據(jù)處理 134 6.6 數(shù)據(jù)統(tǒng)計分析 135 6.6.1 柱形圖分析商品數(shù)量 135 6.6.2 訂單商品數(shù)量分布情況 135 6.6.3 直方圖分析訂單商品金額 137 6.6.4 區(qū)域訂單數(shù)量分析 138 6.6.5 城市訂單數(shù)量分析 139 6.7 訂單商品關(guān)聯(lián)分析 141 6.7.1 數(shù)據(jù)處理 141 6.7.2 可視化頻繁項 143 6.7.3 關(guān)聯(lián)分析 143 6.8 項目運行 145 6.9 源碼下載 146 第7章 抖音賬號運營數(shù)據(jù)分析與預(yù)測 147 ——purrr + 日期處理 + tibble + 基本繪圖 + ggplot2 + 回歸分析 7.1 開發(fā)背景 148 7.2 系統(tǒng)設(shè)計 148 7.2.1 開發(fā)環(huán)境 148 7.2.2 分析流程 148 7.2.3 功能結(jié)構(gòu) 148 7.3 技術(shù)準(zhǔn)備 149 7.3.1 技術(shù)概覽 149 7.3.2 map()函數(shù)與 reduce()函數(shù)的優(yōu)質(zhì)結(jié)合 149 7.3.3 column_to_rownames()函數(shù)的應(yīng)用 150 7.4 前期工作 152 7.4.1 安裝第三方R 包 152 7.4.2 新建項目文件夾 153 7.5 數(shù)據(jù)準(zhǔn)備 154 7.5.1 數(shù)據(jù)下載 154 7.5.2 數(shù)據(jù)集介紹 154 7.6 數(shù)據(jù)預(yù)處理 155 7.6.1 數(shù)據(jù)合并 155 7.6.2 查看數(shù)據(jù) 157 7.6.3 數(shù)據(jù)類型轉(zhuǎn)換 158 7.6.4 描述性統(tǒng)計分析 158 7.7 數(shù)據(jù)統(tǒng)計分析 159 7.7.1 播放量趨勢分析 159 7.7.2 粉絲凈增長趨勢分析 160 7.7.3 主頁訪問數(shù)據(jù)分析 161 7.7.4 作品數(shù)據(jù)分析 162 7.7.5 星期播放量分析 163 7.8 相關(guān)性分析 165 7.8.1 矩陣圖分析相關(guān)性 165 7.8.2 相關(guān)系數(shù)分析相關(guān)性 165 7.8.3 散點圖分析播放量與凈增粉絲 167 7.8.4 氣泡圖分析播放量、凈增粉絲與主頁訪問 168 7.9 凈增粉絲預(yù)測 169 7.9.1 一元線性回歸預(yù)測凈增粉絲 169 7.9.2 多元線性回歸預(yù)測凈增粉絲 171 7.10 項目運行 172 7.11 源碼下載 173 第8章 基于 diamonds(鉆石)數(shù)據(jù)集的分析與預(yù)測 174 ——ggplot2 + 分組統(tǒng)計 + 相關(guān)性分析 + kruskal.test + 多元線性回歸 8.1 開發(fā)背景 175 8.2 系統(tǒng)設(shè)計 175 8.2.1 開發(fā)環(huán)境 175 8.2.2 分析流程 175 8.2.3 功能結(jié)構(gòu) 176 8.3 技術(shù)準(zhǔn)備 176 8.3.1 技術(shù)概覽 176 8.3.2 IQR 方法 176 8.3.3 分類變量異常值檢測常用方法 177 8.3.4 異常值處理方法 178 8.3.5 詳解 kruskal.test()函數(shù) 179 8.4 前期工作 180 8.4.1 安裝第三方R 包 180 8.4.2 新建項目文件夾 180 8.5 數(shù)據(jù)集介紹 181 8.5.1 數(shù)據(jù)集概述 181 8.5.2 變量說明 181 8.5.3 數(shù)據(jù)集特點 182 8.6 數(shù)據(jù)預(yù)處理 182 8.6.1 導(dǎo)入 diamonds 數(shù)據(jù)集 182 8.6.2 查看數(shù)據(jù) 183 8.6.3 描述性統(tǒng)計分析 184 8.7 異常值分析與處理 184 8.7.1 異常值分析 184 8.7.2 異常值檢測 185 8.7.3 異常值處理 187 8.8 數(shù)據(jù)統(tǒng)計分析 188 8.8.1 鉆石深度和臺面分析 188 8.8.2 鉆石切工、顏色和凈度分析 188 8.8.3 鉆石價格分析 190 8.9
你還可能感興趣
我要評論
|