![]() ![]() |
大數(shù)據(jù)分析與處理:實(shí)踐者的研究方法 車(chē)海鶯 薛靜鋒 金福生 商亮 ![]()
本書(shū)融合作者多年的教學(xué)與實(shí)踐經(jīng)驗(yàn),是一本全面且實(shí)用的大數(shù)據(jù)分析與處理教材。全書(shū)分為六部分共20章,內(nèi)容循序漸進(jìn),從大數(shù)據(jù)的基本概念出發(fā),逐步深入探討數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、大數(shù)據(jù)分析平臺(tái)以及大數(shù)據(jù)應(yīng)用等關(guān)鍵環(huán)節(jié)。本書(shū)詳細(xì)介紹了PyTorch、TensorFlow和Spark MLlib等熱門(mén)大數(shù)據(jù)分析平臺(tái),并通過(guò)深入剖析和實(shí)戰(zhàn)演練,幫助讀者輕松掌握這些先進(jìn)工具的使用技巧。同時(shí),本書(shū)針對(duì)數(shù)據(jù)可視化、文本分析、推薦系統(tǒng)等經(jīng)典應(yīng)用場(chǎng)景,通過(guò)案例分析和代碼實(shí)現(xiàn),引導(dǎo)讀者從理論走向?qū)嵺`,快速掌握大數(shù)據(jù)分析的核心技能。本書(shū)適合作為普通高校數(shù)據(jù)科學(xué)與大數(shù)據(jù)相關(guān)專(zhuān)業(yè)的教材,也適合相關(guān)專(zhuān)業(yè)的技術(shù)人員使用。
本書(shū)以六篇架構(gòu)串聯(lián)理論與實(shí)踐,從數(shù)據(jù)預(yù)處理到推薦系統(tǒng)、知識(shí)圖譜等應(yīng)用場(chǎng)景,配套案例代碼與學(xué)堂在線慕課,助你快速具備工程落地能力。
前 言在人工智能迅速發(fā)展的今天,數(shù)據(jù)與算法、算力共同構(gòu)成人工智能的三大基本要素,發(fā)揮著至關(guān)重要的作用。其中,高質(zhì)量的數(shù)據(jù)是人工智能性能的重要基石。大數(shù)據(jù)分析不僅成為企業(yè)創(chuàng)新和政府決策的關(guān)鍵支撐,更是推動(dòng)人工智能與大模型性能持續(xù)提升的原動(dòng)力。為順應(yīng)人工智能時(shí)代對(duì)高質(zhì)量數(shù)據(jù)分析能力的需求,我們結(jié)合多年大數(shù)據(jù)分析課程教學(xué)的經(jīng)驗(yàn)與成果,經(jīng)過(guò)近兩年的精心籌備與編寫(xiě),推出了本書(shū)。本書(shū)旨在為廣大讀者提供一個(gè)全面、系統(tǒng)且實(shí)用的大數(shù)據(jù)分析學(xué)習(xí)指南。我們不僅深入講解了大數(shù)據(jù)分析的原理和方法,還提供了豐富的案例代碼,幫助讀者從理論走向?qū)嵺`,提高大數(shù)據(jù)分析工程實(shí)踐能力。通過(guò)學(xué)習(xí)本書(shū),讀者將能夠掌握大數(shù)據(jù)分析的核心概念、原理和技術(shù),了解大數(shù)據(jù)分析平臺(tái)的應(yīng)用,并具備在實(shí)際項(xiàng)目中運(yùn)用大數(shù)據(jù)分析解決問(wèn)題的能力。全書(shū)共分為六部分,每一部分都圍繞大數(shù)據(jù)分析的關(guān)鍵環(huán)節(jié)展開(kāi),力求為讀者構(gòu)建一個(gè)完整、系統(tǒng)的學(xué)習(xí)體系。第一部分為緒論,在此部分中簡(jiǎn)要介紹了大數(shù)據(jù)的基本概念、發(fā)展歷程及其在各個(gè)領(lǐng)域的應(yīng)用價(jià)值,為后續(xù)章節(jié)的學(xué)習(xí)打下堅(jiān)實(shí)的理論基礎(chǔ)。第二部分為數(shù)據(jù)采集和預(yù)處理,此部分涵蓋了數(shù)據(jù)源的識(shí)別與選擇、數(shù)據(jù)抽取與清洗、數(shù)據(jù)轉(zhuǎn)換與歸約等關(guān)鍵步驟,確保讀者能夠掌握高質(zhì)量數(shù)據(jù)的獲取方法。第三部分為數(shù)據(jù)存儲(chǔ),在此部分中深入探討了數(shù)據(jù)物理存儲(chǔ)系統(tǒng)和邏輯存儲(chǔ)系統(tǒng)的相關(guān)原理,介紹了數(shù)據(jù)建模、分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫(kù)以及圖數(shù)據(jù)庫(kù)等先進(jìn)技術(shù),旨在幫助讀者理解如何構(gòu)建高效、穩(wěn)定的數(shù)據(jù)存儲(chǔ)環(huán)境。第四部分為數(shù)據(jù)處理,在此部分中全面介紹了各種數(shù)據(jù)處理系統(tǒng)的技術(shù)和方法,包括批數(shù)據(jù)處理、流數(shù)據(jù)處理、分布式圖處理、處理架構(gòu)、內(nèi)存計(jì)算以及數(shù)據(jù)處理算法等,幫助讀者掌握不同大數(shù)據(jù)處理模型的核心技術(shù)。第五部分為大數(shù)據(jù)分析平臺(tái),在此部分中重點(diǎn)介紹了PyTorch、TensorFlow和Spark MLlib這三個(gè)主流的大數(shù)據(jù)分析平臺(tái),深入剖析了它們的框架原理、優(yōu)勢(shì)特點(diǎn)以及使用技巧,并通過(guò)實(shí)驗(yàn)案例幫助讀者掌握這些大數(shù)據(jù)分析平臺(tái)的使用方法和技巧。第六部分為大數(shù)據(jù)應(yīng)用,在此部分中精心選擇了幾種經(jīng)典的大數(shù)據(jù)應(yīng)用場(chǎng)景,包括數(shù)據(jù)可視化、文本分析、推薦系統(tǒng)、知識(shí)圖譜以及社交網(wǎng)絡(luò)分析等,詳細(xì)介紹了這些應(yīng)用的流程,并輔以案例分析和實(shí)現(xiàn)代碼,幫助讀者深入理解各種典型大數(shù)據(jù)分析應(yīng)用的原理與實(shí)現(xiàn)過(guò)程。此外,為了方便讀者學(xué)習(xí),我們還提供了大數(shù)據(jù)分析慕課作為本書(shū)的輔助學(xué)習(xí)資源。這些慕課內(nèi)容豐富、講解生動(dòng),可以幫助讀者更好地理解和掌握大數(shù)據(jù)分析的相關(guān)知識(shí)。同時(shí),本書(shū)也提供了實(shí)驗(yàn)源代碼以及習(xí)題解析,這些學(xué)習(xí)資源可以通過(guò)掃描以下二維碼獲取。眾多研究生和本科生都熱情參與了本書(shū)的編寫(xiě)工作。他們不僅協(xié)助我們完成了大量的撰寫(xiě)與校對(duì)工作,還為我們提供了寶貴的意見(jiàn)和建議。在此,我們要特別感謝葉潤(rùn)枝、呂寧、楊婧、吳國(guó)承、李灝、賈星辰、鐘文清、韓若嘉、趙羽風(fēng)、魏夢(mèng)青、劉炳輝、陳軼飛、羅森、李艷茹、鞏傳龍、鄒瑩、馬旭騰、萬(wàn)李錦芬、戚嘉亮、肖天一、張易從、張博凡、張卓遠(yuǎn)、張延碩、陳伊琳、張博漢、許婧雯等同學(xué)的大力支持和辛勤付出。最后,我們衷心希望本書(shū)能夠成為廣大讀者在大數(shù)據(jù)分析領(lǐng)域?qū)W習(xí)和實(shí)踐的有力助手,幫助讀者不斷提升自己的大數(shù)據(jù)分析能力和工程實(shí)踐能力。同時(shí),我們也歡迎讀者提出寶貴的意見(jiàn)和建議,以便我們不斷完善和提升本書(shū)的質(zhì)量。讓我們攜手共進(jìn),迎接人工智能時(shí)代的挑戰(zhàn)與機(jī)遇,共同創(chuàng)造美好的未來(lái)!
車(chē)海鶯 北京理工大學(xué)計(jì)算機(jī)學(xué)院數(shù)據(jù)科學(xué)與知識(shí)工程研究所副教授。北京理工大學(xué)博士,德國(guó)Karlsruhe大學(xué)信息工程博士后。美國(guó)史蒂文斯理工學(xué)院訪問(wèn)學(xué)者。研究方向包括大數(shù)據(jù)分析、人工智能、區(qū)塊鏈技術(shù)等,相關(guān)領(lǐng)域發(fā)表高水平學(xué)術(shù)文章20余篇,發(fā)明專(zhuān)利3項(xiàng)。 講授課程包括全英文大數(shù)據(jù)分析、軟件工程、信息管理等。具有豐富的工程項(xiàng)目經(jīng)驗(yàn),作為主要完成人參與完成多項(xiàng)科技部重點(diǎn)研發(fā)計(jì)劃項(xiàng)目和國(guó)家自然基金項(xiàng)目。獲得2024年華為產(chǎn)學(xué)合作項(xiàng)目,2024年拓金計(jì)劃項(xiàng)目“大數(shù)據(jù)分析”,2023年國(guó)家一流本科課程(線上一流課程:大數(shù)據(jù)技術(shù)導(dǎo)論)主要成員,2022年北京理工大學(xué)迪文優(yōu)秀教師、2021年華為棟梁之師,重點(diǎn)教改項(xiàng)目等獎(jiǎng)項(xiàng)。獲得IBM全球共享研究計(jì)劃項(xiàng)目獎(jiǎng),IBM全球?qū)W者獎(jiǎng)(Faculty Awards),2015、2017、2019、2020年國(guó)家留學(xué)基金委IBM優(yōu)秀教師獎(jiǎng)教金等多項(xiàng)獎(jiǎng)勵(lì)。出版教材專(zhuān)著3部。獨(dú)立完成慕課4門(mén)(英文大數(shù)據(jù)分析、中文大數(shù)據(jù)分析、大數(shù)據(jù)時(shí)代的創(chuàng)新思維和軟件理論與工程),參與建設(shè)慕課1門(mén)(大數(shù)據(jù)技術(shù)導(dǎo)論)。社會(huì)職務(wù)包括歐美同學(xué)會(huì)德奧分會(huì)理事,SAP學(xué)術(shù)與教育工作委員會(huì)委員等。薛靜鋒 博士,現(xiàn)任北京理工大學(xué)計(jì)算機(jī)學(xué)院副院長(zhǎng)、教授、博士生導(dǎo)師,軟件評(píng)測(cè)中心主任,兼任高等學(xué)校大學(xué)計(jì)算機(jī)課程教學(xué)指導(dǎo)委員會(huì)委員,全國(guó)高等院校計(jì)算機(jī)基礎(chǔ)教育研究會(huì)理工專(zhuān)委會(huì)秘書(shū)長(zhǎng),中國(guó)人工智能學(xué)會(huì)理事、智能信息網(wǎng)絡(luò)專(zhuān)委會(huì)秘書(shū)長(zhǎng)。發(fā)表SCI/EI檢索論文60余篇,申請(qǐng)國(guó)家發(fā)明專(zhuān)利30余項(xiàng),編寫(xiě)教材6部。
目 錄前言第一部分 緒論第1章 概述21.1 大數(shù)據(jù)的基本概念21.1.1 大數(shù)據(jù)的概念21.1.2 大數(shù)據(jù)的來(lái)源21.2 結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)31.2.1 結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)41.2.2 非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)41.3 大數(shù)據(jù)的特征51.3.1 規(guī)模性61.3.2 多樣性61.3.3 高速性61.3.4 價(jià)值性61.3.5 真實(shí)性71.4 科學(xué)研究的第四范式71.4.1 科學(xué)研究的第四范式的 發(fā)展歷程71.4.2 第四范式的概念和特點(diǎn)91.5 大數(shù)據(jù)的生命周期111.5.1 數(shù)據(jù)采集121.5.2 數(shù)據(jù)存儲(chǔ)121.5.3 數(shù)據(jù)整合131.5.4 數(shù)據(jù)呈現(xiàn)與使用131.5.5 數(shù)據(jù)分析與應(yīng)用131.5.6 數(shù)據(jù)歸檔141.5.7 數(shù)據(jù)銷(xiāo)毀151.6 大數(shù)據(jù)的處理流程151.6.1 數(shù)據(jù)采集161.6.2 數(shù)據(jù)存儲(chǔ)161.6.3 數(shù)據(jù)治理161.6.4 數(shù)據(jù)分析171.6.5 數(shù)據(jù)應(yīng)用171.7 大數(shù)據(jù)的架構(gòu)171.7.1 數(shù)據(jù)存儲(chǔ)系統(tǒng)181.7.2 數(shù)據(jù)處理系統(tǒng)191.7.3 數(shù)據(jù)應(yīng)用系統(tǒng)20總結(jié)20習(xí)題20第二部分 數(shù)據(jù)采集和預(yù)處理第2章 大數(shù)據(jù)的采集222.1 內(nèi)部數(shù)據(jù)222.1.1 內(nèi)部數(shù)據(jù)概述222.1.2 內(nèi)部數(shù)據(jù)的價(jià)值232.1.3 內(nèi)部數(shù)據(jù)的采集242.2 外部數(shù)據(jù)262.2.1 外部數(shù)據(jù)概述262.2.2 淺網(wǎng)數(shù)據(jù)282.2.3 深網(wǎng)數(shù)據(jù)32總結(jié)34習(xí)題34第3章 大數(shù)據(jù)的預(yù)處理353.1 數(shù)據(jù)預(yù)處理概述353.1.1 數(shù)據(jù)預(yù)處理的意義353.1.2 數(shù)據(jù)預(yù)處理的方法353.2 數(shù)據(jù)質(zhì)量363.2.1 單一數(shù)據(jù)源數(shù)據(jù)質(zhì)量問(wèn)題363.2.2 多數(shù)據(jù)源數(shù)據(jù)質(zhì)量問(wèn)題373.3 數(shù)據(jù)清洗技術(shù)373.3.1 殘缺數(shù)據(jù)處理383.3.2 冗余數(shù)據(jù)處理383.3.3 噪聲數(shù)據(jù)處理383.4 數(shù)據(jù)轉(zhuǎn)換403.4.1 數(shù)據(jù)集成403.4.2 數(shù)據(jù)變換413.5 數(shù)據(jù)歸約423.5.1 維歸約433.5.2 數(shù)量歸約443.5.3 數(shù)據(jù)壓縮與變換45總結(jié)45習(xí)題45第三部分 數(shù)據(jù)存儲(chǔ)第4章 數(shù)據(jù)存儲(chǔ)系統(tǒng)484.1 數(shù)據(jù)建模484.1.1 數(shù)據(jù)建模概述484.1.2 如何對(duì)數(shù)據(jù)建模504.2 分布式文件系統(tǒng)534.2.1 分布式文件系統(tǒng)概述534.2.2 GFS554.2.3 HDFS574.2.4 主流分布式文件系統(tǒng)對(duì)比614.3 NoSQL數(shù)據(jù)庫(kù)634.3.1 NoSQL概述644.3.2 NoSQL分類(lèi)654.3.3 NoSQL與其他數(shù)據(jù)庫(kù)的關(guān)系674.4 統(tǒng)一數(shù)據(jù)訪問(wèn)接口68總結(jié)70習(xí)題71第5章 圖數(shù)據(jù)庫(kù)725.1 圖數(shù)據(jù)庫(kù)的發(fā)展725.1.1 圖數(shù)據(jù)庫(kù)的歷史725.1.2 圖數(shù)據(jù)庫(kù)的現(xiàn)狀和發(fā)展735.2 圖數(shù)據(jù)庫(kù)概述745.2.1 圖數(shù)據(jù)庫(kù)簡(jiǎn)介745.2.2 圖數(shù)據(jù)庫(kù)的定義755.2.3 圖數(shù)據(jù)庫(kù)的應(yīng)用765.2.4 圖數(shù)據(jù)庫(kù)未來(lái)的發(fā)展趨勢(shì)775.3 圖數(shù)據(jù)庫(kù)的特點(diǎn)及優(yōu)缺點(diǎn)785.3.1 圖數(shù)據(jù)庫(kù)的特點(diǎn)785.3.2 圖數(shù)據(jù)庫(kù)的優(yōu)缺點(diǎn)795.4 圖數(shù)據(jù)庫(kù)的主要技術(shù)805.4.1 圖數(shù)據(jù)庫(kù)的數(shù)據(jù)模型805.4.2 圖數(shù)據(jù)庫(kù)的存儲(chǔ)引擎825.4.3 圖數(shù)據(jù)庫(kù)的操作語(yǔ)言835.4.4 圖數(shù)據(jù)庫(kù)的算法835.5 代表性圖數(shù)據(jù)庫(kù)—Neo4j845.5.1 Neo4j概述845.5.2 Neo4j圖數(shù)據(jù)庫(kù)的數(shù)據(jù)模型和 存儲(chǔ)結(jié)構(gòu)855.5.3 使用Neo4j的優(yōu)勢(shì)855.5.4 Cypher語(yǔ)句855.6 Neo4j圖數(shù)據(jù)庫(kù)的基礎(chǔ)實(shí)驗(yàn)885.6.1 實(shí)驗(yàn)?zāi)康?85.6.2 環(huán)境配置885.6.3 實(shí)驗(yàn)步驟895.6.4 實(shí)驗(yàn)總結(jié)965.7 Neo4j圖數(shù)據(jù)庫(kù)的進(jìn)階實(shí)驗(yàn)965.7.1 實(shí)驗(yàn)概述965.7.2 數(shù)據(jù)導(dǎo)入975.7.3 實(shí)驗(yàn)步驟與代碼展示985.7.4 實(shí)驗(yàn)總結(jié)102總結(jié)102習(xí)題102第四部分 數(shù)據(jù)處理第6章 數(shù)據(jù)處理系統(tǒng)1046.1 數(shù)據(jù)處理系統(tǒng)概述1046.1.1 什么是數(shù)據(jù)處理1046.1.2 數(shù)據(jù)處理系統(tǒng)的組成1046.2 計(jì)算模型1056.2.1 批處理模型概述1056.2.2 流處理模型概述1056.2.3 大規(guī)模圖像數(shù)據(jù)處理 模型概述1066.2.4 分布式圖處理模型概述1066.2.5 大規(guī)模并行處理模型概述1066.2.6 大規(guī)模物理內(nèi)存計(jì)算 模型概述1066.3 計(jì)算平臺(tái)與引擎1066.3.1 Hadoop1076.3.2 Spark107總結(jié)109習(xí)題109第7章 批數(shù)據(jù)處理系統(tǒng)1107.1 MapReduce1107.1.1 MapReduce的架構(gòu)1117.1.2 MapReduce與RDBMS1127.1.3 共享存儲(chǔ)的批處理模型1127.1.4 Hadoop1137.2 MapReduce應(yīng)用實(shí)例1147.2.1 Top k問(wèn)題1147.2.2 k-means聚類(lèi)117總結(jié)117習(xí)題117第8章 流數(shù)據(jù)處理系統(tǒng)1188.1 流計(jì)算的定義1188.1.1 流處理出現(xiàn)的原因1188.1.2 流處理的定義1188.1.3 流計(jì)算的應(yīng)用1198.2 原生流處理—Storm1218.2.1 Storm簡(jiǎn)介1218.2.2 Storm的物理架構(gòu)1228.2.3 Storm的邏輯架構(gòu)1238.2.4 其他傳統(tǒng)流處理系統(tǒng)1248.3 微批流處理系統(tǒng)— Spark Streaming1248.3.1 Spark Streaming概述1248.3.2 Spark Streaming的工作流程1258.3.3 Spark Streaming的工作 原理和架構(gòu)1268.3.4 Spark Streaming的特性1298.4 Flink1298.4.1 批處理與流處理1308.4.2 Flink提供的不同級(jí)別的 抽象1318.4.3 無(wú)界數(shù)據(jù)流與有界數(shù)據(jù)流1318.5 流數(shù)據(jù)處理實(shí)驗(yàn)1328.5.1 Storm流數(shù)據(jù)處理實(shí)驗(yàn)1328.5.2 Spark Streaming流數(shù)據(jù) 處理實(shí)驗(yàn)1378.6 大數(shù)據(jù)處理體系結(jié)構(gòu)1478.6.1 批處理層1488.6.2 服務(wù)層1488.6.3 實(shí)時(shí)處理層149總結(jié)150習(xí)題150第9章 分布式圖處理1519.1 分布式圖處理概述1519.2 分布式圖處理的概念1529.3 分布式圖處理的工作原理1539.4 分布式圖處理的框架—Pregel1539.4.1 Pregel的基礎(chǔ)概念1539.4.2 Pregel的工作原理1569.4.3 Pregel的體系結(jié)構(gòu)1599.5 Pregel框架實(shí)驗(yàn)1619.5.1 基于C++線程并發(fā)的Pregel 框架模擬1629.5.2 節(jié)點(diǎn)最大值實(shí)驗(yàn)1639.5.3 單源最短路徑實(shí)驗(yàn)1669.5.4 實(shí)驗(yàn)總結(jié)171總結(jié)171習(xí)題171第10章 處理架構(gòu)17210.1 對(duì)稱多處理架構(gòu)17210.2 非一致性內(nèi)存訪問(wèn)架構(gòu)17210.3 大規(guī)模并行處理架構(gòu) 17310.4 SMP、NUMA和MPP的比較17810.4.1 SMP與MPP的比較17810.4.2 NUMA與MPP的比較178總結(jié)179習(xí)題179第11章 內(nèi)存計(jì)算18011.1 SAP HANA18011.1.1 SAP HANA概述18011.1.2 SAP HANA的工作原理18111.1.3 SAP HANA的優(yōu)勢(shì)18411.2 Spark18411.2.1 Spark的起源18411.2.2 Spark的工作原理18511.2.3 Spark的組件18911.2.4 Spark的優(yōu)勢(shì)191總結(jié)191習(xí)題192第12章 數(shù)據(jù)處理算法19312.1 數(shù)據(jù)處理基礎(chǔ)19312.1.1 數(shù)據(jù)挖掘19312.1.2 數(shù)據(jù)建模的一般流程19312.1.3 數(shù)據(jù)建模方法的評(píng)估19712.1.4 常見(jiàn)數(shù)據(jù)分類(lèi)任務(wù)及其 表征手段19912.2 機(jī)器學(xué)習(xí)方法20112.2.1 機(jī)器學(xué)習(xí)的一般步驟20112.2.2 傳統(tǒng)SVM方法20212.2.3 隨機(jī)森林方法20412.2.4 決策樹(shù)方法20512.3 深度學(xué)習(xí)方法20812.3.1 線性回歸模型20912.3.2 感知器模型21112.3.3 人工神經(jīng)網(wǎng)絡(luò)21312.3.4 小結(jié)217總結(jié)218習(xí)題218第五部分 大數(shù)據(jù)分析平臺(tái)第13章 PyTorch22013.1 PyTorch的發(fā)展背景22013.2 PyTorch結(jié)構(gòu)概覽22113.2.1 torch22113.2.2 torchvision22213.3 數(shù)據(jù)載體模塊22313.3.1 初始化張量22313.3.2 張量的屬性22613.3.3 張量的基本運(yùn)算和操作22613.3.4 張量與NumPy數(shù)組23113.3.5 圖像轉(zhuǎn)換和處理23313.3.6 小結(jié)23513.4 求導(dǎo)模塊23513.4.1 張量、函數(shù)與計(jì)算圖23513.4.2 自動(dòng)求導(dǎo)機(jī)制23613.4.3 梯度計(jì)算23713.4.4 禁用梯度跟蹤23913.4.5 小結(jié)23913.5 效率工具模塊24013.5.1 數(shù)據(jù)導(dǎo)入和封裝24013.5.2 載入預(yù)訓(xùn)練模型24413.5.3 訓(xùn)練結(jié)果可視化24513.5.4 小結(jié)24613.6 優(yōu)化算法模塊24713.6.1 前置代碼24813.6.2 超參數(shù)24813.6.3 循環(huán)優(yōu)化25013.6.4 損失函數(shù)25013.6.5 優(yōu)化器25013.6.6 小結(jié)25313.7 神經(jīng)網(wǎng)絡(luò)模塊25413.7.1 獲取設(shè)備25513.7.2 定義類(lèi)25513.7.3 模型的網(wǎng)絡(luò)層25613.7.4 模型參數(shù)25913.7.5 保存、加載和使用模型25913.7.6 小結(jié)26013.8 運(yùn)算性能模塊26013.8.1 GPU加速26013.8.2 TorchElastic分布式訓(xùn)練26113.8.3 小結(jié)26213.9 PyTorch的基礎(chǔ)實(shí)驗(yàn)—基于 LSTM的房?jī)r(jià)預(yù)測(cè)26213.9.1 torch.nn模塊介紹26213.9.2 實(shí)驗(yàn)準(zhǔn)備26413.9.3 實(shí)驗(yàn)的具體步驟26513.10 PyTorch的進(jìn)階實(shí)驗(yàn)—搭建 Transformer框架26813.10.1 Transformer的起源與意義26813.10.2 Transformer的整體結(jié)構(gòu)26913.10.3 Transformer的各組件27113.10.4 Transformer的代碼實(shí)現(xiàn)27513.10.5 Transformer的應(yīng)用280總結(jié)282習(xí)題282第14章 TensorFlow28314.1 TensorFlow概述28314.2 TensorFlow的系統(tǒng)架構(gòu)28414.2.1 模型的構(gòu)建、訓(xùn)練和驗(yàn)證28514.2.2 模型的存儲(chǔ)和部署28714.3 神經(jīng)網(wǎng)絡(luò)的構(gòu)建與TensorFlow 的基本用法28714.3.1 神經(jīng)網(wǎng)絡(luò)前置知識(shí)28714.3.2 TensorFlow的基本用法29114.3.3 小結(jié)29314.4 TensorFlow的特點(diǎn)、優(yōu)勢(shì)和 應(yīng)用領(lǐng)域29414.4.1 TensorFlow的特點(diǎn)29414.4.2 TensorFlow的優(yōu)勢(shì)29414.4.3 TensorFlow的應(yīng)用領(lǐng)域29414.5 比較PyTorch和TensorFlow29514.6 TensorFlow實(shí)驗(yàn)29714.6.1 tf.keras前置知識(shí)29714.6.2 TensorFlow圖像分類(lèi)實(shí)驗(yàn)29714.6.3 TensorFlow圖像風(fēng)格 遷移實(shí)驗(yàn)304總結(jié)304習(xí)題304第15章 Spark MLlib30615.1 Spark MLlib概述30615.2 Spark MLlib的系統(tǒng)架構(gòu)30715.3 Spark MLlib的工作流307總結(jié)310習(xí)題310第六部分 大數(shù)據(jù)應(yīng)用第16章 數(shù)據(jù)可視化31216.1 數(shù)據(jù)可視化概述31216.1.1 數(shù)據(jù)可視化的概念31216.1.2 數(shù)據(jù)可視化的分類(lèi)31216.1.3 數(shù)據(jù)可視化與其他學(xué)科 領(lǐng)域的關(guān)系31316.2 數(shù)據(jù)可視化基礎(chǔ)31516.2.1 數(shù)據(jù)可視化設(shè)計(jì)的原則31516.2.2 數(shù)據(jù)可視化流程31616.2.3 數(shù)據(jù)可視化的基本圖表31716.3 數(shù)據(jù)可視化工具和軟件32116.3.1 Power BI32116.3.2 Tableau32316.3.3 Gephi32516.4 數(shù)據(jù)可視化分析案例32616.4.1 連接數(shù)據(jù)32616.4.2 數(shù)據(jù)初步處理32616.4.3 圖表繪制327總結(jié)330習(xí)題330第17章 大數(shù)據(jù)分析應(yīng)用— 文本分析33117.1 文本分析概述33117.1.1 文本數(shù)據(jù)33117.1.2 文本分析33217.2 文本分析相關(guān)技術(shù)33517.2.1 人工文本分析33517.2.2 基于詞典的方法33617.2.3 詞袋法33717.2.4 監(jiān)督學(xué)習(xí)33817.2.5 無(wú)監(jiān)督學(xué)習(xí)33817.2.6 循環(huán)神經(jīng)網(wǎng)絡(luò)34517.2.7 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)34717.3 情感分析案例34817.3.1 數(shù)據(jù)獲取34917.3.2 數(shù)據(jù)預(yù)處理34917.3.3 特征工程35017.3.4 模型訓(xùn)練和使用352總結(jié)354習(xí)題355第18章 大數(shù)據(jù)分析應(yīng)用— 推薦系統(tǒng)35618.1 推薦系統(tǒng)概述35618.1.1 信息過(guò)載與推薦系統(tǒng)35618.1.2 推薦系統(tǒng)的發(fā)展歷史35618.1.3 推薦系統(tǒng)的意義35718.1.4 推薦系統(tǒng)的基本工作流程35818.1.5 推薦系統(tǒng)的整體架構(gòu)35918.1.6 推薦系統(tǒng)的主要類(lèi)型35918.2 推薦系統(tǒng)的相關(guān)算法36018.2.1 基于內(nèi)容的推薦算法36018.2.2 協(xié)同過(guò)濾推薦算法36218.2.3 深度學(xué)習(xí)推薦算法37018.2.4 混合推薦算法37418.3 推薦系統(tǒng)的其他問(wèn)題37418.3.1 推薦系統(tǒng)的性能評(píng)估37418.3.2 推薦系統(tǒng)的冷啟動(dòng)37518.3.3 推薦系統(tǒng)的大規(guī)模 數(shù)據(jù)處理37518.3.4 推薦系統(tǒng)中的稀疏性問(wèn)題37618.3.5 推薦系統(tǒng)中的長(zhǎng)尾問(wèn)題37718.4 推薦系統(tǒng)案例37718.4.1 背景37718.4.2 數(shù)據(jù)37818.4.3 模型37918.4.4 環(huán)境搭建37918.4.5 數(shù)據(jù)處理38118.4.6 模型構(gòu)建38218.4.7 模型訓(xùn)練38318.4.8 模型評(píng)估38318.4.9 推薦38418.4.10 案例總結(jié)384總結(jié)384習(xí)題385第19章 圖數(shù)據(jù)分析的應(yīng)用— 知識(shí)圖譜38619.1 圖數(shù)據(jù)分析概述38619.1.1 圖數(shù)據(jù)分析的概念38619.1.2 圖數(shù)據(jù)分析的應(yīng)用38619.1.3 圖數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)38719.2 知識(shí)圖譜概述38719.2.1 知識(shí)圖譜的定義38719.2.2 知識(shí)圖譜的架構(gòu)38819.2.3 數(shù)據(jù)類(lèi)型和存儲(chǔ)方式38919.3 知識(shí)圖譜的相關(guān)技術(shù)39119.3.1 信息抽取39219.3.2 知識(shí)融合39219.3.3 知識(shí)加工39319.3.4 知識(shí)更新39619.4 知識(shí)圖譜的應(yīng)用案例39619.4.1 背景39619.4.2 環(huán)境搭建39719.4.3 數(shù)據(jù)獲取39719.4.4 數(shù)據(jù)處理39819.4.5 實(shí)體關(guān)系抽取40219.4.6 結(jié)果可視化402總結(jié)405習(xí)題405第20章 圖數(shù)據(jù)分析的應(yīng)用— 社交網(wǎng)絡(luò)40620.1 社交網(wǎng)絡(luò)概述40620.1.1 社交網(wǎng)絡(luò)的定義40620.1.2 社交網(wǎng)絡(luò)的起源與發(fā)展40620.1.3 社交網(wǎng)絡(luò)的應(yīng)用領(lǐng)域40620.1.4 社交網(wǎng)絡(luò)分析與大數(shù)據(jù) 的關(guān)系40720.1.5 社交網(wǎng)絡(luò)分析工具40720.2 社交網(wǎng)絡(luò)分析的結(jié)構(gòu)特性40920.2.1 統(tǒng)計(jì)特性40920.2.2 網(wǎng)絡(luò)特性41020.2.3 網(wǎng)絡(luò)模型41120.3 社交網(wǎng)絡(luò)分析的研究41220.4 基于圖卷積網(wǎng)絡(luò)的社交網(wǎng)絡(luò) 分類(lèi)實(shí)驗(yàn)41220.4.1 實(shí)驗(yàn)?zāi)康?1320.4.2 實(shí)驗(yàn)內(nèi)容和原理41320.4.3 實(shí)驗(yàn)步驟414總結(jié)419習(xí)題419參考文獻(xiàn)420
我要評(píng)論
|