定 價:58 元
叢書名:大數(shù)據(jù)類專業(yè)規(guī)劃教材 , 大數(shù)據(jù)技術與應用叢書
當前圖書已被 34 所學校薦購過!
查看明細
- 作者:黑馬程序員 著
- 出版時間:2020/4/1
- ISBN:9787302550877
- 出 版 社:清華大學出版社
- 中圖法分類:TP274
- 頁碼:394
- 紙張:膠版紙
- 版次:1
- 開本:16開
數(shù)據(jù)清洗是大數(shù)據(jù)預處理的關鍵環(huán)節(jié)。面對錯綜復雜的數(shù)據(jù),傳統(tǒng)的清洗“臟”數(shù)據(jù)工作單調且異常辛苦,如果能利用正確的工具和方法,可以讓數(shù)據(jù)清洗工作變得事半功倍。
《數(shù)據(jù)清洗》講解數(shù)據(jù)清洗的理論知識和實際應用,《數(shù)據(jù)清洗》共8章:第1章主要帶領大家簡單認識數(shù)據(jù)清洗;第2章主要講解ETL技術相關的知識;第3章講解Kettle工具的基本使用;第4章主要講解數(shù)據(jù)清洗的一步——數(shù)據(jù)抽。坏5章主要講解數(shù)據(jù)清洗與檢驗;第6章主要講解數(shù)據(jù)轉換相關的知識;第7章主要講解數(shù)據(jù)加載相關的知識;第8章利用前面章節(jié)所學的知識構建一個DVD租賃商店數(shù)據(jù)倉庫,目的是實現(xiàn)定期從源數(shù)據(jù)庫sakila中抽取增量數(shù)據(jù),轉換成F合DVD租賃業(yè)務的數(shù)據(jù),最后加載到DVD租賃商店數(shù)據(jù)倉庫中,便于后續(xù)在線DVD租賃商店的決策者對數(shù)據(jù)進行分析得出商業(yè)決策。
《數(shù)據(jù)清洗》附有配套視頻、源代碼、習題、教學設計、教學課件等資源。同時,為了幫助初學者更好地學習《數(shù)據(jù)清洗》中的內容,還提供了在線答疑,歡迎讀者關注。
《數(shù)據(jù)清洗》可作為高等院校本?朴嬎銠C、信息管理等相關專業(yè)的大數(shù)據(jù)課程教材,也可供相關技術人員參考,是一本適合廣大計算機編程愛好者的優(yōu)秀讀物。
近年來,大數(shù)據(jù)技術掀起了計算機領域的一個新浪潮,無論是數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)可視化,還是機器學習、人工智能,它們都繞不開“數(shù)據(jù)”這個主題。從統(tǒng)計學家到軟件開發(fā)人員,再到圖形設計師,越來越多的人對數(shù)據(jù)科學產(chǎn)生了興趣,廉價的硬件、可靠的數(shù)據(jù)處理工具和數(shù)據(jù)可視化工具以及海量的數(shù)據(jù),這些資源使我們能夠輕松地、精確地發(fā)現(xiàn)趨勢、預測未來。
由于海量數(shù)據(jù)的來源是廣泛的,數(shù)據(jù)類型也是多而繁雜的,因此數(shù)據(jù)中會夾雜著不完整的、重復的以及錯誤的數(shù)據(jù),如果直接使用這些原始數(shù)據(jù),會嚴重影響數(shù)據(jù)決策的效率。因此,對原始數(shù)據(jù)進行有效的清洗是大數(shù)據(jù)分析和應用過程中的關鍵環(huán)節(jié)。
本書共分為8章,各章內容介紹如下:
第1章主要是帶領大家簡單認識數(shù)據(jù)清洗的背景、定義、原理、基本流程、清洗策略以及常見的數(shù)據(jù)清洗方法。通過本章的學習,讀者可以對數(shù)據(jù)清洗有基本的認識,便于后續(xù)章節(jié)的學習。
第2章主要講解ETL技術相關的知識,即基于ETL的數(shù)據(jù)清洗(ETL的概念、體系結構)、ETL關鍵技術(抽取數(shù)據(jù)的技術、數(shù)據(jù)清洗轉換的技術以及數(shù)據(jù)加載的技術)和ETL常見工具。通過本章的學習,讀者可以認識ETL,并熟悉ETL的關鍵技術和ETL常見的工具。
第3章主要講解數(shù)據(jù)清洗工具Kettle的相關知識,即Kettle的概述、設計原則、下載安裝以及基本概念和基本功能。通過本章的學習,讀者可以使用Kettle工具對ETL數(shù)據(jù)進行相關處理(抽取、清洗轉換以及加載)。
第4章主要講解數(shù)據(jù)清洗的第一步——數(shù)據(jù)抽取,即抽取文本數(shù)據(jù)、Web數(shù)據(jù)以及數(shù)據(jù)庫數(shù)據(jù)的相關知識。通過本章的學習,讀者可以掌握抽取各種形式的數(shù)據(jù)并保存至數(shù)據(jù)庫中,便于后續(xù)對數(shù)據(jù)進行相關清洗轉換和分析。
第5章主要講解數(shù)據(jù)的清洗與檢驗相關的知識,即數(shù)據(jù)去重、缺失值處理、異常值處理以及數(shù)據(jù)檢驗知識。通過本章的學習,讀者可以掌握對重復數(shù)據(jù)、缺失值數(shù)據(jù)、異常值數(shù)據(jù)的處理,也可以掌握對數(shù)據(jù)進行檢驗的操作。
第6章主要講解數(shù)據(jù)轉換相關的知識,即多數(shù)據(jù)源合并、不一致數(shù)據(jù)轉換、數(shù)據(jù)粒度的轉換、數(shù)據(jù)的商務規(guī)則計算的知識。通過本章的學習,讀者可以掌握數(shù)據(jù)轉換操作,實現(xiàn)將企業(yè)中的數(shù)據(jù)進行規(guī)范化處理。
第1章 數(shù)據(jù)清洗概述
1.1 數(shù)據(jù)清洗的背景
1.1.1 數(shù)據(jù)質量概述
1.1.2 數(shù)據(jù)質量的評價指標
1.1.3 數(shù)據(jù)質量的問題分類
1.2 數(shù)據(jù)清洗的定義
1.3 數(shù)據(jù)清洗的原理
1.4 數(shù)據(jù)清洗的基本流程
1.5 數(shù)據(jù)清洗的策略
1.6 常見的數(shù)據(jù)清洗方法
1.7 本章小結
1.8 本章習題
第2章 初識ETL
2.1 基于ETL的數(shù)據(jù)清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結構
2.2 ETL關鍵技術
2.2.1 數(shù)據(jù)的抽取
2.2.2 數(shù)據(jù)的清洗轉換
2.2.3 數(shù)據(jù)的加載
2.3 ETL常見工具介紹
2.4 本章小結
2.5 本章習題
第3章 Kettle工具的基本使用
3.1 Kettle簡介
3.1.1 Kettle概述
3.1.2 Kettle的設計原則
3.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉換
3.3.2 作業(yè)
3.4 Kettle的基本功能
3.4.1 轉換管理
3.4.2 作業(yè)管理
3.4.3 數(shù)據(jù)庫連接
3.5 本章小結
3.6 本章習題
第4章 數(shù)據(jù)抽取
4.1 抽取文本數(shù)據(jù)
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數(shù)據(jù)
4.2.1 HTML網(wǎng)頁的數(shù)據(jù)抽取
4.2.2 XML文件的數(shù)據(jù)抽取
4.2.3 JSON文件的數(shù)據(jù)抽取
4.3 抽取數(shù)據(jù)庫數(shù)據(jù)
4.3.1 抽取關系型數(shù)據(jù)庫的數(shù)據(jù)
4.3.2 抽取非關系型數(shù)據(jù)庫的數(shù)據(jù)
4.4 本章小結
4.5 本章習題
……
第5章 數(shù)據(jù)的清洗與檢驗
第6章 數(shù)據(jù)轉換
第7章 數(shù)據(jù)加載
第8章 綜合案例——構建DVD租賃商店數(shù)據(jù)倉庫