![]() ![]() |
數(shù)據(jù)采集與預處理技術(shù)應用 讀者對象:本書適合作為高等院校大數(shù)據(jù)、云計算、計算機和軟件專業(yè)相關(guān)課程的教材,或是相關(guān)領(lǐng)域培訓機構(gòu)的培訓教材
本書共有九章,從數(shù)據(jù)采集與預處理概述開始,介紹了大數(shù)據(jù)環(huán)境的搭建,并對數(shù)據(jù)采集與數(shù)據(jù)預處理的技術(shù)方法進行了系統(tǒng)介紹。數(shù)據(jù)采集的內(nèi)容包括Flume日志數(shù)據(jù)采集、Kafka日志數(shù)據(jù)采集、Fluentd與Logstach等一系列數(shù)據(jù)采集技術(shù);數(shù)據(jù)預處理的內(nèi)容包括網(wǎng)絡爬蟲采集Web數(shù)據(jù)、Python數(shù)據(jù)預處理技術(shù)、Kettle數(shù)據(jù)處理技術(shù)、Pig和OpenRefine這些數(shù)據(jù)預處理技術(shù)。旨在讓讀者了解并基本掌握當下主要的數(shù)據(jù)采集與預處理技術(shù)、工具,以及它們的使用方法。
你還可能感興趣
我要評論
|