書單推薦
更多
新書推薦
更多

大數(shù)據(jù)采集與清洗(微課版)

大數(shù)據(jù)采集與清洗(微課版)

定  價(jià):69.8 元

        

  • 作者:阮宗利 陳華 柳毓松 張華清
  • 出版時(shí)間:2025/11/1
  • ISBN:9787115669841
  • 出 版 社:人民郵電出版社
  • 中圖法分類:TP274 
  • 頁(yè)碼:286
  • 紙張:
  • 版次:01
  • 開本:16開
9
7
6
8
6
7
9
1
8
1
4
5
1
本書詳細(xì)介紹大數(shù)據(jù)采集與清洗的相關(guān)知識(shí)和技術(shù),共9章,分別是概述、網(wǎng)絡(luò)爬蟲基礎(chǔ)、網(wǎng)頁(yè)數(shù)據(jù)抓取、緩存下載頁(yè)面、并發(fā)/并行爬取、用Selenium抓取動(dòng)態(tài)內(nèi)容、Scrapy爬蟲框架及其應(yīng)用、大數(shù)據(jù)平臺(tái)系統(tǒng)日志采集、pandas數(shù)據(jù)清洗。本書大體上由數(shù)據(jù)采集(第2~8章)和數(shù)據(jù)清洗(第9章)兩部分內(nèi)容構(gòu)成,以Python作為編程語(yǔ)言。數(shù)據(jù)采集部分以Web數(shù)據(jù)采集為主,也涉及Hadoop大數(shù)據(jù)平臺(tái)的數(shù)據(jù)采集,內(nèi)容由淺入深,循序漸進(jìn),理論與實(shí)踐相結(jié)合,幫助讀者理解和掌握數(shù)據(jù)采集的相關(guān)技術(shù);數(shù)據(jù)清洗部分主要介紹pandas庫(kù)的使用,幫助讀者掌握數(shù)據(jù)清洗的方法。本書每章都有配套的習(xí)題,有助于讀者鞏固所學(xué)知?識(shí)。 本書可作為高校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、信息管理與信息系統(tǒng)等專業(yè)相關(guān)課程的教材,也可作為大數(shù)據(jù)工程師的必備手冊(cè),還可作為網(wǎng)絡(luò)爬蟲愛(ài)好者和計(jì)算機(jī)領(lǐng)域的技術(shù)人員的參考?書。
 你還可能感興趣
 我要評(píng)論
您的姓名   驗(yàn)證碼: 圖片看不清?點(diǎn)擊重新得到驗(yàn)證碼
留言內(nèi)容