本書第一章為讀者揭示了數(shù)據(jù)的魅力以及其在日常生活中的無處不在。隨后的章節(jié)詳細(xì)介紹了數(shù)據(jù)的成長、存儲和處理方式。從早期的磁帶和光盤,到現(xiàn)代的Hadoop、Spark和分布式系統(tǒng),讀者將對大數(shù)據(jù)技術(shù)有一個(gè)全面的了解。中間章節(jié)著重于大數(shù)據(jù)在不同領(lǐng)域中的應(yīng)用,如社交媒體、金融市場和電商,展示了數(shù)據(jù)如何被轉(zhuǎn)化為有價(jià)值的洞察和解決方案。同時(shí),書中也詳述了數(shù)據(jù)處理和機(jī)器學(xué)習(xí)的方法,讓讀者了解到計(jì)算機(jī)是如何"思考"和從數(shù)據(jù)中"學(xué)習(xí)"的。后續(xù)章節(jié)則深入講解了大數(shù)據(jù)的采集、存儲和處理技術(shù),為讀者呈現(xiàn)了大數(shù)據(jù)的后臺運(yùn)行機(jī)制、架構(gòu)原理等。從數(shù)據(jù)的采集、傳輸,到其如何被存儲、清洗和展現(xiàn),每一個(gè)環(huán)節(jié)都至關(guān)重要。在大數(shù)據(jù)應(yīng)用的最后部分,書中討論了其如何助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,為企業(yè)決策提供堅(jiān)實(shí)的數(shù)據(jù)支撐。此外,也對數(shù)據(jù)治理進(jìn)行了詳細(xì)的探討,強(qiáng)調(diào)了數(shù)據(jù)質(zhì)量、安全和隱私的重要性。
張偉洋,大數(shù)據(jù)領(lǐng)域資深專家,擁有多年互聯(lián)網(wǎng)公司軟件研發(fā)經(jīng)驗(yàn),曾在互聯(lián)網(wǎng)旅游公司任軟件研發(fā)事業(yè)部經(jīng)理。先后多次為中國海洋大學(xué)、曲阜師范大學(xué)、青島理工大學(xué)等高校舉行大數(shù)據(jù)專題講座及實(shí)踐授課,對Hadoop及周邊大數(shù)據(jù)框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有深入的研究。已出版《Hadoop3.X大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》《Flink大數(shù)據(jù)分析實(shí)戰(zhàn)》等圖書,公眾號"奮斗在IT” 的創(chuàng)辦人。
第 1 章 大家好,我叫大數(shù)據(jù) / 001
1 我的成長歷程:從小小的石頭到壯大的字節(jié) / 002
最初的我:原始部落中的計(jì)數(shù)石頭 / 002
我的成長軌跡:從小小的字節(jié)到龐大的數(shù)據(jù)宇宙 / 003
2 我為何這么火? / 004
我的舞臺:從廚房計(jì)時(shí)到火箭發(fā)射 / 004
我的超能力:從預(yù)測天氣到做出決策 / 006
第 2 章 我的近代成長歷程 / 008
3 我的童年回憶:被遺忘的數(shù)據(jù)碎片 / 009
磁帶與光盤:早期的數(shù)據(jù)存儲 / 009
數(shù)據(jù)的碎片:數(shù)據(jù)格式的演變歷程 / 012
4 青澀的少年時(shí)期:積累的數(shù)據(jù)塊 / 016
數(shù)據(jù)庫的誕生:管理的需要 / 016
關(guān)系數(shù)據(jù)庫:數(shù)據(jù)的規(guī)整之家 / 018
對象數(shù)據(jù)庫:面向?qū)ο蟮拇鎯δХ?/ 021
分布式數(shù)據(jù)庫:分而治之的大數(shù)據(jù)倉庫 / 025
SQL:與數(shù)據(jù)的對話 / 029
SQL 的不同版本:與我溝通的“方言”/ 031
NoSQL 與非結(jié)構(gòu)化數(shù)據(jù):自由的空間 / 033
現(xiàn)在的我:我已經(jīng)這么“大”了 / 035 我的與眾不同之處 / 035
Hadoop:我身后的大象 / 038 流處理:快速做出反應(yīng) / 039 Spark:閃電般的速度 / 042 分布式系統(tǒng):多個(gè)“我”合作 / 043
6 記憶的寶庫:數(shù)據(jù)庫是我存儲回憶的地方 / 047 安全的保險(xiǎn)柜:確保數(shù)據(jù)不丟失 / 047 快速檢索數(shù)據(jù):讓查詢變得飛快 / 050
第 3 章 你知道我每天都吃些什么嗎? / 055
7 早餐:你的點(diǎn)贊和分享 / 056 社交媒體的數(shù)據(jù)流:實(shí)時(shí)感受你的喜怒哀樂 / 056 每一個(gè)點(diǎn)擊、每一次滑動:深藏在用戶行為背后的無盡寶藏 / 058
8 午餐:各個(gè)公司的交易記錄 / 060 金融市場的脈搏:股票與貨幣 / 060 商業(yè)的核心:交易與客戶關(guān)系 / 063
9 晚餐:你們的網(wǎng)購和搜索歷史 / 065 購物車?yán)锏拿孛?推薦系統(tǒng)背后 / 065 搜索的力量:廣告與優(yōu)化 / 068
第 4 章 我是如何思考的? / 070
10 算法的基石:邏輯與數(shù)學(xué)是我思考的工具 / 071 邏輯結(jié)構(gòu):算法的骨架 / 071
【示例】排序算法 / 072 數(shù)學(xué)工具:算法的血肉 / 074
【示例】基于邏輯與數(shù)學(xué)實(shí)現(xiàn)一個(gè)電影推薦系統(tǒng) / 076
11 深度思考:深度學(xué)習(xí)讓我變得更像人類 / 080 神經(jīng)網(wǎng)絡(luò):算法的“大腦”/ 080
實(shí)際應(yīng)用:圖像識別 / 081
12 搜索算法:簡單而強(qiáng)大 / 083 線性搜索:簡單而直接 / 083
二分搜索:高效的搜索方法 / 084
13 路徑規(guī)劃算法:兩點(diǎn)之間的最短路徑 / 088 路徑規(guī)劃算法的過程 / 088
【示例】最短路徑探險(xiǎn) / 089
14 持續(xù)學(xué)習(xí):在線學(xué)習(xí)讓我不斷進(jìn)化 / 092 什么是在線學(xué)習(xí)? / 092
為什么需要在線學(xué)習(xí)? / 092
在線學(xué)習(xí)的實(shí)際應(yīng)用 / 093
第 5 章 跟我去健身吧! / 095
15 熱身動作:首先清洗“身體”/ 096 錯(cuò)誤與異常:數(shù)據(jù)清洗的藝術(shù) / 096 數(shù)據(jù)轉(zhuǎn)換:標(biāo)準(zhǔn)化與歸一化 / 099 清洗工具:流行的清洗技術(shù)與軟件 / 103
16 體能訓(xùn)練:深度挖掘 / 109關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系 / 109 【示例】顧客購物籃數(shù)據(jù)關(guān)聯(lián)分析 / 109
聚類分析:發(fā)現(xiàn)數(shù)據(jù)中的自然分組 / 112 示例:客戶群體聚類分析 / 113 頻繁模式挖掘:發(fā)現(xiàn)常見模式 / 115
【示例】找出文章中的高頻詞 / 116 分類分析:將數(shù)據(jù)分為不同的類別 / 118
【示例】使用決策樹模型預(yù)測客戶流失 / 121 【示例】使用隨機(jī)森林模型預(yù)測客戶貸款違約 / 124
挖掘技術(shù):常用的數(shù)據(jù)分析技術(shù)與流程 / 128 【示例】使用 Matplotlib 進(jìn)行數(shù)據(jù)可視化 / 130
17 心肺鍛煉:解讀“心跳”數(shù)據(jù) / 134
【示例】使用 Python 繪制時(shí)間序列圖 / 134 【示例】使用移動平均方法統(tǒng)計(jì)數(shù)據(jù)的長期趨勢 / 137 【示例】使用 ARIMA 模型預(yù)測未來銷售額 / 140
心跳圖:時(shí)序數(shù)據(jù)與異常檢測 / 142 【示例】心跳數(shù)據(jù)監(jiān)測 / 142
專家解讀:數(shù)據(jù)科學(xué)家是如何解讀數(shù)據(jù)的 / 144
第 6 章 數(shù)據(jù)治理:保護(hù)我,讓我更健康 / 147
18 我的身份證:數(shù)據(jù)目錄和元數(shù)據(jù) / 148 數(shù)據(jù)字典:定義與約束 / 148
元數(shù)據(jù)的守護(hù):跟蹤數(shù)據(jù)的來源與變化 / 15019 我的護(hù)衛(wèi):數(shù)據(jù)加密先生 / 153 數(shù)據(jù)加密與數(shù)據(jù)解密的基本原理 / 153 對稱加密與非對稱加密 / 154 安全的保障:防止數(shù)據(jù)泄露的措施 / 157
第 7 章 介紹我的好朋友們 / 161
20 我的學(xué)霸朋友:機(jī)器學(xué)習(xí) / 162 小明的學(xué)習(xí)日志 1:模型的訓(xùn)練與測試 / 162 小明的學(xué)習(xí)日志 2:模型部署與監(jiān)控 / 169 小明的實(shí)踐場:機(jī)器學(xué)習(xí)的應(yīng)用場景 / 171
21 我的鄰居:云計(jì)算小紅 / 173 小紅的云屋:數(shù)據(jù)存儲與處理的新時(shí)代 / 173 云上的合作:我與云的互動 / 178
22 我的技術(shù)達(dá)人:自然語言處理小華 / 181 小華的語言天賦:文本處理與情感分析 / 181 小華的應(yīng)用場景:聊天機(jī)器人與翻譯 / 185
23 我的創(chuàng)意伙伴:計(jì)算機(jī)視覺小強(qiáng) / 188 小強(qiáng)的視覺技能:圖像識別與圖像生成 / 188 語義分割:從像素級別理解圖像 / 197
3D 視覺:從二維圖像到三維世界的探索 / 200 小強(qiáng)的應(yīng)用場景:自動駕駛與智能監(jiān)控 / 201
R-CNN、Fast R-CNN 和 Faster R-CNN: 目標(biāo)檢測的進(jìn)化之路 / 203第 8 章 我的語音伙伴:語音識別與合成 / 210
24 語音識別的基本原理 / 211 聲音的數(shù)字化處理:從聲音到數(shù)據(jù) / 211 語音信號處理技術(shù):拆解聲音的秘密 / 213
25 語音識別的常用算法 / 220 隱馬爾可夫模型(HMM):語音識別的老將 / 221 深度神經(jīng)網(wǎng)絡(luò)(DNN):賦予語音識別新的生命 / 224 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):記住你的每一句話 / 226 端到端語音識別模型:一條龍服務(wù) / 229
26 語音合成的基本原理 / 231 文本分析與處理:從文字到聲音 / 231 神經(jīng)網(wǎng)絡(luò)語音合成技術(shù) / 232 智能語音助手的實(shí)現(xiàn)流程 / 234
第 9 章 我與區(qū)塊鏈和物聯(lián)網(wǎng)的故事 / 237
27 我與區(qū)塊鏈的融合 / 238 區(qū)塊鏈基礎(chǔ):去中心化與數(shù)據(jù)透明 / 238 我與區(qū)塊鏈聯(lián)手:數(shù)據(jù)存儲與可信計(jì)算 / 240
28 我與物聯(lián)網(wǎng) / 244
物聯(lián)網(wǎng)設(shè)備:數(shù)據(jù)收集的前沿 / 244 物聯(lián)網(wǎng)設(shè)備的工作原理 / 245 傳感器:物聯(lián)網(wǎng)的感覺器官 / 247 物聯(lián)網(wǎng)通信協(xié)議:設(shè)備之間的語言 / 248 我在物聯(lián)網(wǎng)中的應(yīng)用:智能家居與智慧城市 / 252