本書共8章,內容主要包括Spark概述及入門實戰(zhàn),Spark的作業(yè)調度和資源分配算法,SparkSQL、DataFrame、Dataset的原理和實戰(zhàn),深入理解Spark數(shù)據(jù)源,流式計算的原理和實戰(zhàn),億級數(shù)據(jù)處理平臺Spark性能調優(yōu),Spark機器學習庫,Spark3.0的新特性和數(shù)據(jù)湖等。 本書適合Spark開發(fā)人
本書圍繞大數(shù)據(jù)采集、匯聚、存儲、計算、分析、挖掘、可視化等處理全過程,基于Flume、Kafka、HDFS、HBase、MapReduce、Spark、Hive、ECharts等主流軟件全面介紹大數(shù)據(jù)的基礎原理和核心技術,以及人工智能、云計算和物聯(lián)網(wǎng)等大數(shù)據(jù)相關內容,并在此基礎上進一步闡述政務、商業(yè)等行業(yè)大數(shù)據(jù),以及文
本書基于Flink的穩(wěn)定版本1.13,從Flink數(shù)據(jù)處理思想開始講解,帶領讀者深入理解Flink的基本架構,進而由淺入深,結合具體案例,詳細剖析了Flink中DataStreamAPI的使用,并對Flink中的時間語義、狀態(tài)、容錯機制等重要概念進行了詳盡的闡述。另外,本書還對實際開發(fā)中常用的FlinkSQL、CEP等
本書以數(shù)據(jù)思維為主題,以數(shù)據(jù)分析全流程為主線,融合了與數(shù)據(jù)思維相關的編程語言、統(tǒng)計學基礎及案例分析等內容,全書分為4篇,囊括了數(shù)據(jù)思維的概念和培養(yǎng)方法、數(shù)據(jù)來源及體系建設、數(shù)據(jù)分析三大思維方式及用戶流失、用戶轉化實戰(zhàn)等共11章的內容。本書囊括了數(shù)據(jù)分析中常用的分析方法,包括經(jīng)典的海盜(AARRR)模型、麥肯錫的MECE
本書詳細闡述了大數(shù)據(jù)領域數(shù)據(jù)采集與預處理的相關理論和技術。全書共8章,內容包括概述、大數(shù)據(jù)實驗環(huán)境搭建、網(wǎng)絡數(shù)據(jù)采集、分布式消息系統(tǒng)Kafka、日志采集系統(tǒng)Flume、數(shù)據(jù)倉庫中的數(shù)據(jù)集成、ETL工具Kettle、使用pandas進行數(shù)據(jù)清洗。本書在第3章至第8章中安排了豐富的實踐操作,以便讀者更好地學習和掌握數(shù)據(jù)采集
隨著科學技術的迅猛發(fā)展,具有復雜分層結構的數(shù)據(jù)在現(xiàn)實生活中很普遍。能完全剖析這類數(shù)據(jù),發(fā)覺該類數(shù)據(jù)表象下的潛在規(guī)律性對于統(tǒng)計學等科研領域很有意義。本書致力于介紹復雜分層數(shù)據(jù)分析前沿知識,側重于分層分位回歸理論、方法及其應用研究。內容主要包括三大塊:分層數(shù)據(jù)建模、分位回歸與分層-分位回歸。主要涉及到線性分層分位回歸模擬、
本書通過理論與實踐相結合的方式,深入淺出地介紹了文件系統(tǒng)的概念、原理和具體實現(xiàn)。本書涵蓋本地文件系統(tǒng)、網(wǎng)絡文件系統(tǒng)、分布式文件系統(tǒng)和對象存儲等內容,可以說涵蓋了數(shù)據(jù)持久化文件系統(tǒng)的主要領域。為了使讀者更加深入地理解文件系統(tǒng)的原理,本書不僅介紹了文件系統(tǒng)的原理和關鍵技術,還結合開源項目介紹了文件系統(tǒng)的實現(xiàn)細節(jié)。最后,本書
數(shù)據(jù)分析是指用適當?shù)臄?shù)學方法對收集來的大量數(shù)據(jù)進行分析,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。數(shù)據(jù)分析是為了提取有用信息和形成結論而對數(shù)據(jù)加以詳細研究及概括總結的過程。數(shù)據(jù)分析的目的在于把隱藏在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來。 數(shù)據(jù)科學是高等學校非計算機專業(yè)本科學生必修的一門公共基礎課程,
在處理現(xiàn)實的工程或管理問題時,數(shù)據(jù)的微小波動不可忽略且影響深遠,這為魯棒優(yōu)化方法的產(chǎn)生提供了契機并推動其迅速發(fā)展.本書主要介紹了不確定決策系統(tǒng)中魯棒優(yōu)化及分布魯棒優(yōu)化方法的一些研究進展.在魯棒優(yōu)化方面,給出了不確定集交下的一些新結果并將其應用到可持續(xù)發(fā)展與應急救援問題中.在分布魯棒優(yōu)化方面,介紹了隨機分布魯棒優(yōu)化及模糊
本書從計算機控制系統(tǒng)的信號轉換開始,詳細闡述了計算機控制系統(tǒng)的建模、性能分析、控制器設計及控制系統(tǒng)仿真與實現(xiàn)的理論、方法和實用技術。