中圖網

>

數據庫

>

數據庫理論

PYSPARK大數據分析實戰

包郵 PYSPARK大數據分析實戰

作者：伍鮮常麗娟

出版社：機械工業出版社出版時間：2023-12-01

開本： 16開 頁數： 372

本類榜單：計算機/網絡銷量榜

中圖價:¥82.1(6.9折) 定價 ~~¥119.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥82.1 加入購物車

版權信息
本書特色
內容簡介
目錄
作者簡介

PYSPARK大數據分析實戰版權信息

ISBN：9787111739593
條形碼：9787111739593 ; 978-7-111-73959-3
裝幀：平裝-膠訂
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
數據庫
>
數據庫理論

PYSPARK大數據分析實戰本書特色

1. 6位行業專家鼎力推薦，大數據從業者案頭寶典。
2. 贈送超過2200分鐘的視頻教程程序源代碼運行環境安裝包，助你早日實現從入門到精通。

PYSPARK大數據分析實戰內容簡介

本書是PySpark大數據分析的入門讀物，適合有一定Python基礎的讀者學習使用。本書基于近期新版本的PySpark 3.4.x編寫，全書共11章，系統地介紹了PySpark大數據分析的方法和技巧，內容涵蓋了大數據的相關技術、PySpark的基本概念、Spark環境搭建、數據分析的基本概念及相關工具、開發工具的選擇、Spark核心編程和Spark SQL操作等基礎知識和核心技術，以及Spark流式數據處理、Spark機器學習庫MLlib和基于協同過濾的圖書推薦系統等高級主題。本書通過多個實戰案例，帶領讀者掌握使用Python和Spark進行大數據分析的方法和技巧，從而提高讀者的數據處理能力和業務價值。本書內容全面、示例豐富、講解清晰，讀者可以直接應用書中的案例。本書適合自學，也可作為計算機、軟件工程、數據科學與大數據等專業的教學參考書，用于指導大數據分析編程實踐，還可供相關技術人員參考。

PYSPARK大數據分析實戰目錄

前言
第1章初識PySpark/
1.1 關于數據/
1.2 了解Hadoop/
1.2.1 分布式文件系統HDFS/
1.2.2 分布式計算框架MapReduce/
1.2.3 資源調度管理框架YARN/
1.3 了解Hive/
1.4 了解Spark/
1.4.1 Spark是什么/
1.4.2 Spark的發展歷程/
1.4.3 Spark的特點/
1.4.4 Spark的生態系統/
1.4.5 Spark的部署模式/
1.4.6 Spark的運行架構/
1.5 PySpark庫介紹/
1.6 本章小結/
第2章 Spark環境搭建/
2.1 安裝環境準備/
2.1.1 操作系統準備/
2.1.2 Java環境準備/
2.1.3 Python環境準備/
2.1.4 Spark安裝包下載/
2.1.5 Hadoop安裝包下載/
2.2 Spark本地模式安裝/
2.2.1 使用交互式pyspark運行代碼/
2.2.2 寬窄依賴和階段劃分/
2.2.3 使用spark-submit提交代碼/
2.3 Spark獨立集群安裝/
2.3.1 配置并啟動Spark集群/
2.3.2 使用spark-submit提交代碼/
2.3.3 Spark History Server歷史服務/
2.3.4 獨立集群模式的代碼運行流程/
2.4 Spark on YARN模式安裝/
2.4.1 安裝Hadoop集群/
2.4.2 格式化NameNode/
2.4.3 啟動Hadoop集群/
2.4.4 配置Spark運行在YARN上/
2.4.5 使用spark-submit提交代碼/
2.4.6 Spark on YARN模式代碼運行流程/
2.5 云服務模式Databricks介紹/
2.5.1 Databricks基本概念/
2.5.2 創建集群/
2.5.3 數據集成/
2.5.4 創建筆記本/
2.5.5 運行案例/
2.5.6 創建作業/
2.5.7 運行作業/
2.5.8 其他類型的作業/
2.6 本章小結/
第3章數據分析基礎/
3.1 什么是數據分析/
3.2 Python數據分析工具介紹/
3.2.1 數學計算庫NumPy介紹/
3.2.2 數據分析庫Pandas介紹/
3.3 數據分析圖表介紹/
3.4 Python數據可視化工具介紹/
3.4.1 Matplotlib介紹/
3.4.2 Seaborn介紹/
3.4.3 Pyecharts介紹/
3.4.4 三種可視化工具的對比/
3.5 本章小結/
第4章選擇合適的開發工具/
4.1 使用Databricks探索數據/
4.1.1 使用筆記本開發代碼/
4.1.2【實戰案例】阿凡達電影評價分析/
4.2 使用JupyterLab探索數據/
4.2.1 創建虛擬環境/
4.2.2 安裝JupyterLab/
4.2.3 集成Spark引擎/
4.2.4【實戰案例】二手房數據分析/
4.3 使用PyCharm探索數據/
4.3.1 安裝PyCharm/
4.3.2 安裝Python/
4.3.3 創建PyCharm項目/
4.3.4 PyCharm插件介紹/
4.3.5【實戰案例】招聘信息數據分析/
4.4 本章小結/
第5章核心功能Spark Core/
5.1 SparkContext介紹/
5.2 RDD介紹/
5.3 RDD的特性/
5.4 RDD的創建/
5.4.1 通過并行化本地集合創建RDD/
5.4.2 通過外部文件系統數據創建RDD/
5.4.3 通過已存在的RDD衍生新的RDD/
5.5 RDD的算子/
5.5.1 什么是算子/
5.5.2 算子的分類/
5.6 常用的Transformation算子/
5.6.1 基本算子/
5.6.2 二元組相關的算子/
5.6.3 分區相關的算子/
5.7 常用的Action算子/
5.7.1 基本算子/
5.7.2 Executor端執行的算子/
5.8 RDD的持久化/
5.8.1 緩存/
5.8.2 緩存的特點/
5.8.3 檢查點/
5.8.4 緩存和檢查點的比較/
5.9 共享變量/
5.9.1 廣播變量/
5.9.2 累加器/
5.10【實戰案例】共享單車租賃數據分析/
5.10.1 數據集成/
5.10.2 不同月份的租賃數據分析/
5.10.3 不同時間的租賃數據分析/
5.10.4 不同周期的租賃數據分析/
5.10.5 不同維度的租賃數據分析/
5.10.6 天氣對租賃需求的影響/
5.10.7 溫度、風速對租賃需求的影響/
5.11 本章小結/
第6章結構化數據處理Spark SQL/
6.1 Spark SQL概述/
6.1.1 什么是Spark SQL/
6.1.2 Spark SQL的特點/
6.2 Spark SQL的發展歷程/
6.2.1 從HDFS到Hive/
6.2.2 從Hive到Shark/
6.2.3 從Shark到Spark SQL/
6.3 SparkSession介紹/
6.4 DataFrame概述/
6.4.1 什么是DataFrame/
6.4.2 DataFrame的組成/
6.5 DataFrame的創建/
6.5.1 通過RDD創建/
6.5.2 通過Pandas的DataFrame創建/
6.5.3 通過外部數據創建/
6.6 DataFrame的基本操作/
6.6.1 DSL語法風格/
6.6.2 Spark Join策略介紹/
6.6.3 SQL語法風格/
6.7 DataFrame的函數操作/
6.7.1 內置函數/
6.7.2 窗口函數/
6.7.3 自定義函數/
6.8 DataFrame的數據清洗/
6.8.1 刪除重復行/
6.8.2 缺失值的處理/
6.9 DataFrame的持久化/
6.10 DataFrame的數據寫出/
6.10.1 寫出數據到文件/
6.10.2 寫出數據到數據庫/
6.11【實戰案例】世界杯數據可視化分析/
6.11.1 世界杯成績匯總信息分析/
6.11.2 世界杯比賽信息分析/
6.12 本章小結/
第7章集成Hive數據倉庫/
7.1 Spark on Hive操作數據倉庫/
7.1.1 安裝Hive/
7.1.2 啟動元數據服務/
7.1.3 配置Spark on Hive/
7.1.4 驗證Spark on Hive/
7.2 使用MySQL替換Hive元數據服務/
7.2.1 初始化MySQL/
7.2.2 配置Spark on MySQL/
7.2.3 驗證Spark on MySQL/
7.3【實戰案例】基于Hive數據倉庫的電商數據分析/
7.3.1 數據集成/
7.3.2 爆款產品分析/
7.3.3 月交易情況分析/
7.3.4 忠誠客戶分析/
7.3.5 客戶區域分析/
7.4 本章小結/
第8章 Spark Streaming流式數據處理/
8.1 流式數據處理概述/
8.1.1 靜態數據和流式數據/
8.1.2 批量計算和實時計算/
8.1.3 流式計算/
8.2 Spark Streaming概述/
8.3 StreamingContext介紹/
8.4 DStream介紹/
8.5 DStream的創建/
8.5.1 通過文件創建/
8.5.2 通過套接字創建/
8.5.3 通過RDD隊列創建/
8.6 DStream的Transformation操作/
8.6.1 無狀態轉換/
8.6.2 有狀態轉換/
8.7 DStream的輸出操作/
8.8 DStream的SQL操作/
8.9 DStream的持久化/
8.10【實戰案例】地震數據處理分析/
8.10.1 數據集成/
8.10.2 震級大小分布分析/
8.10.3 震源深度分布分析/
8.10.4 震中坐標分布分析/
8.10.5 中等地震分布分析/
8.11 本章小結/
第9章 Structured Streaming結構化流處理/
9.1 編程模型/
9.1.1 基本概念/
9.1.2 事件時間和延遲數據/
9.1.3 容錯語義/
9.2 流式DataFrame的創建/
9.2.1 通過文件源創建/
9.2.2 通過Socket源創建/
9.2.3 通過Rate源創建/
9.2.4 通過Kafka源創建/
9.3 流式DataFrame的操作/
9.3.1 事件時間窗口/
9.3.2 處理延遲數據和水印/
9.3.3 連接操作/
9.3.4 消除重復數據/
9.3.5 不支持的操作/
9.4 啟動流式處理查詢/
9.4.1 輸出模式/
9.4.2 輸出接收器/
9.4.3 觸發器/
9.5 管理流式查詢/
9.6 監控流式查詢/
9.7【實戰案例】氣象數據處理分析/
9.7.1 數據集成/
9.7.2 云量分布分析/
9.7.3 氣溫分布分析/
9.7.4 降水量分布分析/
9.8 本章小結/
第10章 Spark機器學習庫MLlib/
10.1 機器學習介紹/
10.1.1 基本概念/
10.1.2 評估指標/
10.1.3 主要過程/
10.1.4 基于大數據的機器學習/
10.2 MLlib介紹/
10.3 數據預處理/
10.3.1 缺失值處理/
10.3.2 無量綱化處理/
10.3.3 特征數據處理/
10.4 特征提取和轉換/
10.5 回歸算法介紹/
10.5.1 線性回歸算法介紹/
10.5.2 回歸樹算法介紹/
10.6 分類算法介紹/
10.6.1 邏輯回歸算法介紹/
10.6.2 支持向量機算法介紹/
10.7聚類算法介紹/
10.7.1K-means算法介紹/
10.7.2高斯混合模型介紹/
10.8【實戰案例】信用卡欺詐數據分析/
10.8.1 數據預覽/
10.8.2 機器學習訓練/
10.9 本章小結/
第11章綜合實戰：基于協同過濾的圖書推薦系統/
11.1 項目介紹/
11.2 協同過濾算法/
11.2.1 協同過濾算法介紹/
11.2.2 相似度度量/
11.2.3 交替*小二乘法/
11.3 項目實現/
11.3.1 數據集成/
11.3.2 數據分析/
11.3.3 結果導出/
11.4 數據可視化/
11.4.1 Flask框架介紹/
11.4.2 推薦結果展示/
11.5 項目部署/
11.6 本章小結/
參考文獻/

展開全部

PYSPARK大數據分析實戰作者簡介

伍鮮，就職于中電金信軟件有限公司，擔任高級軟件工程師。擁有多年金融領域大數據處理實戰經驗，曾負責多家銀行的Teradata數據倉庫、FusionInsight大數據集群、阿里云大數據倉庫、智能營銷客戶集市和客戶中心建設。
熱衷于各種主流技術，對大數據技術棧Hadoop、Hive、Spark、Kafka等有深入研究。熱愛數據科學、機器學習、云計算、人工智能通過了微軟Azure開發人員、Azure數據工程師Azure解決方案架構師專家認證，對Databricks的使用有豐富的經驗。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
月亮與六便士
月亮與六便士
毛姆
¥19.1~~¥42.0~~
>
伯納黛特,你要去哪(2021新版)
伯納黛特,你要去哪(2021新版)
[美] 瑪利亞·森普爾著，何雨珈譯
¥16.9~~¥49.8~~
>
我從未如此眷戀人間
我從未如此眷戀人間
史鐵生/汪曾祺
¥16.9~~¥49.8~~
>
二體千字文
二體千字文
本書編委會
¥16.0~~¥40.0~~
>
伊索寓言-世界文學名著典藏-全譯本
伊索寓言-世界文學名著典藏-全譯本
[古希臘] 伊索著，陳韻如譯
¥6.7~~¥19.0~~
>
李白與唐代文化
李白與唐代文化
葛景春
¥11.3~~¥29.8~~
>
龍榆生：詞曲概論/大家小書
龍榆生：詞曲概論/大家小書
龍榆生
¥9.8~~¥24.0~~
>
隨園食單
隨園食單
袁枚
¥18.2~~¥48.0~~

本類暢銷

不良情緒應急處理包--孤獨感

中圖網

¥12.9~~¥30~~
不良情緒應急處理包--精神內耗

中圖網

¥12.9~~¥30~~
孩子、家庭和外部世界

唐納德·溫尼科特

¥17.8~~¥56~~
北魏政治史(二)

張金龍著

¥26.2~~¥70~~
北魏政治史(四)

張金龍著

¥24.4~~¥65~~
北魏政治史(八)

張金龍著

¥20.8~~¥55~~

中图网(原中国图书网)：网上书店，尾货特色书店，30万种特价书低至2折！

包郵 PYSPARK大數據分析實戰

PYSPARK大數據分析實戰版權信息

PYSPARK大數據分析實戰本書特色

PYSPARK大數據分析實戰內容簡介

PYSPARK大數據分析實戰目錄

PYSPARK大數據分析實戰作者簡介

月亮與六便士

伯納黛特,你要去哪(2021新版)

我從未如此眷戀人間

二體千字文

伊索寓言-世界文學名著典藏-全譯本

李白與唐代文化

龍榆生：詞曲概論/大家小書

隨園食單

不良情緒應急處理包--孤獨感

不良情緒應急處理包--精神內耗

孩子、家庭和外部世界

北魏政治史(二)

北魏政治史(四)

北魏政治史(八)

熊千佳昆蟲記

每日論語

張學良人格圖譜

人間草木

朱仙鎮年畫:七日談

房思琪的初戀樂園

包郵 PYSPARK大數據分析實戰

PYSPARK大數據分析實戰 版權信息

PYSPARK大數據分析實戰 本書特色

PYSPARK大數據分析實戰 內容簡介

PYSPARK大數據分析實戰 目錄

PYSPARK大數據分析實戰 作者簡介

PYSPARK大數據分析實戰版權信息

PYSPARK大數據分析實戰本書特色

PYSPARK大數據分析實戰內容簡介

PYSPARK大數據分析實戰目錄

PYSPARK大數據分析實戰作者簡介