-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
SPARK基礎編程 版權信息
- ISBN:9787302644668
- 條形碼:9787302644668 ; 978-7-302-64466-8
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
SPARK基礎編程 本書特色
(1)作為Spark開發提供編程指導書,介紹Spark開發基礎知識、RDD編程、SQL編程、Streaming開發以及機器學習開發等內容。
(2)全書內容講解循序漸進,深入淺出,符合初學者學習的認識規律,易于讀者學習和掌握。
(3)從工程實踐的角度深入分析,引導讀者結合實際,從解決大數據應用場景實際需求的角度出發,用簡單、直接、高效的方法或工具解決具體問題。
(4)本書所介紹的Spark API,基于Spark 3.3.x,涉及的其他軟件,基本都選擇了較新的穩定版本。
(5)全書提供配套的數據、示例代碼、閱讀材料及練習題。
SPARK基礎編程 內容簡介
主要內容包括,大數據技術概述(或背景知識),Scala基礎知識,Spark基礎,RDD編程,Spark SQL開發,Spark Streaming / Structured Streaming編程,MLLib 機器學習編程等基礎內容。 主要作為本科生數據科學與大數據技術、計算機科學與技術等相關專業必修或選修課程教科書,或作為相關工程技術人員的參考書。 本教材基于Spark 3.3.x等新版本所帶來的開發方式、方法的變化,從工業、服務業等行業實際應用開發的角度,介紹Spark開發的基礎知識,開發過程中的注意事項,并提供合理建議,從而引導學習過程更貼近大數據開發實際。 除了不同于其他教材所講解的內容基礎未基于新的軟件產品或平臺外,本教程更是從工業、服務行業大數據開發實際需求出發,引導學習者養成良好的開發習慣,為高效率地解決實際問題打開堅實基礎。
SPARK基礎編程 目錄
第3章Spark開發基礎 3.1Spark概述 3.1.1Spark簡介 3.1.2Spark架構設計 3.2Spark安裝及部署 3.2.1安裝Spark 3.2.2Spark部署方式 3.3配置Spark訪問HDFS數據源 3.3.1Hadoop部署 3.3.2配置Spark訪問HDFS 3.4使用Spark shell 3.4.1啟動Spark shell 3.4.2使用Spark shell 3.4.3退出Scala Spark shell 3.4.4Spark shell常用選項 3.5Spark開發環境 3.5.1SBT 3.5.2IntelliJ IDEA 第4章Spark RDD編程 4.1RDD概述 4.2RDD編程基礎 4.2.1環境初始化 4.2.2交互式編程 4.2.3一個簡單的應用程序 4.3RDD常用操作 4.3.1轉換 4.3.2動作 4.3.3函數參數傳遞 4.4鍵/值對RDD 4.5共享變量 4.5.1廣播變量 4.5.2累加器 4.6文件數據讀寫 4.6.1從文件創建RDD 4.6.2保存RDD 4.7RDD程序例子 4.7.1詞頻統計WordCount 4.7.2文件合并 4.7.3求Top值 第5章Spark SQL編程 5.1Spark SQL基礎 5.1.1概述 5.1.2Spark SQL架構 5.1.3一個簡單的Spark SQL開發例子 5.2數據幀DataFrame 5.2.1DataFrame結構 5.2.2創建DataFrame 5.2.3DataFrame常用操作 5.2.4保存DataFrame 5.3數據集Dataset 5.3.1創建Dataset 5.3.2Dataset常用方法 5.4數據源 5.4.1通用load/save函數 5.4.2文件數據源 5.4.3Hive數據源 5.4.4SQL數據源 5.5安裝關系數據庫 5.5.1PostgreSQL 5.5.2MySQL Server 第6章Streaming編程 6.1流計算概述 6.1.1流計算背景 6.1.2流計算概念 6.1.3流計算框架 6.2Spark Streaming 6.2.1概述 6.2.2Spark Streaming簡單示例 6.2.3Spark Streaming開發基礎 6.2.4DStream常用操作 6.3Structured Streaming 6.3.1概述 6.3.2Structured Streaming簡單示例 6.3.3編程模型 6.3.4DataFrame和Dataset數據流API 6.4Structured Streaming編程實踐 6.4.1Kafka數據源準備 6.4.2Structured Streaming Kafka依賴包 6.4.3在Spark shell中連接Kafka 第7章Spark MLlib實踐 7.1機器學習 7.1.1機器學習概述 7.1.2機器學習常用術語 7.1.3機器學習的應用 7.1.4機器學習的方法 7.1.5大數據與機器學習 7.2Spark MLlib 7.2.1Spark機器學習概述 7.2.2MLlib概述 7.2.3MLlib機器學習管道 7.3MLlib初級實踐 7.3.1數據準備 7.3.2創建訓練集與測試集 7.3.3使用轉換器準備特征 7.3.4使用估計器構建模型 7.3.5創建管道 7.3.6評估模型 7.4超參數調優 7.4.1基于樹的模型 7.4.2k折交叉驗證 7.4.3管道優化 參考文獻
SPARK基礎編程 作者簡介
曹如軍,工學博士,溫州大學計算機與人工智能學院副教授。主要研究方向為空間大數據。具有豐富的企業經歷,開發或主持開發的項目或系統在業內有較好的口碑。
- >
煙與鏡
- >
自卑與超越
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
小考拉的故事-套裝共3冊
- >
二體千字文
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
月亮虎
- >
伯納黛特,你要去哪(2021新版)