-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
Hadoop+Spark+Python大數據處理從算法到實戰 版權信息
- ISBN:9787301321447
- 條形碼:9787301321447 ; 978-7-301-32144-7
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
Hadoop+Spark+Python大數據處理從算法到實戰 本書特色
1.書力求簡單、實用,堅持以實例為主,理論為輔。 從應用場景切入,圍繞新基建的云計算、大數據及人工智能,介紹大數據的概念與特點及典型的產業應用場景,使讀者了解大數據項目和機器學習開發過程,能設計不同場景下的項目架構,并做好不同業務下的數據建模。 2.Hadoop+spark+Python三合一,內容講解重點分明,細節具體。本書解析了每個領域內的復雜邏輯和豐富內涵,盡可能讓讀者用更低的成本,盡快掌握相關技術,緊跟時代步伐。本書大多數章節都包含實訓模塊,讓讀者在學完該章節的知識后能夠舉一反三,學以致用,早日投身新基建。 3.布局合理,循序漸進,自有章法。本書先介紹了入門級的容器化工具Docker 與 Kubernetes,然后介紹大數據的常用組件,為讀者的后續實踐打好基礎后,開始講解機器學習庫的相關用法;隨著人工智能的快速發展,神經網絡及相關的開發工具也愈發強大,因此引入了能解決更復雜問題,但操作又比較簡單的深度學習框架 TensorFlow。掌握TensorFlow,既彌補了 Spark、scikit-learn 的不足,又能應對更困難的場景。
Hadoop+Spark+Python大數據處理從算法到實戰 內容簡介
本書圍繞新基建的云計算、大數據及人工智能進行介紹,分為以下五個部分。 部分介紹大數據的概念與特點,以及典型的產業應用場景;第二部分介紹目前云計算中的一個重要的研究與應用領域—容器云,包含應用容器引擎Docker與容器編排工具Kubernetes;第三部分是大數據分析的基礎,也是大數據分析技術的重點,包含Hadoop、HBase、Hive、Spark的環境搭建及開發流程;第四部分是機器學習相關算法的應用,包含scikit-learn、SparkML、TensorFlow工具的使用;第五部分,以實例介紹如何使用Spark機器學習庫中的協同過濾算法,來實現一個基于Web的推薦系,以及介紹如何使用OpenCV與TensorFlow構建卷積神經網絡來實現基于Web的人臉識別。 本書輕理論,重實踐,適合有一定編程基礎,且對云計算、大數據、機器學習、人工智能感興趣,希望投身到新基建這一偉大事業的讀者學習。同時,本書還可作為廣大院校相關專業的教材和培訓參考用書。
Hadoop+Spark+Python大數據處理從算法到實戰 目錄
第1篇 入門篇
第 1 章 初識大數據 002
1.2 如何處理與分析大數據 004
1.3 大數據的產業應用 008
第2篇 準備篇
第 2 章 萬丈高樓平地起,使用 Docker 作地基 011
2.1 初識 Docker 011
2.2 搭建 Docker 運行環境 016
2.3 Docker 操作鏡像 029
2.4 Docker 操作容器 036
2.5 Docker 私有倉庫 045
2.6 Docker Compose 編排容器046
2.7 Portainer 可視化工具 053
2.8 實訓:構建 Nginx 鏡像并創建容器 055
第 3 章 團隊合作好,使用 Kubernetes 來協調 057
3.1 初識 Kubernetes057
3.2 搭建集群 063
3.4 Kubernetes Dashboard 管理工具 079
3.5 實訓:在集群中部署 Nginx 服務器集群 084
第3篇 技法篇
第 4 章 筑高樓,需利器,使用 Hadoop 做核心 088
4.1 Hadoop 簡介 088
4.2 HDFS 分布式文件系統 092
4.3 任務調度與資源管理器 YARN 097
4.4 MapReduce 分布式計算框架104
4.5 Hadoop 環境搭建 113
4.6 Hadoop 常用操作命令 127
4.7 實訓:在容器中部署 Hadoop集群 130
第 5 章 空間要靈活,使用 HBase 來管理 136
5.1 初識 HBase 136
5.2 HBase 環境搭建144
5.3 HBase Shell 操作 152
5.4 HBase Thrift 編程接口 160
5.5 Region 的拆分與合并 162
5.6 實訓:構建訂單管理表 165
第 6 章 數據需要規劃,使用 Hive 建倉庫169
6.1 初識 Hive 169
6.2 Hive 環境搭建 171
6.3 Hive 數據庫與表 176
6.4 表的類型 183
6.5 分桶查詢與排序 188
6.6 Sqoop 數據的導入導出 190
6.7 Hive Thrift 編程接口192
6.8 實訓:構建訂單分析數據倉庫 193
第 7 章 處理要夠快,使用 Spark 196
7.1 Spark 概述 196
7.2 Spark 核心原理 199
7.3 Spark 環境搭建 202
7.4 提交 Spark 應用 206
7.5 實訓:在容器中部署 Spark集群 209
第 8 章 數據無結構,使用 RDD 212
8.1 RDD 設計原理 212
8.2 RDD 編程 216
8.3 鍵值對 RDD 224
8.4 讀寫文件 230
8.5 集成 HBase 232
8.6 編程進階 234
8.7 實訓:分析商品銷售情況 240
第 9 章 數據有結構,使用 SQL 語句 245
9.1 Spark SQL 概述 245
9.2 創建 DataFrame 對象 249
9.3 DataFrame 常用的 API 254
9.4 保存 DataFrame 262
9.5 實訓:分析公司銷售業績 264
第 10 章 Spark 流式計算編程 268
10.1 流計算簡介 268
10.2 Discretized Stream 271
10.3 Structured Streaming 278
10.4 實訓:實時統計貸款金額 293
第4篇 算法篇
第 11 章 發掘數據價值,使用機器學習技術297
11.1 什么是機器學習 297
11.2 scikit-learn 機器學習庫303
11.3 Spark 機器學習庫 308
11.4 實訓:簡單的情感分析 310
第 12 章 處理分類問題313
12.1 分類問題概述 313
12.2 決策樹 .315
12.3 隨機森林 320
12.4 Logistic 回歸 325
12.5 支持向量機 329
12.6 貝葉斯 334
12.7 實訓:判斷用戶是否購買該商品 337
第 13 章 處理回歸問題 340
13.1 回歸問題概述 340
13.2 線性回歸與多項式回歸 342
13.3 決策樹回歸 347
13.4 實訓:預測房價 352
第 14 章 處理聚類問題 355
14.1 聚類問題概述 355
14.2 基于劃分聚類 356
14.3 基于模型聚類 359
14.4 實訓:對客戶進行聚類 363
第 15 章 關聯規則與協同過濾 365
15.1 關聯規則數據挖掘 365
15.2 協同過濾 368
15.3 實訓:使用 Spark ALS 推薦菜單 371
第 16 章 建立智能應用 374
16.1 構建簡單模型 374
16.2 自定義模型和自定義層 384
16.3 回調 386
16.4 保存與恢復模型 388
16.5 識別手寫字 391
16.6 實訓:貓狗識別 394
第5篇 實戰篇
第 17 章 綜合實戰:猜你喜歡401
17.1 項目背景與解決方案介紹 401
17.2 數據庫設計 403
17.3 推薦模型 404
17.4 前端網站 406
第 18 章 綜合實戰:人臉識別416
18.1 項目背景與解決方案介紹 416
18.2 圖像采集 418
18.3 訓練模型與識別人臉 422
Hadoop+Spark+Python大數據處理從算法到實戰 節選
Kubernetes 基本對象 Kubernetes 對象是 Kubernetes 系統中的持久性實體。Kubernetes 使用這些實體來表示集群的狀態。具體來說,它們可以描述以下內容。 (1)哪些容器化應用程序正在運行及在哪些節點上運行。 (2)這些應用程序可用的資源有哪些。 (3)有關這些應用程序行為的策略,如重新啟動策略,升級和容錯策略。 (4)對象創建后,Kubernetes 系統將持續運行以確保該對象存在并且按預定方式運行。 這里主要介紹 Kubernetes 基本對象。 1. Pod Pod 是 Kubernetes 應用程序的基本執行單元,是用戶創建或部署的 Kubernetes 對象模型中*小和*簡單的單元。Pod 表示在集群上運行的進程。Pod 封裝了應用程序的容器、存儲資源、唯一的網絡 IP 和控制容器運行方式的配置。Pod 表示部署的單位,它是 Kubernetes 中應用程序的單個實例。 Pod 可由單個容器或緊密耦合并共享資源的少量容器組成。 Docker 是 Kubernetes Pod 中*常用的容器運行時,而且 Pod 也支持其他容器運行時,如containerd、cri-O、rktlet 以及任何實現了 CRI (Container Runtime Interface,容器運行時接口)的容器。 Kubernetes 集群中的 Pod 可以通過以下兩種方式使用。 (1)一個 Pod 運行一個容器 “一個 Pod 對應一個容器”的模型是*常見的 Kubernetes 用法。在這種情況下,用戶可以將Pod 視為單個容器的包裝,Kubernetes 則直接管理 Pod,而不是直接管理容器。 (2)一個 Pod 運行多個容器 一個 Pod 封裝了一個應用程序,該程序由緊密耦合且需要共享資源的多個位于同一地點的容器組成。此時一個 Pod 會運行多個容器,如圖 3-2 所示。該 Pod 包含兩個容器:File Puller 和 WebServer。File Puller 容器負責從遠程數據源更新文件并將文件存入共享卷中,然后 Web Server 容器 從共享卷中獲取數據,并反饋給 Consumers。另外,在網絡資源方面,每個 Pod 分配有一個唯一的 IP 地址。Pod 中的每個容器都共享網絡名稱空間,包括 IP 地址和網絡端口。Pod 中的容器可以使用 localhost 相互通信。 在數據存儲方面,每個 Pod 可以指定一組共享存儲卷。Pod 中的所有容器都可以訪問共享卷,從而使這些容器可以共享數據。共享存儲卷還允許 Pod 中的持久數據保留下來,以防其中的容器需要重新啟動。 2. Service Pod 會經歷一個生命周期,能被創建,自然也能被銷毀。如果一個 Pod 正在對外提供服務,但是被銷毀掉了,應用程序就需要重新部署。此時新創建的 Pod IP 地址就可能改變,那么就需要建立一種機制,使客戶端感知不到后端 Pod 的變化。 Kubernetes 提供了一種名為“服務”的抽象來解決以上問題。服務定義了 Pods(多個 Pod)的邏輯集合及訪問它們的策略(有時將此模式稱為微服務)。 3. Volume 容器中的磁盤文件是臨時的。當容器崩潰時,kubelet 將重新啟動它,這會使容器以“干凈”的狀態啟動,容器內的文件將丟失。另外在 Pod 中同時運行多個容器時,通常有必要在這些容器之間共享文件。Kubernetes 提供了 Volume 抽象解決了這兩個問題。 Kubernetes 卷具有明確的生存期,這與封裝它的 Pod 相同。容器運行在 Pod 中,Pod 的生命周期比容器的生命周期長。卷的壽命超過了在 Pod 中運行的所有容器的壽命,并且在容器重新啟動時保留了數據。Kubernetes 支持多種類型的卷,并且 Pod 可以同時使用任意數量的卷。 卷的核心只是一個目錄,其中可能包含一些數據,Pod中的容器可以訪問該目錄。至于如何訪問,取決于卷的類型。容器中的進程可以看到由其 Docker 鏡像和卷組成的文件系統視圖。Docker 鏡像位于文件系統層次結構的根目錄中,所有卷均安裝在鏡像中的指定路徑上。卷不能裝載到其他卷上,也不能有到其他卷的硬鏈接。Pod 中的每個容器必須獨立指定每個卷的安裝位置。 4. Namespaces Kubernetes 支持在同一物理集群上構建多個虛擬集群,這些虛擬集群被稱為名稱空間。 Kubernetes 擁有 4 個初始的名稱空間。 (1)default:是沒有其他名稱空間對象的默認名稱空間,即在創建對象時,沒有指定其他名稱空間,則自動將對象劃分到 default 空間下。 (2)kube-system:Kubernetes 系統創建對象的名稱空間。 (3)kube-public:此名稱空間主要留給集群使用,對所有用戶(包括未經身份驗證的用戶)可讀,以防某些資源在整個集群中公開可見。 (4)kube-node-lease:Kubernetes 通過發送心跳來確定節點的可用性。當集群在擴展時,為了提高節點心跳的性能,就會更新 lease 對象,與每個節點關聯的 lease 對象都會放在 kube-node-lease名稱空間中。實際上,名稱空間的作用就是做資源隔離
Hadoop+Spark+Python大數據處理從算法到實戰 作者簡介
朱春旭,高級軟件工程師,長期為軟件開發公司、政府機構培訓大數據開發與應用課程,提供大數據技術咨詢與問題解決方案,對Python、大數據分析相關領域有深入研究。著有《Python編程完全自學教程》《Python數據分析與大數據處理從入門到精通》,培訓學員10000+。
- >
羅曼·羅蘭讀書隨筆-精裝
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
有舍有得是人生
- >
月亮虎
- >
李白與唐代文化
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
隨園食單
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)