寫給大忙人的Hadoop 2 版權信息
- ISBN:9787121288050
- 條形碼:9787121288050 ; 978-7-121-28805-0
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
寫給大忙人的Hadoop 2 本書特色
本書首先介紹了hadoop的背景知識,包括hadoop 2和yarn的工作原理和對hadoop 1的改進,然后將數據湖與傳統存儲比較。第2章到第8章,分別介紹了hadoop 2和核心服務的安裝方法、hadoop分布式文件系統、mapreduce和yarn編程,以及利用apache pig等hadoop工具簡化編程。*后兩章講述了利用apache ambari等工具管理hadoop和基本的管理程序。附錄包括hadoop 2故障診斷和排除的基礎知識、apache hue和apache spark安裝等。本書通俗易懂,具有大量操作實例,易于上手,適合hadoop用戶、管理員、開發和運維人員、程序員、架構師、分析師和數據科學工作者閱讀。
寫給大忙人的Hadoop 2 內容簡介
理解hadoop 2和yarn的工作原理,以及它們對配備mapreduce的hadoop第1版的改進。理解基于hadoop的數據湖和rdbms數據倉庫的比較。在linux機器、虛擬的沙箱或集群中安裝hadoop 2和核心服務。研究hadoop分布式文件系統(hdfs)。理解mapreduce和yarn編程的基礎。利用apache pig、hive、sqoop、flume、oozie和hbase簡化編程。觀察應用程序運行進度、控制作業并管理工作流程。利用apache ambari高效地管理hadoop,包括建立從hdfs到nfsv3的網關、制作hdfs快照及配置yarn的攻略。學習hadoop 2故障診斷和排除的基礎知識,以及學習安裝apache hue和apache spark。
寫給大忙人的Hadoop 2 目錄
1背景和概念 1定義apache hadoop 1apache hadoop的發展簡史 3大數據的定義 4hadoop作為數據湖 5使用hadoop:管理員、用戶或兩種身份兼具 7原始的mapreduce 7apache hadoop的設計原則 8apache hadoop mapreduce示例 8mapreduce的優勢 10apache hadoop v1 mapreduce操作 11使用hadoop v2 超越mapreduce 13hadoop v2 yarn操作設計 14apache hadoop項目生態系統 16總結和補充資料 182安裝攻略 21核心hadoop服務 21hadoop配置文件 22規劃你的資源 23硬件的選擇 23軟件選擇 24在臺式機或筆記本電腦上安裝 25安裝hortonworks hdp 2.2沙箱 25用apache源代碼安裝hadoop 32配置單節點yarn服務器的步驟 33運行簡單的mapreduce示例 42安裝 apache pig(可選) 42安裝apache hive(可選) 43使用ambari安裝hadoop 44執行ambari安裝 45撤消ambari安裝 59使用apache whirr在云中安裝hadoop 59總結和補充資料 653hdfs基礎知識 67hdfs設計的特點 67hdfs組件 68hdfs塊復制 71hdfs安全模式 72機架的識別 73namenode高可用性 73hdfs namenode聯邦 75hdfs檢查點和備份 76hdfs快照 76hdfs nfs網關 76hdfs用戶命令 77簡要hdfs命令參考 77一般hdfs命令 78列出hdfs中的文件 79在hdfs中創建一個目錄 80將文件復制到hdfs 80從hdfs復制文件 81在hdfs中復制文件 81刪除在hdfs中的文件 81刪除在hdfs中的目錄 81獲取hdfs狀態報告 81hdfs的web圖形用戶界面 82在程序中使用hdfs 82hdfs java應用程序示例 82hdfs c應用程序示例 86總結和補充資料 884運行示例程序和基準測試程序 91列出可用的示例 92運行pi示例 93使用web界面監控示例 95運行基本hadoop基準測試程序 101運行terasort測試 101運行testdfsio基準 102管理hadoop mapreduce作業 103總結和補充資料 1045hadoop mapreduce框架 107mapreduce模型 107mapreduce并行數據流 110容錯和推測執行 114推測執行 114hadoop mapreduce硬件 115總結和補充資料 1156mapreduce 117編譯和運行hadoop wordcount的示例 117使用流式接口 122使用管道接口 125編譯和運行hadoop grep鏈示例 127調試mapreduce 131作業的列舉、清除和狀態查詢 131hadoop日志管理 131啟用yarn日志聚合 132web界面日志查看 133命令行日志查看 133總結和附加資源 1357基本的hadoop工具 137使用apache pig 137pig示例演練 138使用apache hive 140hive示例演練 140更高級的hive示例 142使用apache sqoop獲取關系型數據 145apache sqoop導入和導出方法 145apache sqoop版本更改 147sqoop示例演練 148使用apache flume獲取數據流 155flume的示例演練 157使用apache oozie管理 hadoop工作流 160oozie示例演練 162使用apache hbase 170hbase數據模型概述 170hbase示例演練 171總結和補充資料 1768hadoop yarn應用程序 179yarn分布式shell 179使用yarn分布式shell 180一個簡單的示例 181使用更多的容器 182帶有shell參數的分布式 shell 示例 183yarn應用程序的結構 185yarn應用程序框架 187hadoop mapreduce 188apache tez 188apache giraph 189hoya: hbase on yarn 189dryad on yarn 189apache spark 189apache storm 190apache reef:可持續計算執行框架 190hamster:hadoop和mpi在同一集群 190apache flink:可擴展的批處理和流式數據處理 191apache slider:動態應用程序管理 191總結和補充資料 1929用apache ambari管理hadoop 193快速瀏覽 apache ambari 194儀表板視圖 194服務視圖 197主機視圖 199管理視圖 201查看視圖 201admin下拉菜單 202更改hadoop屬性 206總結和補充資料 21210基本的hadoop管理程序 213基本的hadoop yarn管理 214停用yarn節點 214yarn webproxy 214使用 jobhistoryserver 215管理yarn作業 215設置容器內存 215設置容器核心 216設置mapreduce屬性 216基本的hdfs管理 217namenode用戶界面 217將用戶添加到hdfs 219在hdfs上執行fsck 220平衡hdfs 221hdfs安全模式 222停用hdfs節點 222secondarynamenode 223hdfs快照 223配置到hdfs的nfsv3網關 225容量調度程序背景知識 229hadoop 2的mapreduce兼容性 231啟用應用主控程序的重新啟動功能 231計算一個節點的承載容量 232運行hadoop 1的應用程序 233總結和補充資料 235附錄a本書的網頁和代碼下載 237附錄b入門流程圖和故障排除指南 239入門流程圖 239常見的hadoop故障排除指南 239規則1:不要驚慌 239規則2:安裝并使用ambari 244規則3:檢查日志 244規則4:簡化情況 245規則5:在互聯網上提問 245其他有用的提示 246附錄c按主題列出的apache hadoop資源匯總 253常規的hadoop 信息 253hadoop安裝攻略 253hdfs 254示例 255mapreduce 255mapreduce 編程 255基本工具 256yarn應用程序框架 257ambari管理 257基本的hadoop 管理 257附錄d安裝hue hadoop gui 259hue安裝 259安裝和配置hue 262啟動hue 263hue用戶界面 263附錄e安裝apache spark 267在集群上安裝spark 267在整個集群中啟動spark 268在偽分布式的單節點安裝版本中安裝和啟動spark 270運行spark示例 271
展開全部
寫給大忙人的Hadoop 2 作者簡介
Douglas Eadline,博士,作為一個Linux 集群HPC 革命的踐行者和記錄者開始他的職業生涯,而現在他在記錄大數據分析。從開始第一份操作文檔以來,道格寫了數百篇文章、白皮書,以及說明文檔,涵蓋高性能計算(HPC)的幾乎所有方面。在2005年啟動和編輯頗受歡迎的ClusterMonkey.net 網站之前,他擔任ClusterWorld 雜志的主編,并曾是Linux 雜志的HPC 資深編輯。 他具有多方面的HPC 實際操作經驗,包括硬件和軟件設計、基準測試、存儲、GPU、云計算和并行計算。 目前, 他是一名作家和 HPC 行業顧問, 并且是Limulus 個人集群項目()的領導。他是Addison-Wesley 出版的HadoopFundamentals LiveLessons 和Apache Hadoop YARN Fundamentals LiveLessons 教學視頻的作者和Apache Hadoop™ YARN: Moving beyond MapReduce and Batch Processing withApache Hadoop™ 2 一書的合著者。