-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
Hadoop權威指南 版權信息
- ISBN:9787302370857
- 條形碼:9787302370857 ; 978-7-302-37085-7
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
Hadoop權威指南 本書特色
準備好釋放數據的強大潛能了嗎?借助于這本《hadoop權威指南》,你將學習如何使用apache hadoop構建和維護穩定性高、伸縮性強的分布式系統。本書是為程序員寫的,可幫助他們分析任何大小的數據集。本書同時也是為管理員寫的,幫助他們了解如何設置和運行hadoop集群。 本書通過豐富的案例學習來解釋hadoop的幕后機理,闡述了hadoop如何解決現實生活中的具體問題。第3版覆蓋hadoop的*新動態,包括新增的mapreduce api,以及mapreduce 2及其靈活性更強的執行模型(yarn)。
Hadoop權威指南 內容簡介
新版新特色,內容更權威,更適合收藏和找hadoop之父簽名兒! 2014年12月13日中國大數據大會,http://bdtc2014.hadooper.cn/ 歡迎光臨新云南皇冠假日酒店,與hadoop之父doug cutting不見不散!
Hadoop權威指南 目錄
1.1 數據!數據!
1.2 數據的存儲與分析
1.3 相較于其他系統的優勢
1.3.1 關系型數據庫管理系統
1.3.2 網格計算
1.3.3 志愿計算
1.4 hadoop發展簡史
1.5 apache hadoop和hadoop生態系統
1.6 hadoop的發行版本
1.6.1 本書包含的內容
1.6.2 兼容性
第2章 關于mapreduce
2.1 氣象數據集
2.2 使用unix工具來分析數據
2.3 使用hadoop來分析數據
2.3.1 map和reduce
2.3.2 java mapreduce
2.4 橫向擴展
2.4.1 數據流
2.4.2 combiner函數
2.4.3 運行分布式的mapreduce作業
2.5 hadoop streaming
2.5.1 ruby版本
2.5.2 python版本
2.6 hadoop pipes
第3章 hadoop分布式文件系統
3.1 hdfs的設計
3.2 hdfs的概念
3.2.1 數據塊
3.2.2 namenode和datanode
3.2.3 聯邦hdfs
3.2.4 hdfs的高可用性
3.3 命令行接口
3.4 hadoop文件系統
3.5 java接口
3.5.1 從hadoop url讀取數據
3.5.2 通過filesystem api讀取數據
3.5.3 寫入數據
3.5.4 目錄
3.5.5 查詢文件系統
3.5.6 刪除數據
3.6 數據流
3.6.1 剖析文件讀取
3.6.2 剖析文件寫入
3.6.3 一致模型
3.7 通過flume和sqoop導入數據
3.8 通過distcp并行復制
3.9 hadoop存檔
3.9.1 使用hadoop存檔工具
3.9.2 不足
第4章 hadoop的i/o操作
4.1 數據完整性
4.1.1 hdfs的數據完整性
4.1.2 localfilesystem
4.1.3 checksumfilesystem
4.2 壓縮
4.2.1 codec
4.2.2 壓縮和輸入分片
4.2.3 在mapreduce中使用壓縮
4.3 序列化
4.3.1 writable接口
4.3.2 writable類
4.3.3 實現定制的writable集合
4.3 序列化框架
4.4 avro
4.4.1 avro數據類型和模式
4.4.2 內存中的序列化和反序列化
4.4.3 avro數據文件
4.4.4 互操作性
4.4.5 模式的解析
4.4.6 排列順序
4.4.7 關于avro mapreduce
4.4.8 使用avro mapreduce進行排序
4.4.9 其他語言的avro mapreduce
4.5 基于文件的數據結構
4.5.1 關于sequencefile
4.5.2 關于mapfile
第5章 mapreduce應用開發
5.1 用于配置的api
5.1.1 資源合并
5.1.2 可變的擴展
5.2 配置開發環境
5.2.1 管理配置
5.2.2 輔助類genericoptionsparser,tool和toolrunner
5.3 用mrunit來寫單元測試
5.3.1 關于mapper
5.3.2 關于reducer
5.4 本地運行測試數據
5.4.1 在本地作業運行器上運行作業
5.4.2 測試驅動程序
5.5 在集群上運行
5.5.1 打包作業
5.5.2 啟動作業
5.5.3 mapreduce的web界面
5.5.4 獲取結果
5.5.5 作業調試
5.5.6 hadoop日志
5.5.7 遠程調試
5.6 作業調優
5.7 mapreduce的工作流
5.7.1 將問題分解成mapreduce作業
5.7.2 關于jobcontrol
5.7.3 關于apache oozie
第6章 mapreduce的工作機制
6.1 剖析mapreduce作業運行機制
6.1.1 經典的mapreduce (mapreduce 1)
6.1.2 yarn (mapreduce 2)
6.2 失敗
6.2.1 經典mapreduce中的失敗
6.2.2 yarn中的失敗
6.3 作業的調度
6.3.1 公平調度器
6.3.2 容量調度器
6.4 shuffle和排序
6.4.1 map端
6.4.2 reduce端
6.4.3 配置調優
6.5 任務的執行
6.5.1 任務執行環境
6.5.2 推測執行
6.5.3 關于outputcommitters
6.5.4 任務jvm重用
6.5.5 跳過壞記錄
第7章 mapreduce的類型與格式
7.1 mapreduce的類型
7.1.1 默認的mapreduce作業
7.1.2 默認的streaming作業
7.2 輸入格式
7.2.1 輸入分片與記錄
7.2.2 文本輸入
7.2.3 二進制輸入
7.2.4 多個輸入
7.2.5 數據庫輸入(和輸出)
7.3 輸出格式
7.3.1 文本輸出
7.3.2 二進制輸出
7.3.3 多個輸出
7.3.4 延遲輸出
7.3.5 數據庫輸出
第8章 mapreduce的特性
8.1 計數器
8.1.1 內置計數器
8.1.2 用戶定義的java計數器
8.1.3 用戶定義的streaming計數器
8.2 排序
8.2.1 準備
8.2.2 部分排序
8.2.3 全排序
8.2.4 輔助排序
8.3 連接
8.3.1 map端連接
8.3.2 reduce端連接
8.4 邊數據分布
8.4.1 利用jobconf來配置作業
8.4.2 分布式緩存
8.5 mapreduce庫類
第9章 構建hadoop集群
9.1 集群規范
9.2 集群的構建和安裝
9.2.1 安裝java
9.2.2 創建hadoop用戶
9.2.3 安裝hadoop
9.2.4 測試安裝
9.3 ssh配置
9.4 hadoop配置
9.4.1 配置管理
9.4.2 環境設置
9.4.3 hadoop守護進程的關鍵屬性
9.4.4 hadoop守護進程的地址和端口
9.4.5 hadoop的其他屬性
9.4.6 創建用戶帳號
9.5 yarn配置
9.5.1 yarn守護進程的重要屬性
9.5.2 yarn守護進程的地址和端口
9.6 安全性
9.6.1 kerberos和hadoop
9.6.2 委托令牌
9.6.3 其他安全性改進
9.7 利用基準評測程序測試hadoop集群
9.7.1 hadoop基準評測程序
9.7.2 用戶作業
9.8 云端的hadoop
第10章 管理hadoop
10.1 hdfs
10.1.1 永久性數據結構
10.1.2 安全模式
10.1.3 日志審計
10.1.4 工具
10.2 監控
10.2.1 日志
10.2.2 度量
10.2.3 java管理擴展(jmx)
10.3 維護
10.3.1 日常管理過程
10.3.2 委任和解除節點
10.3.3 升級
第11章 關于pig
11.1 安裝與運行pig
11.1.1 執行類型
11.1.2 運行pig程序
11.1.3 grunt
11.1.4 pig latin編輯器
11.2 示例
11.3 與數據庫進行比較
11.4 pig latin
11.4.1 結構
11.4.2 語句
11.4.3 表達式
11.4.4 類型
11.4.5 模式
11.4.6 函數
11.4.7 宏
11.5 用戶自定義函數
11.5.1 過濾udf
11.5.2 計算udf
11.5.3 加載udf
11.6 數據處理操作
11.6.1 數據的加載和存儲
11.6.2 數據的過濾
11.6.3 數據的分組與連接
11.6.4 數據的排序
11.6.5 數據的組合和切分
11.7 pig實戰
11.7.1 并行處理
11.7.2 參數代換
第12章 關于hive
12.1 安裝hive
12.2 示例
12.3 運行hive
12.3.1 配置hive
12.3.2 hive服務
12.3.3 metastore
12.4 hive與傳統數據庫相比
12.4.1 讀時模式vs.寫時模式
12.4.2 更新、事務和索引
12.5 hiveql
12.5.1 數據類型
12.5.2 操作與函數
12.6 表
12.6.1 托管表和外部表
12.6.2 分區和桶
12.6.3 存儲格式
12.6.4 導入數據
12.6.5 表的修改
12.6.6 表的丟棄
12.7 查詢數據
12.7.1 排序和聚集
12.7.2 mapreduce腳本
12.7.3 連接
12.7.4 子查詢
12.7.5 視圖
12.8 用戶定義函數
12.8.1 寫udf
12.8.2 寫udaf
第13章 關于hbase
13.1 hbase基礎
13.2 概念
13.3.1 數據模型的“旋風之旅”
13.3.2 實現
13.3 安裝
13.4 客戶端
13.4.1 java
13.4.2 avro、rest和thrift
13.5 示例
13.5.1 模式
13.5.2 加載數據
13.5.3 web查詢
13.6 hbase和rdbms的比較
13.6.1 成功的服務
13.6.2 hbase
13.6.3 實例:hbase在streamy.com的使用
13.7 praxis
13.7.1 版本
13.7.2 hdfs
13.7.3 用戶界面
13.7.4 度量
13.7.5 模式的設計
13.7.6 計數器
13.7.7 批量加載
第14章 關于zookeeper
14.1 安裝和運行zookeeper
14.2 示例
14.2.1 zookeeper中的組成員關系
14.2.2 創建組
14.2.3 加入組
14.2.4 列出組成員
14.2.5 刪除組
14.3 zookeeper服務
14.3.1 數據模型
14.3.2 操作
14.3.3 實現
14.3.4 一致性
14.3.5 會話
14.3.6 狀態
14.4 使用zookeeper來構建應用
14.4.1 配置服務
14.4.2 可復原的zookeeper應用
14.4.3 鎖服務
14.4.4 更多分布式數據結構和協議
14.5 生產環境中的zookeeper
14.5.1 可恢復性和性能
14.5.2 配置
第15章 關于sqoop
15.1 獲取sqoop
15.2 sqoop連接器
15.3 一個導入的例子
15.4 生成代碼
15.5 深入了解數據庫導入
15.5.1 導入控制
15.5.2 導入和一致性
15.5.3 直接模式導入
15.6 使用導入的數據
15.7 導入大對象
15.8 執行導出
15.9 深入了解導出功能
15.9.1 導出與事務
15.9.2 導出和sequencefile
第16章 實例學習
16.1 hadoop 在last.fm的應用
16.1.1 last.fm:社會音樂史上的革命
16.1.2 hadoop在last.fm中的應用
16.1.3 用hadoop制作圖表
16.1.4 track statistics程序
16.1.5 總結
16.2 hadoop和hive在facebook的應用
16.2.1 hadoop在facebook的使用
16.2.2 虛構的使用樣例
16.2.3 hive
16.2.4 存在的問題與未來工作計劃
16.3 nutch搜索引擎
16.3.1 背景介紹
16.3.2 數據結構
16.3.3 nutch系統利用hadoop進行數據處理的精選實例
16.3.4 總結
16.4 rackspace的日志處理
16.4.1 要求/問題
16.4.2 簡史
16.4.3 選擇hadoop
16.4.4 收集和存儲
16.4.5 對日志的mapreduce處理
16.5 關于cascading
16.5.1 字段、元組和管道
16.5.2 操作
16.5.3 tap、scheme和flow
16.5.4 cascading實戰
16.5.5 靈活性
16.5.6 hadoop和cascading在sharethis的應用
16.5.7 總結
16.6 apache hadoop上萬億數量級排序
16.7 用pig和wukong探索10億數量級邊的網絡圖
16.7.1 社區判斷
16.7.2 每個人都在和我說話:twitter回復關系圖
16.7.3 對稱鏈接
16.7.4 社區提取
附錄a 安裝apache hadoop
附錄b 關于cdh
附錄c 準備ncdc氣象數據
Hadoop權威指南 相關資料
在這本《hadoop權威指南(第3版)》即將出版之際,我十分高興地再次向廣大讀者推薦這本書。
一本書的價值最重要的是取決于它的用途。今天,開源的hadoop已經成為研究大數據十分重要的平臺,在我國已經形成一個龐大的hadoop用戶社群,他們對學習、掌握和提高hadoop提出了很高的需求,《hadoop權威指南(第3版)》恰好滿足這樣的需要,其用途和價值不言而喻。這一點也可以從下面的事實中得到佐證:從2011年年底出版至今,本書的第2版已經實現了12次印刷,擁有近3.5萬名讀者并連續兩年位列專業圖書暢銷榜榜首。
一本書的價值還來自于它的內容。原著是用英文寫作的,它的內容組織得當,思路清晰,緊密結合實際。但是要把它翻譯成中文介紹給中國的讀者,并非易事。它不單單要求譯者能夠熟練地掌握英文,還要求他們對書中的技術性內容有深入、準確的了解和掌握。從這兩點來審視,本書的譯者團隊完全足以勝任。作為大學老師,他們不僅在大數據領域從事一線教學和科研,同時還負責指導研究生從事數據庫方面的研究。從 2006 年開始,他們就在計算機集群上部署了hadoop并成功完成了很多項研究。在這幾年的工作過程中,他們對hadoop及其應用開發有著深入的理解和認識,這是本書翻譯質量有保證的重要前提。
經過再一次升級、修訂和更新,值此《hadoop權威指南(第3版)》出版之際,我衷心地希望這本書繼續為廣大讀者帶來更高的學習價值,更友好的閱讀體驗。
周立柱@清華園
2014年秋
Hadoop權威指南 作者簡介
說明: E:\2011圖書\Hadoop權威指南(第2版)\Hadoop權威指南第2版info\Tom.jpgTom White 數學王子&Hadoop專家。身為Apache Hadoop提交者八年之久,Apache軟件基金會成員之一。全球知名云計算公司Cloudera的軟件工程師。Tom擁有英國劍橋大學數學學士學位和利茲大學科學哲學碩士學位。 【推薦序作者介紹】 Doug Cutting 三大有全球影響力的開源項目之父,Apache軟件基金會董事會成員,早年畢業于斯坦福大學。他打造的三大開源項目對企業市場具有重大而深遠的影響,其中最著名的當屬云計算和大數據領域的明星——Hadoop。
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
月亮與六便士
- >
隨園食單
- >
【精裝繪本】畫給孩子的中國神話
- >
名家帶你讀魯迅:朝花夕拾
- >
自卑與超越
- >
有舍有得是人生
- >
唐代進士錄