中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >>
Kettle構(gòu)建Hadoop ETL系統(tǒng)實踐

包郵 Kettle構(gòu)建Hadoop ETL系統(tǒng)實踐

作者:王雪迎
出版社:清華大學(xué)出版社出版時間:2021-08-01
開本: 其他 頁數(shù): 322
中 圖 價:¥48.4(6.1折) 定價  ¥79.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

Kettle構(gòu)建Hadoop ETL系統(tǒng)實踐 版權(quán)信息

Kettle構(gòu)建Hadoop ETL系統(tǒng)實踐 本書特色

Kettle易用性好,編碼工作量小,功能完備,基于Java,允許多線程與并發(fā)執(zhí)行以提高效率。本書以CDH作為Hadoop平臺,結(jié)合銷售訂單示例,詳細介紹并演示如何使用Kettle完成Hadoop數(shù)據(jù)倉庫的ETL過程。本書適合大數(shù)據(jù)分析系統(tǒng)開發(fā)、數(shù)據(jù)倉庫系統(tǒng)設(shè)計與開發(fā)、DBA、架構(gòu)師等相關(guān)技術(shù)人員閱讀。

Kettle構(gòu)建Hadoop ETL系統(tǒng)實踐 內(nèi)容簡介

Kettle是一款國外開源的ETL工具,純Java編寫,無須安裝,功能完備,數(shù)據(jù)抽取高效穩(wěn)定。 本書介紹并演示如何用Kettle完成Hadoop數(shù)據(jù)倉庫上的ETL過程,所有的描繪場景與實驗環(huán)境都是基于Linux操作系統(tǒng)的虛擬機。全書共分10章,主要內(nèi)容包括ETL與Kettle的基本概念、Kettle安裝與配置、Kettle對Hadoop的支持、建立ETL示例模型、數(shù)據(jù)轉(zhuǎn)換與裝載、定期自動執(zhí)行ETL作業(yè)、維度表技術(shù)、事實表技術(shù),以及Kettle并行、集群與分區(qū)技術(shù)。 本書既適合大數(shù)據(jù)分析系統(tǒng)開發(fā)、數(shù)據(jù)倉庫系統(tǒng)設(shè)計與開發(fā)、DBA、架構(gòu)師等相關(guān)技術(shù)人員閱讀,也適合高等院校和培訓(xùn)機構(gòu)人工智能與大數(shù)據(jù)相關(guān)專業(yè)的師生參考。

Kettle構(gòu)建Hadoop ETL系統(tǒng)實踐 目錄

第1章 ETL與Kettle 1

1.1 ETL基礎(chǔ) 1

1.1.1 數(shù)據(jù)倉庫架構(gòu)中的ETL 1

1.1.2 數(shù)據(jù)抽取 3

1.1.3 數(shù)據(jù)轉(zhuǎn)換 5

1.1.4 數(shù)據(jù)裝載 6

1.1.5 開發(fā)ETL系統(tǒng)的方法 6

1.2 ETL工具 7

1.2.1 ETL工具的產(chǎn)生 7

1.2.2 ETL工具的功能 7

1.3 Kettle基本概念 10

1.3.1 Kettle設(shè)計原則 11

1.3.2 轉(zhuǎn)換 12

1.3.3 作業(yè) 15

1.3.4 數(shù)據(jù)庫連接 18

1.3.5 連接與事務(wù) 21

1.3.6 元數(shù)據(jù)與資源庫 21

1.3.7 工具 22

1.3.8 虛擬文件系統(tǒng) 26

1.4 為什么選擇Kettle 27

1.4.1 主要特性 27

1.4.2 與SQL的比較 27

1.5 小結(jié) 30

第2章 Kettle安裝與配置 31

2.1 安裝 31

2.1.1 確定安裝環(huán)境 31

2.1.2 安裝前準備 33

2.1.3 安裝運行Kettle 41

2.2 配置 43

2.2.1 配置文件和.kettle目錄 44

2.2.2 用于啟動Kettle程序的shell腳本 48

2.2.3 管理JDBC驅(qū)動 49

2.3 使用資源庫 50

2.3.1 Kettle資源庫簡介 50

2.3.2 創(chuàng)建數(shù)據(jù)庫資源庫 50

2.3.3 資源庫的管理與使用 51

2.4 小結(jié) 55

第3章 Kettle對Hadoop的支持 56

3.1 Hadoop相關(guān)的步驟與作業(yè)項 56

3.2 連接Hadoop 57

3.2.1 連接Hadoop集群 57

3.2.2 連接Hive 63

3.2.3 連接Impala 64

3.2.4 建立MySQL數(shù)據(jù)庫連接 66

3.3 導(dǎo)入導(dǎo)出Hadoop集群數(shù)據(jù) 67

3.3.1 向HDFS導(dǎo)入數(shù)據(jù) 67

3.3.2 向Hive導(dǎo)入數(shù)據(jù) 67

3.3.3 從HDFS抽取數(shù)據(jù)到MySQL 68

3.3.4 從Hive抽取數(shù)據(jù)到MySQL 70

3.4 執(zhí)行HiveQL語句 72

3.5 執(zhí)行MapReduce 72

3.5.1 生成聚合數(shù)據(jù)集 72

3.5.2 格式化原始Web日志 77

3.6 執(zhí)行Spark作業(yè) 81

3.6.1 在Kettle主機上安裝Spark客戶端 81

3.6.2 為Kettle配置Spark 81

3.6.3 提交Spark作業(yè) 82

3.7 小結(jié) 83

第4章 建立ETL示例模型 84

4.1 業(yè)務(wù)場景 84

4.1.1 操作型數(shù)據(jù)源 84

4.1.2 銷售訂單數(shù)據(jù)倉庫模型設(shè)計 85

4.2 Hive相關(guān)配置 86

4.2.1 選擇文件格式 86

4.2.2 選擇表類型 88

4.2.3 支持行級更新 92

4.2.4 Hive事務(wù)支持的限制 94

4.3 建立數(shù)據(jù)庫表 94

4.3.1 源數(shù)據(jù)庫表 94

4.3.2 RDS庫表 97

4.3.3 TDS庫表 98

4.4 裝載日期維度數(shù)據(jù) 100

4.5 小結(jié) 103

第5章 數(shù)據(jù)抽取 104

5.1 Kettle數(shù)據(jù)抽取概覽 104

5.1.1 文件抽取 105

5.1.2 數(shù)據(jù)庫抽取 116

5.2 變化數(shù)據(jù)捕獲 119

5.2.1 基于源數(shù)據(jù)的CDC 119

5.2.2 基于觸發(fā)器的CDC 125

5.2.3 基于快照的CDC 126

5.2.4 基于日志的CDC 130

5.3 使用Sqoop抽取數(shù)據(jù) 132

5.3.1 Sqoop簡介 132

5.3.2 使用Sqoop抽取數(shù)據(jù) 134

5.3.3 Sqoop優(yōu)化 137

5.4 小結(jié) 138

第6章 數(shù)據(jù)轉(zhuǎn)換與裝載 139

6.1 數(shù)據(jù)清洗 139

6.1.1 處理“臟數(shù)據(jù)” 139

6.1.2 數(shù)據(jù)清洗原則 140

6.1.3 數(shù)據(jù)清洗實例 140

6.2 Hive簡介 146

6.2.1 Hive體系結(jié)構(gòu) 147

6.2.2 Hive工作流程 148

6.2.3 Hive服務(wù)器 149

6.2.4 Hive優(yōu)化 152

6.3 初始裝載 160

6.3.1 系統(tǒng)初始化 162

6.3.2 裝載過渡區(qū) 164

6.3.3 裝載維度表 165

6.3.4 裝載事實表 167

6.3.5 設(shè)置*后裝載日期 168

6.4 定期裝載 168

6.4.1 設(shè)置系統(tǒng)日期 169

6.4.2 裝載過渡區(qū) 169

6.4.3 裝載維度表 169

6.4.4 裝載事實表 174

6.4.5 設(shè)置*后裝載日期 176

6.5 小結(jié) 178

第7章 定期自動執(zhí)行ETL作業(yè) 179

7.1 使用crontab 179

7.1.1 crontab權(quán)限 180

7.1.2 crontab命令 180

7.1.3 crontab文件 181

7.1.4 crontab示例 181

7.1.5 crontab環(huán)境 182

7.1.6 重定向輸出 183

7.2 使用Oozie 183

7.2.1 Oozie體系結(jié)構(gòu) 184

7.2.2 CDH 6.3.1中的Oozie 185

7.2.3 建立定期裝載工作流 185

7.2.4 建立協(xié)調(diào)器作業(yè)定期自動執(zhí)行工作流 197

7.2.5 在Kettle中執(zhí)行Oozie作業(yè) 200

7.2.6 Oozie優(yōu)化 201

7.3 使用start作業(yè)項 202

7.4 小結(jié) 203

第8章 維度表技術(shù) 205

8.1 增加列 205

8.1.1 修改數(shù)據(jù)庫模式 206

8.1.2 修改Sqoop作業(yè)項 206

8.1.3 修改定期裝載維度表的轉(zhuǎn)換 207

8.1.4 修改定期裝載事實表的轉(zhuǎn)換 210

8.1.5 測試 210

8.2 維度子集 211

8.2.1 建立包含屬性子集的子維度 212

8.2.2 建立包含行子集的子維度 214

8.2.3 使用視圖實現(xiàn)維度子集 216

8.3 角色扮演維度 217

8.3.1 修改數(shù)據(jù)庫模式 217

8.3.2 修改Kettle定期裝載作業(yè) 218

8.3.3 測試 220

8.3.4 一種有問題的設(shè)計 223

8.4 層次維度 224

8.4.1 固定深度的層次 224

8.4.2 多路徑層次 228

8.4.3 參差不齊的層次 229

8.4.4 遞歸 230

8.5 退化維度 238

8.5.1 退化訂單維度 239

8.5.2 修改定期裝載腳本 241

8.5.3 測試修改后的定期裝載 241

8.6 雜項維度 242

8.6.1 新增銷售訂單屬性雜項維度 245

8.6.2 修改定期裝載Kettle作業(yè) 246

8.6.3 測試修改后的定期裝載 247

8.7 維度合并 248

8.7.1 修改數(shù)據(jù)倉庫模式 249

8.7.2 初始裝載事實表 251

8.7.3 修改定期裝載Kettle作業(yè) 253

8.7.4 測試修改后的定期裝載 254

8.8 分段維度 255

8.8.1 年度銷售訂單星型模式 256

8.8.2 初始裝載 258

8.8.3 定期裝載 260

8.9 小結(jié) 261

第9章 事實表技術(shù) 262

9.1 事實表概述 262

9.2 周期快照 263

9.2.1 修改數(shù)據(jù)倉庫模式 263

9.2.2 創(chuàng)建快照表數(shù)據(jù)裝載Kettle轉(zhuǎn)換 265

9.3 累積快照 267

9.3.1 修改數(shù)據(jù)庫模式 268

9.3.2 修改增量抽取銷售訂單表的Kettle轉(zhuǎn)換 270

9.3.3 修改定期裝載銷售訂單事實表的Kettle轉(zhuǎn)換 270

9.3.4 修改定期裝載Kettle作業(yè) 271

9.3.5 測試 274

9.4 無事實的事實表 276

9.4.1 建立新產(chǎn)品發(fā)布的無事實的事實表 277

9.4.2 初始裝載無事實的事實表 278

9.4.3 修改定期裝載Kettle作業(yè) 280

9.4.4 測試定期裝載作業(yè) 281

9.5 遲到的事實 281

9.6 累積度量 289

9.7 小結(jié) 295

第10章 并行、集群與分區(qū) 296

10.1 數(shù)據(jù)分發(fā)方式與多線程 296

10.2 Carte子服務(wù)器 303

10.3 集群轉(zhuǎn)換 308

10.4 數(shù)據(jù)庫分區(qū) 315

10.5 小結(jié) 322

展開全部

Kettle構(gòu)建Hadoop ETL系統(tǒng)實踐 作者簡介

王雪迎 ,畢業(yè)于中國地質(zhì)大學(xué)計算機專業(yè),高級工程師,20年數(shù)據(jù)庫、數(shù)據(jù)倉庫相關(guān)技術(shù)工作經(jīng)驗。先后供職于北京現(xiàn)代商業(yè)信息技術(shù)有限公司、北京在線九州信息技術(shù)服務(wù)有限公司、華北計算技術(shù)研究所、北京優(yōu)貝在線網(wǎng)絡(luò)科技有限公司,擔(dān)任DBA、數(shù)據(jù)架構(gòu)師等職位。著有圖書《Hadoop構(gòu)建數(shù)據(jù)倉庫實踐》《HAWQ數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)崙?zhàn)》《SQL機器學(xué)習(xí)庫MADlib技術(shù)解析》《MySQL高可用實踐》。

商品評論(0條)
暫無評論……
書友推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 权威废金属|废塑料|废纸|废铜|废钢价格|再生资源回收行情报价中心-中废网 | WTB5光栅尺-JIE WILL磁栅尺-B60数显表-常州中崴机电科技有限公司 | 口信网(kousing.com) - 行业资讯_行业展会_行业培训_行业资料 | 大米加工设备|大米加工机械|碾米成套设备|大米加工成套设备-河南成立粮油机械有限公司 | 考试试题_试卷及答案_诗词单词成语 - 优易学 | 大学食堂装修设计_公司餐厅效果图_工厂食堂改造_迈普装饰 | bng防爆挠性连接管-定做金属防爆挠性管-依客思防爆科技 | 健康管理师报考条件,考试时间,报名入口—首页 | 光谱仪_积分球_分布光度计_灯具检测生产厂家_杭州松朗光电【官网】 | (中山|佛山|江门)环氧地坪漆,停车场地板漆,车库地板漆,聚氨酯地板漆-中山永旺地坪漆厂家 | 吹塑加工_大型吹塑加工_滚塑代加工-莱力奇吹塑加工有限公司 | 机构创新组合设计实验台_液压实验台_气动实训台-戴育教仪厂 | 智能垃圾箱|垃圾房|垃圾分类亭|垃圾分类箱专业生产厂家定做-宿迁市传宇环保设备有限公司 | 车件|铜件|车削件|车床加工|五金冲压件-PIN针,精密车件定制专业厂商【东莞品晔】 | 机制砂选粉机_砂石选粉机厂家-盐城市助成粉磨科技有限公司 | 培训中心-翰香原香酥板栗饼加盟店总部-正宗板栗酥饼技术 | 浙江建筑资质代办_二级房建_市政_电力_安许_劳务资质办理公司 | 密度电子天平-内校-外校电子天平-沈阳龙腾电子有限公司 | 智慧旅游_智慧景区_微景通-智慧旅游景区解决方案提供商 | 磁力加热搅拌器-多工位|大功率|数显恒温磁力搅拌器-司乐仪器官网 | 防水试验机_防水测试设备_防水试验装置_淋雨试验箱-广州岳信试验设备有限公司 | 污水处理设备,一体化泵站,一体化净水设备-「梦之洁环保设备厂家」 | 桑茶-七彩贝壳桑叶茶 长寿茶| 重庆中专|职高|技校招生-重庆中专招生网 | 上海网站建设-上海网站制作-上海网站设计-上海做网站公司-咏熠软件 | 「安徽双凯」自动售货机-无人售货机-成人用品-自动饮料食品零食售货机 | 派克防爆伺服电机品牌|国产防爆伺服电机|高低温伺服电机|杭州摩森机电科技有限公司 | 脱硝喷枪-氨水喷枪-尿素喷枪-河北思凯淋环保科技有限公司 | 锻造液压机,粉末冶金,拉伸,坩埚成型液压机定制生产厂家-山东威力重工官方网站 | 专业的新乡振动筛厂家-振动筛品质保障-环保振动筛价格—新乡市德科筛分机械有限公司 | 上海风淋室_上海风淋室厂家_上海风淋室价格_上海伯淋 | 生物风-销售载体,基因,质粒,ATCC细胞,ATCC菌株等,欢迎购买-百风生物 | 北京企业宣传片拍摄_公司宣传片制作-广告短视频制作_北京宣传片拍摄公司 | 除甲醛公司-甲醛检测治理-杭州创绿家环保科技有限公司-室内空气净化十大品牌 | 宝元数控系统|对刀仪厂家|东莞机器人控制系统|东莞安川伺服-【鑫天驰智能科技】 | 雪花制冰机(实验室雪花制冰机)百科 | 科昊仪器超纯水机系统-可成气相液氮罐-美菱超低温冰箱-西安昊兴生物科技有限公司 | 玖容气动液压设备有限公司-气液增压缸_压力机_增压机_铆接机_增压器 | 河南档案架,档案密集架,手动密集架,河南密集架批发/报价 | 苏州柯瑞德货架-仓库自动化改造解决方案| 我车网|我关心的汽车资讯_汽车图片_汽车生活! |