包郵 數(shù)據(jù)清洗(大數(shù)據(jù)技術(shù)與應(yīng)用叢書)
-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
數(shù)據(jù)清洗(大數(shù)據(jù)技術(shù)與應(yīng)用叢書) 版權(quán)信息
- ISBN:9787302550877
- 條形碼:9787302550877 ; 978-7-302-55087-7
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
數(shù)據(jù)清洗(大數(shù)據(jù)技術(shù)與應(yīng)用叢書) 內(nèi)容簡介
數(shù)據(jù)清洗是大數(shù)據(jù)預(yù)處理的關(guān)鍵環(huán)節(jié)。面對錯綜復(fù)雜的數(shù)據(jù),傳統(tǒng)的清洗“臟”數(shù)據(jù)工作單調(diào)且異常辛苦,如果能利用正確的工具和方法,可以讓數(shù)據(jù)清洗工作變得事半功倍。該書講解數(shù)據(jù)清洗的理論知識和實際應(yīng)用,全書共8章:第1章主要帶領(lǐng)大家簡單認識數(shù)據(jù)清洗;第2章主要講解ETL技術(shù)相關(guān)的知識;第3章講解Kettle工具的基本使用;第4章主要講解數(shù)據(jù)清洗的**步——數(shù)據(jù)抽取;第5章主要講解數(shù)據(jù)清洗與檢驗;第6章主要講解數(shù)據(jù)轉(zhuǎn)換相關(guān)的知識;第7章主要講解數(shù)據(jù)加載相關(guān)的知識;第8章利用前面章節(jié)所學(xué)的知識構(gòu)建一個DVD租賃商店數(shù)據(jù)倉庫,目的是實現(xiàn)定期從源數(shù)據(jù)庫sakila中抽取增量數(shù)據(jù),轉(zhuǎn)換成符合DVD租賃業(yè)務(wù)的數(shù)據(jù),*后加載到DVD租賃商店數(shù)據(jù)倉庫中,便于后續(xù)在線DVD租賃商店的決策者對數(shù)據(jù)進行分析得出商業(yè)決策。該書附有配套視頻、源代碼、習(xí)題、教學(xué)設(shè)計、教學(xué)課件等資源。同時,為了幫助初學(xué)者更好地學(xué)習(xí)書中的內(nèi)容,還提供了在線答疑,歡迎讀者關(guān)注。 《數(shù)據(jù)清洗》可作為高等院校本專科計算機、信息管理等相關(guān)專業(yè)的大數(shù)據(jù)課程教材,也可供相關(guān)技術(shù)人員參考,是一本適合廣大計算機編程愛好者的優(yōu)秀讀物。
數(shù)據(jù)清洗(大數(shù)據(jù)技術(shù)與應(yīng)用叢書) 目錄
1.1 數(shù)據(jù)清洗的背景
1.1.1 數(shù)據(jù)質(zhì)量概述
1.1.2 數(shù)據(jù)質(zhì)量的評價指標
1.1.3 數(shù)據(jù)質(zhì)量的問題分類
1.2 數(shù)據(jù)清洗的定義
1.3 數(shù)據(jù)清洗的原理
1.4 數(shù)據(jù)清洗的基本流程
1.5 數(shù)據(jù)清洗的策略
1.6 常見的數(shù)據(jù)清洗方法
1.7 本章小結(jié)
1.8 本章習(xí)題
第2章 初識ETL
2.1 基于ETL的數(shù)據(jù)清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結(jié)構(gòu)
2.2 ETL關(guān)鍵技術(shù)
2.2.1 數(shù)據(jù)的抽取
2.2.2 數(shù)據(jù)的清洗轉(zhuǎn)換
2.2.3 數(shù)據(jù)的加載
2.3 ETL常見工具介紹
2.4 本章小結(jié)
2.5 本章習(xí)題
第3章 Kettle工具的基本使用
3.1 Kettle簡介
3.1.1 Kettle概述
3.1.2 Kettle的設(shè)計原則
3.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉(zhuǎn)換
3.3.2 作業(yè)
3.4 Kettle的基本功能
3.4.1 轉(zhuǎn)換管理
3.4.2 作業(yè)管理
3.4.3 數(shù)據(jù)庫連接
3.5 本章小結(jié)
3.6 本章習(xí)題
第4章 數(shù)據(jù)抽取
4.1 抽取文本數(shù)據(jù)
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數(shù)據(jù)
4.2.1 HTML網(wǎng)頁的數(shù)據(jù)抽取
4.2.2 XML文件的數(shù)據(jù)抽取
4.2.3 JSON文件的數(shù)據(jù)抽取
4.3 抽取數(shù)據(jù)庫數(shù)據(jù)
4.3.1 抽取關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)
4.3.2 抽取非關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)
4.4 本章小結(jié)
4.5 本章習(xí)題
第5章 數(shù)據(jù)的清洗與檢驗
5.1 數(shù)據(jù)去重
5.1.1 完全去重
5.1.2 不完全去重
5.2 缺失值處理
5.2.1 缺失值清洗策略
5.2.2 去除缺失值
5.2.3 填充缺失值
5.3 異常值
5.3.1 出現(xiàn)異常值的原因
5.3.2 檢測異常值
5.3.3 刪除包含異常值的記錄
5.3.4 修補異常值
5.4 數(shù)據(jù)檢驗
5.4.1 數(shù)據(jù)一致性處理
5.4.2 數(shù)據(jù)規(guī)范化處理
5.5 本章小結(jié)
5.6 本章習(xí)題
第6章 數(shù)據(jù)轉(zhuǎn)換
6.1 多數(shù)據(jù)源的合并
6.2 不一致數(shù)據(jù)轉(zhuǎn)換
6.3 數(shù)據(jù)粒度的轉(zhuǎn)換
6.4 數(shù)據(jù)的商務(wù)規(guī)則計算
6.5 本章小結(jié)
6.6 本章習(xí)題
第7章 數(shù)據(jù)加載
7.1 數(shù)據(jù)的加載機制
7.1.1 全量加載
7.1.2 增量加載
7.2 數(shù)據(jù)的批量加載
7.3 本章小結(jié)
7.4 本章習(xí)題
第8章 綜合案例——構(gòu)建DVD租賃商店數(shù)據(jù)倉庫
8.1 案例概述
8.1.1 案例背景介紹
8.1.2 數(shù)據(jù)倉庫的架構(gòu)模型
8.1.3 數(shù)據(jù)倉庫效果預(yù)覽
8.2 數(shù)據(jù)準備
8.2.1 數(shù)據(jù)庫sakila的下載和安裝
8.2.2 數(shù)據(jù)庫sakila簡介
8.2.3 數(shù)據(jù)表簡介
8.3 案例實現(xiàn)
8.3.1 構(gòu)建DVD租賃商店數(shù)據(jù)倉庫
8.3.2 加載日期數(shù)據(jù)至日期維度表
8.3.3 加載時間數(shù)據(jù)至?xí)r間維度表
8.3.4 加載員工數(shù)據(jù)至員工維度表
8.3.5 加載用戶數(shù)據(jù)至用戶維度表
8.3.6 加載商店數(shù)據(jù)至商店維度表
8.3.7 加載演員數(shù)據(jù)至演員維度表
8.3.8 加載電影數(shù)據(jù)至電影維度表
8.3.9 加載租賃數(shù)據(jù)至租賃事實表
8.3.10 加載數(shù)據(jù)庫sakila中的數(shù)據(jù)至數(shù)據(jù)倉庫sakila_dw
8.4 本章小結(jié)
- >
羅曼·羅蘭讀書隨筆-精裝
- >
月亮虎
- >
朝聞道
- >
小考拉的故事-套裝共3冊
- >
莉莉和章魚
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
史學(xué)評論
- >
自卑與超越