包郵 清華科技大講堂PYTHON數(shù)據(jù)分析實(shí)戰(zhàn)
-
>
全國(guó)計(jì)算機(jī)等級(jí)考試最新真考題庫(kù)模擬考場(chǎng)及詳解·二級(jí)MSOffice高級(jí)應(yīng)用
-
>
決戰(zhàn)行測(cè)5000題(言語(yǔ)理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(shū)(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
清華科技大講堂PYTHON數(shù)據(jù)分析實(shí)戰(zhàn) 版權(quán)信息
- ISBN:9787302518389
- 條形碼:9787302518389 ; 978-7-302-51838-9
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>
清華科技大講堂PYTHON數(shù)據(jù)分析實(shí)戰(zhàn) 本書(shū)特色
本書(shū)從理論和實(shí)戰(zhàn)兩個(gè)角度對(duì)Python數(shù)據(jù)分析工具進(jìn)行了介紹,并采用理論分析和Python實(shí)踐相結(jié)合的形式,按照數(shù)據(jù)分析的基本步驟對(duì)數(shù)據(jù)分析的理論知識(shí)及相應(yīng)的Python庫(kù)進(jìn)行了詳細(xì)的介紹 零基礎(chǔ)入門(mén)Python數(shù)據(jù)分析,兩個(gè)完整的項(xiàng)目案例,提供源碼和課件
清華科技大講堂PYTHON數(shù)據(jù)分析實(shí)戰(zhàn) 內(nèi)容簡(jiǎn)介
使用Python進(jìn)行數(shù)據(jù)分析是十分便利且高效的,因此它被認(rèn)為是很很好的數(shù)據(jù)分析工具之一。本書(shū)從理論和實(shí)戰(zhàn)兩個(gè)角度對(duì)Python數(shù)據(jù)分析工具進(jìn)行了介紹,并采用理論分析和Python實(shí)踐相結(jié)合的形式,按照數(shù)據(jù)分析的基本步驟對(duì)數(shù)據(jù)分析的理論知識(shí)以及相應(yīng)的Python庫(kù)進(jìn)行了詳細(xì)的介紹,讓讀者在了解數(shù)據(jù)分析的基本理論知識(shí)的同時(shí)能夠快速上手實(shí)現(xiàn)數(shù)據(jù)分析程序。 本書(shū)適用于對(duì)數(shù)據(jù)分析有濃厚興趣但不知從何下手的初學(xué)者,在閱讀數(shù)據(jù)分析的基礎(chǔ)理論知識(shí)的同時(shí)可以通過(guò)Python實(shí)現(xiàn)簡(jiǎn)單的數(shù)據(jù)分析程序,從而快速對(duì)數(shù)據(jù)分析的理論和實(shí)現(xiàn)兩個(gè)層次形成一定的認(rèn)知。
清華科技大講堂PYTHON數(shù)據(jù)分析實(shí)戰(zhàn) 目錄
1.1海量數(shù)據(jù)背后蘊(yùn)藏的知識(shí)
1.2數(shù)據(jù)分析與數(shù)據(jù)挖掘的關(guān)系
1.3機(jī)器學(xué)習(xí)與數(shù)據(jù)分析的關(guān)系
1.4數(shù)據(jù)分析的基本步驟
1.5Python和數(shù)據(jù)分析
第2章Python——從了解Python開(kāi)始
2.1Python的發(fā)展史
2.2Python及Pandas、scikitlearn、Matplotlib的安裝
2.2.1Windows環(huán)境下Python的安裝
2.2.2Mac環(huán)境下Python的安裝
2.2.3Pandas、scikitlearn和Matplotlib的安裝
2.2.4使用科學(xué)計(jì)算發(fā)行版Python進(jìn)行快速安裝
2.3Python基礎(chǔ)知識(shí)
2.3.1縮進(jìn)很重要
2.3.2模塊化的系統(tǒng)
2.3.3注釋
2.3.4語(yǔ)法
2.4重要的Python庫(kù)
2.4.1Pandas
2.4.2scikitlearn
2.4.3Matplotlib
2.4.4其他
2.5Jupyter
第3章數(shù)據(jù)預(yù)處理——不了解數(shù)據(jù)一切都是空談
3.1了解數(shù)據(jù)
3.2數(shù)據(jù)質(zhì)量
3.2.1完整性
3.2.2一致性
3.2.3準(zhǔn)確性
3.2.4及時(shí)性
3.3數(shù)據(jù)清洗
3.4特征工程
3.4.1特征選擇
3.4.2特征構(gòu)建
3.4.3特征提取
第4章NumPy——數(shù)據(jù)分析基礎(chǔ)工具
4.1多維數(shù)組對(duì)象ndarray
4.1.1ndarray的創(chuàng)建
4.1.2ndarray的數(shù)據(jù)類型
4.2ndarray的索引、切片和迭代
4.3ndarray的shape的操作
4.4ndarray的基礎(chǔ)操作
第5章Pandas——處理結(jié)構(gòu)化數(shù)據(jù)
5.1基本數(shù)據(jù)結(jié)構(gòu)
5.1.1Series
5.1.2DataFrame
5.2基于Pandas的Index對(duì)象的訪問(wèn)操作
5.2.1Pandas的Index對(duì)象
5.2.2索引的不同訪問(wèn)方式
5.3數(shù)學(xué)統(tǒng)計(jì)和計(jì)算工具
5.3.1統(tǒng)計(jì)函數(shù): 協(xié)方差、相關(guān)系數(shù)、排序
5.3.2窗口函數(shù)
5.4數(shù)學(xué)聚合和分組運(yùn)算
5.4.1agg()函數(shù)的聚合操作
5.4.2transform()函數(shù)的轉(zhuǎn)換操作
5.4.3使用apply()函數(shù)實(shí)現(xiàn)一般的操作
第6章數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)——一些常用的方法
6.1分類分析
6.1.1邏輯回歸
6.1.2線性判別分析
6.1.3支持向量機(jī)
6.1.4決策樹(shù)
6.1.5K近鄰
6.1.6樸素貝葉斯
6.2關(guān)聯(lián)分析
6.2.1基本概念
6.2.2典型算法
6.3聚類分析
6.3.1K均值算法
6.3.2DBSCAN
6.4回歸分析
6.4.1線性回歸分析
6.4.2支持向量回歸
6.4.3K近鄰回歸
第7章scikitlearn——實(shí)現(xiàn)數(shù)據(jù)的分析
7.1分類方法
7.1.1Logistic回歸
7.1.2SVM
7.1.3Nearest neighbors
7.1.4Decision Tree
7.1.5隨機(jī)梯度下降
7.1.6高斯過(guò)程分類
7.1.7神經(jīng)網(wǎng)絡(luò)分類(多層感知器)
7.1.8樸素貝葉斯示例
7.2回歸方法
7.2.1*小二乘法
7.2.2嶺回歸
7.2.3Lasso
7.2.4貝葉斯嶺回歸
7.2.5決策樹(shù)回歸
7.2.6高斯過(guò)程回歸
7.2.7*近鄰回歸
7.3聚類方法
7.3.1Kmeans
7.3.2Affinity propagation
7.3.3Meanshift
7.3.4Spectral clustering
7.3.5Hierarchical clustering
7.3.6DBSCAN
7.3.7Birch
第8章Matplotlib——交互式圖表繪制
8.1基本布局對(duì)象
8.2圖表樣式的修改以及裝飾項(xiàng)接口
8.3基礎(chǔ)圖表的繪制
8.3.1直方圖
8.3.2散點(diǎn)圖
8.3.3餅圖
8.3.4柱狀圖
8.3.5折線圖
8.3.6表格
8.3.7不同坐標(biāo)系下的圖像
8.4matplot3D
8.5Matplotlib與Jupyter結(jié)合
第9章實(shí)例: 科比職業(yè)生涯進(jìn)球分析
9.1預(yù)處理
9.2分析科比的命中率
9.3分析科比的投籃習(xí)慣
第10章實(shí)例: 世界杯
10.1數(shù)據(jù)說(shuō)明
10.2世界杯觀眾
10.3世界杯冠軍
10.4世界杯參賽隊(duì)伍與比賽
10.5世界杯進(jìn)球
參考文獻(xiàn)
清華科技大講堂PYTHON數(shù)據(jù)分析實(shí)戰(zhàn) 節(jié)選
第3章數(shù)據(jù)預(yù)處理——不了解數(shù)據(jù)一切都是空談 數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的**個(gè)重要步驟,只有對(duì)數(shù)據(jù)充分了解,經(jīng)過(guò)對(duì)數(shù)據(jù)質(zhì)量的檢驗(yàn),并初步嘗試解析數(shù)據(jù)間關(guān)系,才能為后續(xù)的數(shù)據(jù)分析提供有力支撐。了解數(shù)據(jù)是對(duì)數(shù)據(jù)本身的重視。數(shù)據(jù)分析是為了解決實(shí)際問(wèn)題,數(shù)據(jù)往往來(lái)源于實(shí)際生活,而直接收集到的數(shù)據(jù)總是存在一些問(wèn)題,例如存在缺失值、噪聲、數(shù)據(jù)不一致、數(shù)據(jù)冗余或者與分析目標(biāo)不相關(guān)等問(wèn)題。這些問(wèn)題十分普遍,所以,不了解數(shù)據(jù),一切都是空談。 了解數(shù)據(jù)的過(guò)程如下: 首先觀察統(tǒng)計(jì)數(shù)據(jù)的格式、內(nèi)容、數(shù)量; 然后分析數(shù)據(jù)質(zhì)量,是否存在缺失值、噪聲、數(shù)據(jù)不一致、數(shù)據(jù)冗余等問(wèn)題; *后分析數(shù)據(jù)相關(guān)性,是否存在數(shù)據(jù)冗余或者與分析目標(biāo)不相關(guān)等問(wèn)題。在現(xiàn)在的數(shù)據(jù)分析過(guò)程中,尤其是在利用機(jī)器學(xué)習(xí)的算法進(jìn)行數(shù)據(jù)分析的過(guò)程中,特征工程也是十分重要的一環(huán)。本章將對(duì)上述過(guò)程中的關(guān)鍵步驟進(jìn)行詳細(xì)介紹,具體內(nèi)容如下: 3.1節(jié)給出與數(shù)據(jù)相關(guān)的一些概念,以便于讀者的后續(xù)理解; 3.2節(jié)給出解決數(shù)據(jù)質(zhì)量的一系列數(shù)據(jù)校驗(yàn)的手段; 3.3節(jié)給出分析數(shù)據(jù)相關(guān)性的一系列方法; 3.4節(jié)講述特征工程所需進(jìn)行的步驟。 3.1了解數(shù)據(jù) 數(shù)據(jù)分為定性數(shù)據(jù)和定量數(shù)據(jù),其具體分類如圖31所示。定性數(shù)據(jù)包括兩個(gè)基本層次,即定序(ordinal)和名義(nominal)層次。定序變量指該變量只是對(duì)某些特性的“多少”進(jìn)行排序,但是各個(gè)等級(jí)之間的差別不確定。例如對(duì)某一個(gè)事物進(jìn)行評(píng)價(jià),將其分為好、一般、不好3個(gè)等級(jí),其等級(jí)之間沒(méi)有定量關(guān)系。名義變量則是指該變量只是測(cè)量某種特征的出現(xiàn)或者不出現(xiàn)。例如性別“男”和“女”,兩者之間沒(méi)有任何關(guān)系,不能排序或者刻度化。 圖31數(shù)據(jù)類別結(jié)構(gòu) 每一個(gè)細(xì)致的數(shù)據(jù)分析者首先需要考查每個(gè)變量的關(guān)鍵特征,通過(guò)這個(gè)過(guò)程可以更好地感受數(shù)據(jù),其中有兩個(gè)特征需要特別關(guān)注,即集中趨勢(shì)(central tendency)和離散程度(disperasion)。考查各個(gè)變量間的關(guān)系是了解數(shù)據(jù)十分重要的一步,有一系列方法可用于對(duì)變量間的相關(guān)性進(jìn)行測(cè)量。關(guān)于數(shù)據(jù)本身的質(zhì)量問(wèn)題,需要數(shù)據(jù)分析者了解數(shù)據(jù)缺失情況、噪聲及離群點(diǎn)等,相關(guān)概念將在下面的內(nèi)容中給出。 1. 集中趨勢(shì) 集中趨勢(shì)的主要測(cè)度是均值、中位數(shù)和眾數(shù),這3個(gè)概念對(duì)于大多數(shù)的讀者而言應(yīng)該不陌生。對(duì)于定量數(shù)據(jù),其均值、中位數(shù)和眾數(shù)的度量都是有效的; 對(duì)于定性數(shù)據(jù),這3個(gè)指標(biāo)所能提供的信息很少。對(duì)于定序變量,均值無(wú)意義,中位數(shù)和眾數(shù)能反映一定的含義; 對(duì)于名義變量,均值和中位數(shù)均無(wú)意義,僅眾數(shù)有一定的含義,但仍需注意,眾數(shù)僅代表對(duì)應(yīng)的特征出現(xiàn)*多,不能代表該特征占多數(shù)。其中,對(duì)于名義變量的二分變量,如果有合適的取值,均值就可以進(jìn)行有意義的解釋,詳細(xì)說(shuō)明將在后面的章節(jié)中闡述。 2. 離散程度 考慮變量的離散情況主要考慮變量的差別如何,常見(jiàn)的測(cè)度有極差、方差和標(biāo)準(zhǔn)差,另外還有四分位距、平均差和變異系數(shù)等。對(duì)于定量數(shù)據(jù)而言,極差代表數(shù)據(jù)所處范圍的大小,方差、標(biāo)準(zhǔn)差和平均差等代表數(shù)據(jù)相對(duì)均值的偏離情況,但是方差、標(biāo)準(zhǔn)差和平均差等都是數(shù)值的絕對(duì)量,無(wú)法規(guī)避數(shù)值度量單位的影響。變異系數(shù)為了修正這個(gè)弊端,使用標(biāo)準(zhǔn)差除以均值得到的一個(gè)相對(duì)量來(lái)反映數(shù)據(jù)集的變異情況或者離散程度。對(duì)于定性數(shù)據(jù),極差代表取值類別,相比定量數(shù)據(jù),定性數(shù)據(jù)的極差所表達(dá)的含義很有限,其他的離散程度測(cè)度對(duì)于定性數(shù)據(jù)的含義不大,尤其是對(duì)于名義變量。 3. 相關(guān)性測(cè)量 在進(jìn)行真正的數(shù)據(jù)分析之前,可以通過(guò)一些簡(jiǎn)單的統(tǒng)計(jì)方法計(jì)算變量之間的相關(guān)性,這些方法包括: 1) 數(shù)據(jù)可視化處理 將想要分析的變量繪制成折線圖或者散點(diǎn)圖,做圖表相關(guān)分析,變量之間的趨勢(shì)和聯(lián)系就會(huì)清晰浮現(xiàn)。雖然沒(méi)有對(duì)相關(guān)關(guān)系進(jìn)行準(zhǔn)確度量,但是可以對(duì)其有一個(gè)初步的探索和認(rèn)識(shí)。 2) 計(jì)算變量間的協(xié)方差 協(xié)方差可以確定相關(guān)關(guān)系的正與負(fù),但它并不反映關(guān)系的強(qiáng)度,如果變量的測(cè)量單位發(fā)生變化,這一統(tǒng)計(jì)量的值就會(huì)發(fā)生變化,但是實(shí)際變量間的相關(guān)關(guān)系并沒(méi)有發(fā)生變化。 3) 計(jì)算變量間的相關(guān)系數(shù) 相關(guān)系數(shù)則是一個(gè)不受測(cè)量單位影響的相關(guān)關(guān)系統(tǒng)計(jì)量,其理論上限是+1(或-1),表示完全線性相關(guān)。 4) 進(jìn)行一元回歸或多元回歸分析 如果兩個(gè)變量都是定性數(shù)據(jù)(定序變量或者名義變量),則在評(píng)估它們之間的關(guān)系時(shí),上述方法都不適用,例如畫(huà)散點(diǎn)圖等。定序變量可以采用肯德?tīng)栂嚓P(guān)系數(shù)進(jìn)行測(cè)量,當(dāng)值為1時(shí),表示兩個(gè)定序變量擁有一致的等級(jí)相關(guān)性; 當(dāng)值為-1時(shí),表示兩個(gè)定序變量擁有完全相反的等級(jí)相關(guān)性; 當(dāng)值為0時(shí),表示兩個(gè)定序變量是相互獨(dú)立的。對(duì)于兩個(gè)名義變量之間的關(guān)系,由于缺乏定序變量的各個(gè)值之間多或者少的特性,所以討論“隨著X增加,Y也傾向于增加”這樣的關(guān)系沒(méi)有意義,需要一個(gè)概要性的相關(guān)測(cè)度,例如可以采用Lamda系數(shù)。Lamda系數(shù)是一個(gè)預(yù)測(cè)性的相關(guān)測(cè)度,表示在預(yù)測(cè)Y時(shí)如果知道X能減少的誤差。 4. 數(shù)據(jù)缺失 將數(shù)據(jù)集中不含缺失值的變量稱為完全變量,將含有缺失值的變量稱為不完全變量,產(chǎn)生缺失值的原因通常有以下幾種: (1) 數(shù)據(jù)本身被遺漏,由于數(shù)據(jù)采集設(shè)備的故障、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障、一些人為因素等原因而丟失。 (2) 某些對(duì)象的一些屬性或者特征是不存在的,所以導(dǎo)致空缺。 (3) 某些信息被認(rèn)為不重要,與給定環(huán)境無(wú)關(guān),所以被數(shù)據(jù)庫(kù)設(shè)計(jì)者或者信息采集者忽略。 5. 噪聲 噪聲是指被觀測(cè)的變量的隨機(jī)誤差或方差,用數(shù)學(xué)形式表示如下: 觀測(cè)量(Measurement)=真實(shí)數(shù)據(jù)(True Data)+噪聲(Noise) 6. 離群點(diǎn) 在數(shù)據(jù)集中包含這樣一些數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)的一般行為或模型不一致,這樣的對(duì)象稱為離群點(diǎn)。離群點(diǎn)屬于觀測(cè)值。 3.2數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析結(jié)果的有效性和準(zhǔn)確性的前提保障,從哪些方面評(píng)估數(shù)據(jù)質(zhì)量則是數(shù)據(jù)分析需要考慮的問(wèn)題,典型的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)評(píng)估有4個(gè)要素,即完整性、一致性、準(zhǔn)確性和及時(shí)性。 3.2.1完整性 完整性指的是數(shù)據(jù)信息是否存在缺失的情況,數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價(jià)值會(huì)大大降低,因此完整性是數(shù)據(jù)質(zhì)量*基礎(chǔ)的一項(xiàng)評(píng)估標(biāo)準(zhǔn)。 數(shù)據(jù)質(zhì)量的完整性比較容易評(píng)估,一般可以通過(guò)數(shù)據(jù)統(tǒng)計(jì)中的記錄值和唯一值進(jìn)行評(píng)估。 下面從3.1節(jié)了解數(shù)據(jù)時(shí)得到的數(shù)據(jù)統(tǒng)計(jì)信息看看哪些可以用來(lái)審核數(shù)據(jù)的完整性。首先是記錄的完整性,一般使用統(tǒng)計(jì)的記錄數(shù)和唯一值個(gè)數(shù)。例如,網(wǎng)站日志日訪問(wèn)量就是一個(gè)記錄值,平時(shí)的日訪問(wèn)量在1000左右,若突然某一天降到100,則需要檢查數(shù)據(jù)是否存在缺失。再例如,網(wǎng)站統(tǒng)計(jì)地域分布情況的每一個(gè)地區(qū)名就是一個(gè)唯一值,我國(guó)包括了32個(gè)省和直轄市,如果統(tǒng)計(jì)得到的唯一值小于32,則可以判斷數(shù)據(jù)有可能存在缺失。 完整性的另一方面是記錄中某個(gè)字段的數(shù)據(jù)缺失,可以使用統(tǒng)計(jì)信息中的空值(NULL)的個(gè)數(shù)進(jìn)行審核。如果某個(gè)字段的信息在理論上必然存在,如訪問(wèn)的頁(yè)面地址、購(gòu)買(mǎi)商品的ID等,那么這些字段的空值個(gè)數(shù)的統(tǒng)計(jì)就應(yīng)該是0,這些字段可以使用非空(NOT NULL)約束來(lái)保證數(shù)據(jù)的完整性; 對(duì)于某些允許為空的字段,如用戶的cookie信息不一定存在(用戶禁用cookie),但空值的占比基本恒定,cookie為空的用戶比例通常是2%~3%。另外,也可以使用統(tǒng)計(jì)的空值個(gè)數(shù)來(lái)計(jì)算空值占比,如果空值的占比明顯增大,則很可能這個(gè)字段的記錄出現(xiàn)了問(wèn)題,信息出現(xiàn)缺失。 3.2.2一致性 一致性是指數(shù)據(jù)是否符合規(guī)范,數(shù)據(jù)集合內(nèi)的數(shù)據(jù)是否保持了統(tǒng)一的格式。 數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯上。數(shù)據(jù)記錄的規(guī)范主要是數(shù)據(jù)編碼和格式,一項(xiàng)數(shù)據(jù)存在它特定的格式,例如手機(jī)號(hào)碼一定是13位的數(shù)字,IP地址一定是由4個(gè)0~255的數(shù)字加上“.”組成的,或者是一些預(yù)先定義的數(shù)據(jù)約束,如完整性的非空約束、唯一值約束等。邏輯則指多項(xiàng)數(shù)據(jù)間存在著固定的邏輯關(guān)系以及一些預(yù)先定義的數(shù)據(jù)約束,例如PV一定是大于等于UV的,跳出率一定是在0~1范圍內(nèi)。數(shù)據(jù)的一致性審核是數(shù)據(jù)質(zhì)量審核中比較重要、比較復(fù)雜的一個(gè)方面。 如果數(shù)據(jù)記錄格式有標(biāo)準(zhǔn)的編碼規(guī)則,那么對(duì)數(shù)據(jù)記錄的一致性檢驗(yàn)比較簡(jiǎn)單,只要驗(yàn)證所有的記錄是否滿足這個(gè)編碼規(guī)則就可以,*簡(jiǎn)單的方法就是使用字段的長(zhǎng)度、唯一值個(gè)數(shù)這些統(tǒng)計(jì)量。例如,若用戶ID的編碼是15位數(shù)字,那么字段的*長(zhǎng)和*短字符數(shù)都應(yīng)該是15; 或者商品ID是以P開(kāi)始后面跟10位數(shù)字,可以用同樣的方法檢驗(yàn); 如果字段必須保證唯一,那么字段的唯一值個(gè)數(shù)跟記錄數(shù)應(yīng)該是一致的,如用戶的注冊(cè)郵箱; 地域的省份直轄市一定是統(tǒng)一編碼的,記錄的一定是“上海”而不是“上海市”,是“浙江”而不是“浙江省”,可以把這些唯一值映射到有效的32個(gè)省市的列表,如果無(wú)法映射,那么字段將不能通過(guò)一致性檢驗(yàn)。 一致性中邏輯規(guī)則的驗(yàn)證相對(duì)比較復(fù)雜,很多時(shí)候指標(biāo)的統(tǒng)計(jì)邏輯的一致性需要底層數(shù)據(jù)質(zhì)量的保證,同時(shí)也要有非常規(guī)范和標(biāo)準(zhǔn)的統(tǒng)計(jì)邏輯的定義,所有指標(biāo)的計(jì)算規(guī)則必須保證一致。用戶經(jīng)常犯的錯(cuò)誤就是匯總數(shù)據(jù)和細(xì)分?jǐn)?shù)據(jù)加起來(lái)的結(jié)果對(duì)不上,導(dǎo)致這個(gè)問(wèn)題的原因很有可能是在細(xì)分?jǐn)?shù)據(jù)的時(shí)候把那些無(wú)法明確歸到某個(gè)細(xì)分項(xiàng)的數(shù)據(jù)給排除了,如在細(xì)分訪問(wèn)來(lái)源的時(shí)候,如果無(wú)法將某些非直接進(jìn)入的來(lái)源明確地歸到外部鏈接、搜索引擎、廣告等這些既定的來(lái)源分類,也不應(yīng)該直接過(guò)濾掉這些數(shù)據(jù),而應(yīng)該給一個(gè)“未知來(lái)源”的分類,以保證根據(jù)來(lái)源細(xì)分之后的數(shù)據(jù)加起來(lái)可以與總體的數(shù)據(jù)保持一致。如果需要審核這些數(shù)據(jù)邏輯的一致性,可以建立一些“有效性規(guī)則”,例如A≥B,如果C=B/A,那么C的值應(yīng)該在0~1范圍內(nèi),數(shù)據(jù)若無(wú)法滿足這些規(guī)則就無(wú)法通過(guò)一致性檢驗(yàn)。 3.2.3準(zhǔn)確性 準(zhǔn)確性是指數(shù)據(jù)記錄的信息是否存在異常或錯(cuò)誤。和一致性不一樣,導(dǎo)致一致性問(wèn)題的原因可能是數(shù)據(jù)記錄規(guī)則不同,但不一定是錯(cuò)誤的,而存在準(zhǔn)確性問(wèn)題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致。準(zhǔn)確性關(guān)注數(shù)據(jù)中的錯(cuò)誤,*為常見(jiàn)的數(shù)據(jù)準(zhǔn)確性錯(cuò)誤就如亂碼。其次,異常的大或者小的數(shù)據(jù)以及不符合有效性要求的數(shù)值(例如訪問(wèn)量Visits)一定是整數(shù)、年齡一般為1~100、轉(zhuǎn)化率一定為0~1等。 數(shù)據(jù)的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集。如果整個(gè)數(shù)據(jù)集的某個(gè)字段的數(shù)據(jù)存在錯(cuò)誤,如常見(jiàn)的數(shù)量級(jí)的記錄錯(cuò)誤,則這種錯(cuò)誤很容易被發(fā)現(xiàn),利用Data Profiling的平均數(shù)和中位數(shù)也可以發(fā)現(xiàn)這類問(wèn)題。當(dāng)數(shù)據(jù)集中存在個(gè)別的異常值時(shí),可以使用*大值和*小值的統(tǒng)計(jì)量去審核,使用箱線圖也可以讓異常記錄一目了然。 另外,還存在幾個(gè)準(zhǔn)確性的審核問(wèn)題、字符亂碼的問(wèn)題或者字符被截?cái)嗟膯?wèn)題,可以使用分布來(lái)發(fā)現(xiàn)這類問(wèn)題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么占比異常小的數(shù)據(jù)項(xiàng)很可能存在問(wèn)題,如某個(gè)字符記錄占總體的占比只有0.1%,而其他字符的占比都在3%以上,那么很有可能這個(gè)字符記錄有異常,一些ETL工具的數(shù)據(jù)質(zhì)量審核會(huì)標(biāo)識(shí)出這類占比異常小的記錄值。對(duì)于數(shù)值范圍既定的數(shù)據(jù),也可以添加有效性的限制,超過(guò)數(shù)據(jù)有效的值域定義數(shù)據(jù)記錄就是錯(cuò)誤的。 有些數(shù)據(jù)并沒(méi)有顯著異常,但記錄的值仍然可能是錯(cuò)誤的,只是這些值與正常的值比較接近而已,這類準(zhǔn)確性檢驗(yàn)*困難,一般只能通過(guò)與其他來(lái)源或者統(tǒng)計(jì)結(jié)果進(jìn)行比對(duì)來(lái)發(fā)現(xiàn)問(wèn)題,如果使用超過(guò)一套數(shù)據(jù)收集系統(tǒng)或者網(wǎng)站分析工具,那么通過(guò)不同數(shù)據(jù)來(lái)源的數(shù)據(jù)比對(duì)可以發(fā)現(xiàn)一些數(shù)據(jù)記錄的準(zhǔn)確性問(wèn)題。 3.2.4及時(shí)性 及時(shí)性是指數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長(zhǎng)。及時(shí)性對(duì)于數(shù)據(jù)分析本身要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時(shí)間過(guò)長(zhǎng),就可能導(dǎo)致分析得出的結(jié)論失去了借鑒意義。所以需要對(duì)數(shù)據(jù)的有效時(shí)間進(jìn)行關(guān)注,例如每周的數(shù)據(jù)分析報(bào)告要兩周后才能出來(lái),那么分析的結(jié)論可能已經(jīng)失去時(shí)效性,分析師的工作只是徒勞; 同時(shí),某些實(shí)時(shí)分析和決策需要用到小時(shí)或者分鐘級(jí)的數(shù)據(jù),這些需求對(duì)數(shù)據(jù)的時(shí)效性要求極高。因此,及時(shí)性也是數(shù)據(jù)質(zhì)量的組成要素之一。 3.3數(shù)據(jù)清洗 數(shù)據(jù)清洗的主要目的是對(duì)缺失值、噪聲數(shù)據(jù)、不一致數(shù)據(jù)、異常數(shù)據(jù)進(jìn)行處理,是對(duì)上述數(shù)據(jù)質(zhì)量分析時(shí)發(fā)現(xiàn)的問(wèn)題進(jìn)行處理,使得清理后的數(shù)據(jù)格式符合標(biāo)準(zhǔn),不存在異常數(shù)據(jù)等。 1. 缺失值的處理 對(duì)于缺失值,處理方法有以下幾種: (1) *簡(jiǎn)單的方法是忽略有缺失值的數(shù)據(jù)。如果某條數(shù)據(jù)記錄存在缺失項(xiàng),就刪除該條記錄,如果某個(gè)屬性列缺失值過(guò)多,則在整個(gè)數(shù)據(jù)集中刪除該屬性,但有可能因此損失大量數(shù)據(jù)。 (2) 可以進(jìn)行缺失值填補(bǔ),可以填補(bǔ)某一固定值、平均值或者根據(jù)記錄填充*有可能值,*有可能值的確定可能會(huì)利用決策樹(shù)、回歸分析等。 2. 噪聲數(shù)據(jù)的處理 1) 分箱技術(shù) 分箱技術(shù)是一種常用的數(shù)據(jù)預(yù)處理的方法,通過(guò)考察相鄰數(shù)據(jù)來(lái)確定*終值,可以實(shí)現(xiàn)異常或者噪聲數(shù)據(jù)的平滑處理。其基本思想是按照屬性值劃分子區(qū)間,如果屬性值屬于某個(gè)子區(qū)間,就稱將其放入該子區(qū)間對(duì)應(yīng)“箱子”內(nèi),即為分箱操作。箱的深度表示箱中所含數(shù)據(jù)記錄的條數(shù),寬度則是對(duì)應(yīng)屬性值的取值范圍。在分箱后,考察每個(gè)箱子中的數(shù)據(jù),按照某種方法對(duì)每個(gè)箱子中的數(shù)據(jù)進(jìn)行處理,常用的方法有按照箱平均值、中值、邊界值進(jìn)行平滑等。在采用分箱技術(shù)時(shí),需要確定的兩個(gè)主要問(wèn)題是如何分箱以及如何對(duì)每個(gè)箱子中的數(shù)據(jù)進(jìn)行平滑處理。 2) 聚類技術(shù) 聚類技術(shù)是將數(shù)據(jù)集合分組為由類似的數(shù)據(jù)組成的多個(gè)簇(或稱為類)。聚類技術(shù)主要用于找出并清除落在簇之外的值(孤立點(diǎn)),這些孤立點(diǎn)被視為噪聲,不適合于平滑數(shù)據(jù)。聚類技術(shù)也可用于數(shù)據(jù)分析,其分類及典型算法等在6.3節(jié)有詳細(xì)說(shuō)明。 3) 回歸技術(shù) 回歸技術(shù)是通過(guò)發(fā)現(xiàn)兩個(gè)相關(guān)變量之間的關(guān)系尋找適合的兩個(gè)變量之間的映射關(guān)系來(lái)平滑數(shù)據(jù),即通過(guò)建立數(shù)學(xué)模型來(lái)預(yù)測(cè)下一個(gè)數(shù)值,包括線性回歸和非線性回歸,具體的方法在6.4節(jié)中說(shuō)明。 3. 不一致數(shù)據(jù)的處理 對(duì)于數(shù)據(jù)質(zhì)量中提到的數(shù)據(jù)不一致性問(wèn)題,需要根據(jù)實(shí)際情況給出處理方案,可以使用相關(guān)材料來(lái)人工修復(fù),違反給定規(guī)則的數(shù)據(jù)可以用知識(shí)工程的工具進(jìn)行修改。在對(duì)多個(gè)數(shù)據(jù)源集成處理時(shí),不同數(shù)據(jù)源對(duì)某些含義相同的字段的編碼規(guī)則會(huì)存在差異,此時(shí)需要對(duì)不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)化。 4. 異常數(shù)據(jù)的處理 異常數(shù)據(jù)大部分是很難修正的,如字符編碼等問(wèn)題引起的亂碼、字符被截?cái)唷惓5臄?shù)值等,這些異常數(shù)據(jù)如果沒(méi)有規(guī)律可循幾乎不可能被還原,只能將其直接過(guò)濾。 有些數(shù)據(jù)異常則可以被還原,如對(duì)于原字符中摻雜了一些其他的無(wú)用字符的情況,可以使用取子串的方法,用trim()函數(shù)去掉字符串前后的空格等; 對(duì)于字符被截?cái)嗟那闆r,如果可以使用截?cái)嗪笞址茖?dǎo)出原完整字符串,那么也可以被還原。當(dāng)數(shù)值記錄中存在異常大或者異常小的值時(shí),可以分析是否為數(shù)值單位差異引起的,如克和千克差了1000倍,這樣的數(shù)值異常可以通過(guò)轉(zhuǎn)化進(jìn)行處理。數(shù)值單位的差異也可以認(rèn)為是數(shù)據(jù)的不一致性,或者是某些數(shù)值被錯(cuò)誤地放大或縮小,如數(shù)值后面被多加了幾個(gè)0導(dǎo)致的數(shù)據(jù)異常。 3.4特征工程 在很多應(yīng)用中,所采集的原始數(shù)據(jù)維數(shù)很高,這些經(jīng)過(guò)數(shù)據(jù)清洗后的數(shù)據(jù)成為原始特征,但并不是所有的原始特征都對(duì)后續(xù)的分析可以直接提供信息,有些需要經(jīng)過(guò)一些處理,有些甚至是干擾項(xiàng)。特征工程是利用領(lǐng)域知識(shí)來(lái)處理數(shù)據(jù)創(chuàng)建一些特征,以便后續(xù)分析使用。特征工程包括特征選擇、特征構(gòu)建、特征提取。其目的是用盡量少的特征描述原始數(shù)據(jù),同時(shí)保持原始數(shù)據(jù)與分析目的相關(guān)的特性。 3.4.1特征選擇 特征選擇是指從特征集合中挑選一組*具統(tǒng)計(jì)意義的特征子集,從而達(dá)到降維的效果。特征選擇具體從以下幾個(gè)方面進(jìn)行考慮: (1) 特征是否發(fā)散。 如果一個(gè)特征不發(fā)散,例如方差接近于0,也就是說(shuō)樣本在這個(gè)特征上基本沒(méi)有差異,則這個(gè)特征對(duì)于樣本的區(qū)分并沒(méi)有什么用。 (2) 特征是否與分析結(jié)果相關(guān)。 相關(guān)特征是指其取值能夠改變分析結(jié)果。顯然,應(yīng)當(dāng)優(yōu)選選擇與目標(biāo)相關(guān)性高的特征。 (3) 特征信息是否冗余。 在特征中可能存在一些冗余特征,即兩個(gè)特征本質(zhì)上相同,也可以表示為兩個(gè)特征的相關(guān)性比較高。 進(jìn)行特征選擇有以下幾種方法: 1) Filter(過(guò)濾法) 按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,設(shè)定閾值或者待選擇閾值的個(gè)數(shù),選擇特征。 2) Wrapper(包裝法) 根據(jù)目標(biāo)函數(shù)(通常是預(yù)測(cè)效果評(píng)分),每次選擇若干特征或者排除若干特征。 3) Embedded(集成法) 首先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),然后根據(jù)系數(shù)從大到小選擇特征。其類似于Filter方法,但是它通過(guò)訓(xùn)練來(lái)確定特征的優(yōu)劣。 3.4.2特征構(gòu)建 特征構(gòu)建是指從原始特征中人工構(gòu)建新的特征。特征構(gòu)建需要很強(qiáng)的洞察力和分析能力,要求用戶能夠從原始數(shù)據(jù)中找出一些具有物理意義的特征。假設(shè)原始數(shù)據(jù)是表格數(shù)據(jù),可以使用混合屬性或者組合屬性來(lái)創(chuàng)建新的特征,或者通過(guò)分解或切分原有的特征來(lái)創(chuàng)建新的特征。 3.4.3特征提取 特征提取是在原始特征的基礎(chǔ)上自動(dòng)構(gòu)建新的特征,將原始特征轉(zhuǎn)換為一組更具物理意義、統(tǒng)計(jì)意義或者核的特征。其方法主要有主成分分析、獨(dú)立成分分析和線性判別分析。 1. PCA (Principal Component Analysis,主成分分析) PCA的思想是通過(guò)坐標(biāo)軸轉(zhuǎn)換尋找數(shù)據(jù)分布的*優(yōu)子空間,從而達(dá)到降維、去除數(shù)據(jù)間相關(guān)性的目的。在數(shù)學(xué)上是先用原始數(shù)據(jù)協(xié)方差矩陣的前N個(gè)*大特征值對(duì)應(yīng)的特征向量構(gòu)成映射矩陣,然后原始矩陣去乘映射矩陣,從而對(duì)原始數(shù)據(jù)降維。特征向量可以理解為坐標(biāo)軸轉(zhuǎn)換中新坐標(biāo)軸的方向,特征值表示矩陣在對(duì)應(yīng)特征向量上的方差,特征值越大,方差越大,信息量越多。 2. ICA (Independent Component Analysis,獨(dú)立成分分析) PCA特征轉(zhuǎn)換降維提取的是不相關(guān)的部分,ICA獨(dú)立成分分析獲得的是相互獨(dú)立的屬性。ICA算法本質(zhì)上是尋找一個(gè)線性變換z=Wx,使得z的各個(gè)特征分量之間的獨(dú)立性*大。ICA與PCA相比更能刻畫(huà)變量的隨機(jī)統(tǒng)計(jì)特性,且能抑制噪聲。ICA認(rèn)為觀測(cè)到的數(shù)據(jù)矩陣X可以由未知的獨(dú)立元矩陣S與未知的矩陣A相乘得到。ICA希望通過(guò)矩陣X求得一個(gè)分離矩陣W,使得W作用在X上所獲得的矩陣Y能夠逼近獨(dú)立元矩陣S,*后通過(guò)獨(dú)立元矩陣S表示矩陣X,所以,ICA獨(dú)立成分分析提取出的是特征中的獨(dú)立部分。 3. LDA(Linear Discriminant Analysis,線性判別分析) LDA的原理是將帶上標(biāo)簽的數(shù)據(jù)(點(diǎn))通過(guò)投影的方法投影到維度更低的空間,使得投影后的點(diǎn)會(huì)按類別區(qū)分,相同類別的點(diǎn)將會(huì)在投影后更接近,不同類別的點(diǎn)將相距更遠(yuǎn)。 ……
- >
詩(shī)經(jīng)-先民的歌唱
- >
自卑與超越
- >
大紅狗在馬戲團(tuán)-大紅狗克里弗-助人
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
我從未如此眷戀人間
- >
巴金-再思錄
- >
有舍有得是人生
- >
推拿