-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
數據準備:從獲取到整理(數據分析與應用叢書) 版權信息
- ISBN:9787300307985
- 條形碼:9787300307985 ; 978-7-300-30798-5
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據準備:從獲取到整理(數據分析與應用叢書) 內容簡介
數據的獲取方式、數據的形式及其結構紛繁蕪雜,如何把數據整理成我們想要的樣子呢?本書通過真實案例構建了數據準備過程中的方法與技術體系,并通過Python 3編程實現從數據獲取到數據整理的全過程。
全書內容包括數據來源、數據類型、數據編碼、數據清洗、數據插補、數據配平、數據重構、數據變換、數據縮放和數據歸約。為使讀者能夠快速掌握數據準備的方法與技術,本書的數據文件與程序代碼均可下載(見封底二維碼)。線上操作平臺地址為http://ykt.ai-learning.net。
本書既可作為高等院校的數據分析類課程教材,也可作為社會科學領域數據分析的自學用書。從事數據分析與數據管理工作的相關人員,以及用Python解決實際數據分析問題的工程技術和管理人員亦可參考使用。
數據準備:從獲取到整理(數據分析與應用叢書) 目錄
1.1 調查和觀察數據
1.1.1 調查數據
1.1.2 觀察數據
1.2 數據庫數據
1.2.1 關系型數據庫
1.2.2 非關系型數據庫
1.3 爬蟲數據
1.4 日志數據
第 2 章 數據類型
2.1 結構化數據
2.1.1 基本數據類型
2.1.2 二維表結構數據
2.2 集合數據類型
2.2.1 列表
2.2.2 元組
2.2.3 字典
2.2.4 集合
2.2.5 推導式
2.3 其他常見的結構化數據
2.3.1 數組
2.3.2 矩陣
2.3.3 數列
2.3.4 數據幀
2.3.5 日期時間型數據
2.4 非結構化數據
2.4.1 網頁與 JSON 數據
2.4.2 圖像數據
2.4.3 音頻數據
2.4.4 視頻數據
第 3 章 數據編碼
3.1 數據編碼的基本要求和原則
3.2 數據編碼的結構類型
3.2.1 分類編碼
3.2.2 順序編碼
3.2.3 分段編碼
3.2.4 值標簽編碼
3.2.5 Dummy/虛擬變量編碼
3.2.6 尺度編碼
第 4 章 數據清洗
4.1 異常值清洗
4.1.1 異常值識別
4.1.2 異常值處理
4.2 重復數據清洗
4.2.1 重復數據檢測
4.2.2 重復數據刪除
4.3 低頻類別清洗
4.3.1 觀察低頻識別
4.3.2 低頻類別處理
4.4 數據糾錯
4.4.1 邏輯糾錯
4.4.2 格式糾錯
4.5 數據糾偏
4.5.1 數據偏度識別和測量
4.5.2 數據偏度的糾正
第5 章 數據插補
5.1 缺失值產生原因及其表現
5.1.1 缺失值的含義
5.1.2 缺失值的類型
5.1.3 缺失值產生的原因
5.1.4 缺失值的影響
5.1.5 缺失值的表現形式
5.2 缺失值插補
5.2.1 簡單統計量插補
5.2.2 聚類插補
5.2.3 模型插補
5.3 MVP
5.3.1 MVP 分析思路
5.3.2 MVP 提取方法
第 6 章 數據配平
6.1 不平衡數據
6.1.1 不平衡數據的含義
6.1.2 不平衡數據的影響
6.2 數據配平方法
6.2.1 欠采樣
6.2.2 過采樣
6.2.3 混合采樣
6.3 數據配平的影響
6.3.1 數據配平的效果
6.3.2 模型預測結果的偏離及其校正方法
6.3.3 欠采樣對預測穩定性的影響
第 7 章 數據重構
7.1 數據組合
7.1.1 序列組合
7.1.2 水平組合
7.1.3 垂直組合
7.1.4 深度組合
7.1.5 列組合
7.1.6 行組合
7.2 軸向連接
7.2.1 左右拼接
7.2.2 數據追加
7.3 數據融合
7.3.1 鍵融合
7.3.2 索引融合
7.3.3 插補融合
7.4 數據重塑
7.4.1 Panel
7.4.2 層次化索引
7.4.3 stack與unstack
7.5 數據分拆
7.5.1 水平分拆
7.5.2 垂直分拆
7.5.3 深度分拆
7.5.4 邏輯分拆
7.5.5 隨機采樣與數據分割
7.6 數據聚合
第 8 章 數據變換
8.1 數據變換的含義和作用
8.2 連續數據函數變換
8.2.1 對數變換
8.2.2 平方根變換
8.2.3 平方變換
8.2.4 倒數變換
8.2.5 冪變換與 BOX-COX 變換 176
8.3 連續數據離散化
8.3.1 客觀法
8.3.2 主觀法
8.4 數據次序化
8.4.1 升降次序
8.4.2 位置與秩
8.4.3 秩的計算方法
8.4.4 秩的缺失值處理
8.4.5 DataFrame 中的秩
8.5 多分類數據啞變量化
8.5.1 啞變量的概念與特征
8.5.2 啞變量與 one-hot 碼
8.5.3 多分類數據轉換為啞變量 196
8.5.4 多分類數據轉換為 one-hot 碼
8.6 定性數據數量化
8.6.1 順序數據轉化為得分
8.6.2 構造定性數據的平滑值
第 9 章 數據縮放
9.1 數據縮放的概念
9.2 數據縮放方法
9.2.1 中心化
9.2.2 標準化
9.2.3 Min-Max 縮放
9.2.4 Max-ABS 縮放
9.2.5 Robust 縮放
第 10 章 數據歸約
10.1 數據歸約的概念
10.2 變量選擇方法
10.2.1 使用統計量
10.2.2 決策樹模型
10.2.3 Lasso 算法
10.3 樣本歸約
參考文獻
數據準備:從獲取到整理(數據分析與應用叢書) 節選
數據科學與大數據時代如果沒有數據便如巧婦難為無米之炊,數據已經成為生產要素之一。因此,數據的收集與獲取顯得尤為重要。在當今以數字經濟、人工智能、元宇宙等主要技術為發展特征的客觀世界中,數據是*基本的構成元素。在分析數據之前,應當搞清楚數據的來源,同時注重數據質量,只有數據可靠,才能客觀真實地用數據來描繪和分析我們所要研究的問題,才能實現從數據到價值的過程。 數據形式繁多,其來源渠道也較為繁雜。在數據分析中,整理、分析和建模的對象即數據。按照人們對數據的認知程度,從數據到價值的過程可細分為三個階段:數據從不可得狀態變為可得狀態,從可得狀態變為可用狀態,從可用狀態變為實現其價值狀態。其中,數據從不可得狀態轉化為可得狀態的過程,便是人們熟悉的數據收集階段,可以采用抽樣、統計調查等手段進行數據收集,從而為數據從可得狀態轉化為可用狀態并實現其價值做好準備。
數據準備:從獲取到整理(數據分析與應用叢書) 作者簡介
阮敬 博士、教授、博士生導師。首都經濟貿易大學數據科學學院副院長。兼任第七屆全國統計教材編審委員會學術委員、數據科學與大數據應用組副組長,中國現場統計研究會副秘書長、經濟與金融統計分會副理事長,中國統計教育學會副秘書長、高等教育分會秘書長,全國工業統計學教學研究會常務理事,中國青年統計學家協會創會秘書長,北京大數據協會副會長、秘書長,《統計學報》《統計與精算》編委等。研究領域為經濟統計、大數據分析。在國內外發表論文70余篇,出版專著、譯著、教材16部。主持***和省部級科研項目及企事業單位橫向課題50余項。榮獲全國統計科學研究優秀成果獎、全國應用統計專業學位研究生優秀教育教學成果獎、北京市哲學社會科學優秀成果獎、北京市優秀調查研究成果獎等10余項省部級及以上科研和教學獎勵。 任韜 博士、教授、博士生導師。首都經濟貿易大學商務學院院長。兼任北京大數據協會副會長,中國商業統計學會常務理事、市場調查與教學研究分會副會長兼秘書長、數據科學與商業智能分會副會長,中國國民經濟核算研究會常務理事等。主要研究方向為大數據分析,經濟統計學。主持多項國家社會科學基金項目、教育部人文社會科學基金項目。在國內外發表學術論文20余篇,出版學術專著及教材7部。
- >
伊索寓言-世界文學名著典藏-全譯本
- >
自卑與超越
- >
回憶愛瑪儂
- >
巴金-再思錄
- >
龍榆生:詞曲概論/大家小書
- >
名家帶你讀魯迅:故事新編
- >
伯納黛特,你要去哪(2021新版)
- >
詩經-先民的歌唱