pandas數據預處理詳解 版權信息
- ISBN:9787517098980
- 條形碼:9787517098980 ; 978-7-5170-9898-0
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
pandas數據預處理詳解 本書特色
Python是一款非常強大、易學易用的數據處理和數據分析工具,而大量第三方軟件庫的支持,更是使其成為人工智能時代非常重要的編程工具。pandas就是一款非常重要的基于NumPy的Python數據分析軟件庫,它提供了大量能快速便捷處理數據的函數和方法,提供了高效操作大型數據集的工具,通過pandas和Python,可以順利完成數據科學、機器學習或日常工作中的幾乎所有數據分析任務。本書就利用pandas,結合簡單易懂的示例代碼,對機器學習和數據科學領域數據預處理的知識和各種預處理方法進行了透徹、全面的講解。學完本書,你會發現Python之所以在數據處理和分析領域如此強大,pandas是其重要的影響因素之一。 1.用淺顯易懂的語言,全面介紹pandas的使用方法和應用技巧。
2.用簡潔清晰的代碼,結合日常工作中需要處理數據的實際場景,學習pandas的實際用法,掌握解決實際問題的方法。
3.644頁知識講解,可作為初學者系統學習pandas的入門書,也可作為資深工程師的案頭手冊隨時翻閱查看。
4.雙色印刷+精美排版,學習過程輕松愉悅,學習效率更高。
pandas數據預處理詳解 內容簡介
Python 因其擁有強大的第三方軟件庫,廣泛應用在人工智能開發、科學計算和數據分析中。而 pandas 就是一款基于 NumPy 的解決 Python 數據分析任務的軟件庫。在機器學習和數據科學中,因為很少有數據可以直接使用,所以對數據進行預處理就成為必不可少的工作。《Pandas 數據預處理詳解》就利用數據處理必需的 pandas 庫,從 pandas 基本操作、數據結構,到 pandas 將執行的各種任務,如匯總統計信息、檢查缺失值 / 異常值 / 重復數據以及合并和分組數據等,通過簡單易懂的示例,對預處理的基礎知識和各種預處理方法進行了透徹講解。學完本書,讀者將能夠順利執行各種機器學習和數據分析任務。特別適合作為機器學習工程師、數據科學及科研工作者初學數據預處理的參考書,也適合作為案頭手冊,隨時翻閱查看。
pandas數據預處理詳解 目錄
第1章 pandas的概要與Python的基本操作
1.1 機器學習領域中的剛需庫——pandas
1.1.1 何謂pandas
1.1.2 pandas的主要功能
1.2 構建pandas的使用環境
1.2.1 三種構建環境下的工具包和軟件
1.2.2 在Windows操作系統中構建
1.2.3 在macOS中安裝程序
1.2.4 Google Colab平臺
1.3 Python的數據結構
1.3.1 為何在機器學習中使用Python
1.3.2 變量
1.3.3 運算符
1.3.4 動態類型
1.3.5 數值類型
1.3.6 字符串類型
1.3.7 元組
1.3.8 列表
1.3.9 字典
1.3.10 集合
1.4 Python的基本操作
1.4.1 if語句
1.4.2 while語句
1.4.3 for語句
1.4.4 break語句與continue語句
1.4.5 函數
1.5 Jupyter Notebook的基本操作
1.5.1 代碼補全功能
1.5.2 對象類型信息查看
1.5.3 魔法命令
第2章 pandas的數據結構
2.1 Series
2.1.1 Series的概要
2.1.2 Series的基本操作
2.2 DataFrame對象
2.2.1 DataFrame對象的概要
2.2.2 DataFrame的基本操作
2.3 索引
2.3.1 索引的概要
2.3.2 索引的基本操作
2.4 pandas的初次接觸
2.4.1 數據集的概要
2.4.2 數據的讀人
2.4.3 數據的顯示
2.4.4 數據的引用
2.4.5 數據的排序
2.4.6 缺失數據的處理
2.4.7 數據的分組
2.4.8 數據的合并
2.4.9 數據的可視化
第3章 數據的應用于讀取
3.1 數據的引用
3.1.1 引用數據的方法
3.1.2 切片
3.1.3 屬性的引用
3.1.4 bool類型的引用
3.1.5 where方法
3.1.6 query方法
3.2 文件的讀取與寫入
3.2.1 CSV
3.2.2 Excel
3.2.3 JSON
3.2.4 HDF5
第4章 數據的聚合與排序
4.1 數據的聚合
4.1.1 *小值與*大值
4.1.2 平均值、中位數和眾數
4.1.3 標準差
4.1.4 分位數
4.1.5 累積和與累積積
4.1.6 分箱處理
4.1.7 概括統計量
4.1.8 數據透視表
4.1.9 交叉表
4.2 數據的排序
4.2.1 基于標簽的排序
4.2.2 基于元素的排序
第5章 數據變形
5.1 行和列的添加與刪除
5.1.1 添加行和列
5.1.2 刪除行和列
5.2 數據的連接與合并
5.2.1 concat函數
5.2.2 merge函數
5.3 其他的數據變形
5.3.1 隨機抽樣
5.3.2 虛擬變量
5.3.3 長型數據和寬型數據的變形
第6章 缺失值、離群值和重復數據
6.1 缺失值
6.1.1 pandas與缺失數據
6.1.2 缺失值的確認
6.1.3 缺失值的刪除
6.1.4 缺失值的置換
6.2 離群值
6.2.1 何謂離群值
6.2.2 z分數
6.2.3 四分位距
6.2.4 箱形圖
6.3 重復數據
6.3.1 重復數據的檢測
6.3.2 重復數據的刪除
第7章 函數應用與分組化
7.1 函數處理
7.1.1 apply方法
7.1.2 DataFrame類和Series類的agg方法
7.1.3 applymap方法
7.1.4 pipe方法
7.2 基于for語句的循環處理
7.2.1 Series對象的循環處理
7.2.2 DataFrame對象的循環處理
7.3 數據的分組
7.3.1 GroupBy對象
7.3.2 GroupBy對象的agg方法
7.3.3 transfom方法
7.3.4 apply方法
第8章 其他操作
8.1 字符串操作
8.1.1 str屬性
8.1.2 字符串的分割
8.1.3 字符串的替換
8.1.4 字符串的提取
8.1.5 字符串的模式匹配
8.1.6 從字符串到虛擬變量
8.2 數據的可視化
8.2.1 plot方法
8.2.2 條形圖
8.2.3 直方圖
8.2.4 散點圖
8.2.5 餅形圖
8.2.6 箱形圖
8.2.7 散點圖矩陣
8.2.8 缺失值的處理
8.3 多重索引
8.3.1 多重索引的基本操作
8.3.2 多重索引的統計
8.3.3 多重索引的連接與合并
8.4 時間序列數據
8.4.1 datetime模塊
8.4.2 處理pandas時間序列數據的對象
8.4.3 時間序列數據的索引引用
8.4.4 時間序列數據的轉換
第9章 數據分析的基礎
9.1 探索性數據分析
9.1.1 數據結構的確認
9.1.2 缺失值、離群值和重復數據的確認
9.1.3 基于數據可視化的確認
9.2 整齊數據
9.2.1 整齊數據的概要
9.2.2 將雜亂數據轉換成整齊數據
9.3 數據分析實例——基于Bank Marketing數據集
9.3.1 數據集的概要和數據結構
9.3.2 數據的基本信息
9.3.3 客戶數據分析
9.3.4 營銷活動數據分析
展開全部
pandas數據預處理詳解 作者簡介
Lombard 增田 秀人Lombard公司AI戰略室 室長 先后在舊金山和東南亞創業,于2017年創建了機器學習學校"codexa"。企業培訓講師,曾在xPython Meet Up &Conference 2019發表演講。