-
>
貨幣大歷史:金融霸權與大國興衰六百年
-
>
(精)方力鈞作品圖錄
-
>
《藏書報》2021合訂本
-
>
(精)中國當代書畫名家作品集·范碩:書法卷+繪畫卷(全2卷)
-
>
(噴繪樓閣版)女主臨朝:武則天的權力之路
-
>
書里掉出來一只狼+狼的故事-全2冊
-
>
奇思妙想創意玩具書(精裝4冊)
零基礎入門Pandas——Python數據分析(原書第2版) 版權信息
- ISBN:9787302678861
- 條形碼:9787302678861 ; 978-7-302-67886-1
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:
零基礎入門Pandas——Python數據分析(原書第2版) 本書特色
本書特色
(1)細致講解了Pandas的基礎知識和常見用法,用簡單實例闡述如何使用Pandas解決復雜的現實問題。
(2)提供了將Pandas與真實數據集結合使用的入門知識,涵蓋組合數據集、處理缺失數據以及構建數據集等,指導建立預測、聚類、推理和探索的模型,便于進行數據分析和可視化。
(3)從基本的字符串操作到跨數據幀同時應用函數,書中內容涉及強大的數據清理技術。
(4)介紹如何利用Matplotlib、Seaborn、Statsmodels和Sklearn等庫輔助進行Python數據分析,涵蓋數據處理、數據可視化、數據建模等內容。
零基礎入門Pandas——Python數據分析(原書第2版) 內容簡介
基于實用、易學的原則,從功能、使用、原理等多個維度對Pandas做了全方位的詳細講解。本書是Python數據分析入門書,每個概念都通過簡單實例來闡述,便于讀者理解與上手。具體內容包括:Python及Pandas基礎知識,加載和查看數據集,Pandas的DataFrame對象和Series對象,使用matplotlib、seaborn和Pandas提供的繪圖方法為探索性數據分析作圖,連接與合并數據集,處理缺失數據,清理數據,轉換數據類型,處理字符串,應用函數,分組操作,擬合及評估模型,正則化方法與聚類技術等。
零基礎入門Pandas——Python數據分析(原書第2版)零基礎入門Pandas——Python數據分析(原書第2版) 前言
我的數據科學教學生涯始于2013年**次參加SoftwareCarpentry研討班。此后,就一直在從事這方面的教學工作。2019年,我有幸成為RStudio(現為PBC Posit)教育集團的一名實習生。那時,數據科學教育方興未艾。實習結束之后,我想將教學與醫學的結合作為我的博士學位論文選題。幸運的是,我認識學校的一位圖書管理員Andi Ogier,她把我介紹給了Anne M.Brown,Anne也對健康科學中的數據科學教學很感興趣。之后的故事大家都知道了。Anne成為了我的博士生導師,我和指導委員會的其他成員,包括Dave Higdon、Alex Hanlon和Nikki Lewis,一起研究醫學和生物醫學領域中的數據科學教育。本書第1版為我的學位論文研討班要講授哪些數據科學的相關內容奠定了基礎。本書第2版納入了我在學習和研究教育和教學法時學到的許多內容。
在撰寫本書的過程中,我遇到了很多人,也從他們身上學到了很多東西,其中很多都是關于*佳實踐的,比如編寫向量化語句以替代循環語句、測試代碼,以及組織項目目錄結構等。從實際的教學過程中我也學到了很多關于教學的知識,以教促學確實是學習新知識的*佳方法。在過去的幾年里,我學到的很多東西都是在我試圖弄清楚如何教別人時獲得的。一旦掌握了基礎知識,學習新內容就相對容易了。教與學的過程多次重復后,會驚訝于自己學會了很多,比如學會了用于谷歌搜索的很多術語,并能解讀Stack Overflow頁面的解答。很多高手也在搜索他人提出的問題。無論這是你學習的第幾種編程語言,希望本書都能為你提供一個堅實的基礎,為你搭建一座通往其他數據分析語言的橋梁。
零基礎入門Pandas——Python數據分析(原書第2版) 目錄
**部分引言
第1章Pandas DataFrame基礎知識
1.1引言
1.2加載**個數據集
1.3查看列、行和單元格
1.3.1根據列名選擇列并進行子集化
1.3.2對行進行子集化
1.3.3根據行號子集化行
1.3.4混合
1.3.5子集化行和列
1.4分組和聚合計算
1.4.1分組方式
1.4.2分組頻率計數
1.5基本繪圖
本章小結
第2章Pandas的數據結構
2.1創建數據
2.1.1創建Series
2.1.2創建DataFrame
2.2Series
2.2.1類似于ndarray的Series
2.2.2布爾型子集: Series
2.2.3自動對齊并向量化(廣播)
2.3DataFrame
2.3.1DataFrame的組成
2.3.2布爾子集化DataFrames
2.3.3自動對齊和向量化(廣播)
2.4更改Series和DataFrame
2.4.1添加列
2.4.2直接更改列
2.4.3使用.assign()方法修改列
2.4.4刪除值
2.5導出和導入數據
2.5.1Pickle
2.5.2逗號分隔值
2.5.3Excel
2.5.4Feather文件格式
2.5.5Arrow
2.5.6Dictionary
2.5.7JavaScript對象表示法
2.5.8其他數據的輸出類型
本章小結
第3章繪圖入門
3.1為什么要將數據可視化
3.2Matplotlib基礎
3.2.1圖對象和坐標軸子圖
3.2.2圖形剖析
3.3使用Matplotlib繪制統計圖
3.3.1單變量數據
3.3.2雙變量數據
3.3.3多變量數據
3.4Seaborn
3.4.1單變量數據
3.4.2雙變量數據
3.4.3多變量數據
3.4.4分面
3.4.5Seaborn的樣式和主題
3.4.6如何瀏覽Seaborn文檔
3.4.7下一代Seaborn接口
3.5Pandas繪圖方法
3.5.1直方圖
3.5.2密度圖
3.5.3散點圖
3.5.4蜂巢圖
3.5.5箱線圖
本章小結
第4章整潔數據
4.1包含值而非變量的列
4.1.1固定一列
4.1.2固定多列
4.2包含多個變量的列
4.2.1單獨拆分和添加列
4.2.2在單個步驟中進行拆分和組合
4.3行與列中的變量
本章小結
第5章函數的應用
5.1函數入門
5.2函數應用基礎
5.2.1Series的.apply()方法
5.2.2DataFrame的.apply()方法
5.3向量化函數
5.3.1使用NumPy
5.3.2使用Numba庫
5.4Lambda函數
本章小結
第二部分數據處理
第6章數據組合
6.1組合數據集
6.2連接
6.2.1查看DataFrame的組成
6.2.2添加行
6.2.3添加列
6.2.4不同索引下的連接操作
6.3跨多張表的觀測單元
6.3.1使用循環加載多個文件
6.3.2使用列表解析加載多個文件
6.4合并多個數據集
6.4.1一對一合并
6.4.2多對一合并
6.4.3多對多合并
6.4.4使用assert語句進行檢查
本章小結
第7章數據規范化
7.1一張表中的多個觀測單元
7.2數據規范化過程
本章小結
第8章分組操作: 分割應用組合
8.1聚合
8.1.1基本的單變量分組聚合
8.1.2Pandas內置的聚合方法
8.1.3聚合函數
8.1.4同時傳入多個函數
8.1.5在.agg()方法中使用dict
8.2轉換
8.2.1zscore示例
8.2.2缺失值示例
8.3過濾器
8.4pandas.core.groupby.DataFrameGroupBy對象
8.4.1分組
8.4.2涉及多個變量的分組計算
8.4.3選擇分組
8.4.4遍歷分組
8.4.5多個分組
8.4.6平鋪結果
8.5使用多級索引
本章小結
第三部分數據類型
第9章缺失數據
9.1何為NaN值
9.2缺失值從何而來
9.2.1加載數據
9.2.2合并數據
9.2.3用戶輸入值
9.2.4重建索引
9.3處理缺失數據
9.3.1查找和統計缺失數據
9.3.2清理缺失數據
9.3.3缺失值計算
9.4Pandas內置的NA缺失值
本章小結
第10章數據類型
10.1常見的數據類型
10.2類型轉換
10.2.1轉換為字符串對象
10.2.2轉換為數值類型
10.3分類數據
10.3.1轉換為category類型
10.3.2操作分類數據
本章小結
第11章字符串和文本數據
11.1字符串
11.1.1子集化和字符串切片
11.1.2獲取字符串的*后一個字符
11.2字符串方法
11.3更多字符串方法
11.3.1.join()方法
11.3.2.splitlines()方法
11.4字符串格式化
11.4.1格式化的文字字符串
11.4.2格式化數字
11.5正則表達式
11.5.1匹配模式
11.5.2記住RegEx模式
11.5.3查找模式
11.5.4替換模式
11.5.5編譯模式
11.6regex庫
本章小結
第12章日期和時間
12.1Python的datetime對象
12.2轉換為datetime
12.3加載包含日期的數據
12.4提取日期的各個部分
12.5日期運算和timedeltas
12.6datetime方法
12.7獲取股票數據
12.8基于日期子集化數據
12.8.1DatetimeIndex對象
12.8.2TimedeltaIndex對象
12.9日期范圍
12.9.1頻率
12.9.2偏移量
12.10日期變動
12.11重新采樣
12.12時區
12.13arrow庫
本章小結
第四部分數據建模
第13章線性回歸
13.1簡單線性回歸
13.1.1使用statsmodels庫
13.1.2使用Scikitlearn庫
13.2多元回歸
13.2.1使用statsmodels庫
13.2.2使用Scikitlearn庫
13.3包含分類變量的模型
13.3.1statsmodels中的分類變量
13.3.2Scikitlearn中的分類變量
13.4帶Transformer Pipelines的Scikitlearn中的onehot編碼
本章小結
第14章廣義線性模型
14.1邏輯回歸
14.1.1使用statsmodels庫
14.1.2使用Scikitlearn庫
14.1.3注意Scikitlearn默認值
14.2泊松回歸
14.2.1使用statsmodels
14.2.2負二項回歸
14.3更多的GLM
本章小結
第15章生存分析
15.1生存數據
15.2KaplanMeier曲線
15.3Cox比例風險模型
本章小結
第16章模型診斷
16.1比較單個模型
16.1.1殘差
16.1.2QQ圖
16.2比較多個模型
16.2.1比較線性模型
16.2.2比較GLM模型
16.3K折交叉驗證
本章小結
第17章正則化
17.1為什么要正則化
17.2LASSO回歸
17.3嶺回歸
17.4彈性網
17.5交叉驗證
本章小結
第18章聚類
18.1K均值聚類
18.2層次聚類
18.2.1Complete聚類算法
18.2.2Single聚類算法
18.2.3Average聚類算法
18.2.4Centroid聚類算法
18.2.5Ward聚類算法
18.2.6手動設置閾值
本章小結
第五部分附錄
附錄A概念圖
附錄B安裝和設置
B.1安裝Python
B.1.1Anaconda
B.1.2Miniconda
B.1.3卸載Anaconda或Miniconda
B.1.4Pyenv
B.2安裝Python包
B.3下載本書數據
附錄C命令行
C.1安裝
C.1.1Windows系統
C.1.2macOS
C.1.3Linux系統
C.2基礎
附錄D項目模板
附錄EPython代碼編寫工具
E.1命令行和文本編輯器
E.2Python和iPython
E.3Jupyter
E.4集成開發環境
附錄F工作目錄
附錄G環境
G.1Conda環境
G.2Pyenv Pipenv
附錄H安裝程序包
H.1使用Conda安裝Python庫
H.2更新程序包
附錄I導入庫
附錄J代碼風格
附錄K容器: 列表、元組和dict
K.1列表
K.2元組
K.3dict
附錄L切片值
附錄M循環
附錄N推導式
附錄O函數
O.1默認參數
O.2任意參數
O.2.1*args
O.2.2**kwargs
附錄P范圍和生成器
附錄Q多重賦值
附錄Rnumpy.ndarray
附錄S類
附錄TCopyWarning設置
T.1修改數據子集
T.2替換值
T.3更多的資源
附錄U方法鏈
附錄V計時代碼
附錄W字符串格式化
W.1C語言風格
W.2字符串格式化: .format()方法
W.3格式化數字
附錄X條件語句(ifelifelse)
附錄Y紐約ACS邏輯回歸示例
Y.1準備數據
Y.2使用Scikitlearn庫
附錄Z復制R語言中的結果
Z.1線性回歸
Z.2邏輯回歸
Z.3泊松回歸
- >
莉莉和章魚
- >
姑媽的寶刀
- >
羅曼·羅蘭讀書隨筆-精裝
- >
名家帶你讀魯迅:故事新編
- >
詩經-先民的歌唱
- >
伯納黛特,你要去哪(2021新版)
- >
朝聞道
- >
小考拉的故事-套裝共3冊