中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊

包郵 Python數據處理

出版社:人民郵電出版社出版時間:2017-07-01
開本: 32開 頁數: 378
中 圖 價:¥60.4(6.1折) 定價  ¥99.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

Python數據處理 版權信息

  • ISBN:9787115459190
  • 條形碼:9787115459190 ; 978-7-115-45919-0
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>>

Python數據處理 本書特色

本書采用基于項目的方法,介紹用Python完成數據獲取、數據清洗、數據探索、數據呈現、數據規(guī)模化和自動化的過程。主要內容包括:Python基礎知識,如何從CSV、Excel、XML、JSON和PDF文件中提取數據,如何獲取與存儲數據,各種數據清洗與分析技術,數據可視化方法,如何從網站和API中提取數據。

Python數據處理 內容簡介

用傳統(tǒng)的電子表格來處理數據不僅效率低下,而且無法處理某些格式的數據,對于混亂或龐大的數據集更是束手無策。本書將教你如何利用語法簡單、容易上手的Python輕松處理數據。作者通過循序漸進的練習,詳細介紹如何有效地獲取、清洗、分析與呈現數據,如何將數據處理過程自動化,如何安排文件編輯與清洗任務,如何處理更大的數據集,以及如何利用獲取的數據來創(chuàng)作引人入勝的故事。學完本書,你的數據處理和分析能力將更上一層樓。 * 快速了解Python基本語法、數據類型和語言概念 * 概述數據的獲取與存儲方式 * 清洗數據并格式化,以消除數據集中的重復值與錯誤 * 學習何時對數據進行標準化,何時對數據清理進行測試并將其腳本化 * 使用Scrapy寫網絡爬蟲 * 利用新的Python庫和技術對數據集進行探索與分析 * 使用Python解決方案將整個數據處理過程自動化

Python數據處理 目錄

前言 xiii
第1 章 Python 簡介 1
1.1 為什么選擇Python 4
1.2 開始使用Python 4
1.2.1 Python 版本選擇 5
1.2.2 安裝Python 6
1.2.3 測試Python 9
1.2.4 安裝pip 11
1.2.5 安裝代碼編輯器 12
1.2.6 安裝IPython(可選) 13
1.3 小結 13
第2 章 Python 基礎 14
2.1 基本數據類型 15
2.1.1 字符串 15
2.1.2 整數和浮點數 15
2.2 數據容器 18
2.2.1 變量 18
2.2.2 列表 21
2.2.3 字典 22
2.3 各種數據類型的用途 23
2.3.1 字符串方法:字符串能做什么 24
2.3.2 數值方法:數字能做什么 25
2.3.3 列表方法:列表能做什么 26
2.3.4 字典方法:字典能做什么 27
2.4 有用的工具:type、dir 和help 28
2.4.1 type 28
2.4.2 dir 28
2.4.3 help 30
2.5 綜合運用 31
2.6 代碼的含義 32
2.7 小結 33
第3 章 供機器讀取的數據 34
3.1 CSV 數據 35
3.1.1 如何導入CSV 數據 36
3.1.2 將代碼保存到文件中并在命令行中運行 39
3.2 JSON 數據 41
3.3 XML 數據 44
3.4 小結 56
第4 章 處理Excel 文件 58
4.1 安裝Python 包 58
4.2 解析Excel 文件 59
4.3 開始解析 60
4.4 小結 71
第5 章 處理PDF 文件,以及用Python 解決問題 73
5.1 盡量不要用PDF 73
5.2 解析PDF 的編程方法 74
5.2.1 利用slate 庫打開并讀取PDF 75
5.2.2 將PDF 轉換成文本 77
5.3 利用pdfminer 解析PDF 78
5.4 學習解決問題的方法 92
5.4.1 練習:使用表格提取,換用另一個庫 94
5.4.2 練習:手動清洗數據 98
5.4.3 練習:試用另一種工具 98
5.5 不常見的文件類型 101
5.6 小結 101
第6 章 數據獲取與存儲 103
6.1 并非所有數據生而平等 103
6.2 真實性核查 104
6.3 數據可讀性、數據清潔度和數據壽命 105
6.4 尋找數據 105
6.4.1 打電話 105
6.4.2 美國政府數據 106
6.4.3 全球政府和城市開放數據 107
6.4.4 組織數據和非政府組織數據 109
6.4.5 教育數據和大學數據 109
6.4.6 醫(yī)學數據和科學數據 109
6.4.7 眾包數據和API 110
6.5 案例研究:數據調查實例 111
6.5.1 埃博拉病毒危機 111
6.5.2 列車安全 111
6.5.3 足球運動員的薪水 112
6.5.4 童工 112
6.6 數據存儲 113
6.7 數據庫簡介 113
6.7.1 關系型數據庫:MySQL 和PostgreSQL 114
6.7.2 非關系型數據庫:NoSQL 116
6.7.3 用Python 創(chuàng)建本地數據庫 117
6.8 使用簡單文件 118
6.8.1 云存儲和Python 118
6.8.2 本地存儲和Python 119
6.9 其他數據存儲方式 119
6.10 小結 119
第7 章 數據清洗:研究、匹配與格式化 121
7.1 為什么要清洗數據 121
7.2 數據清洗基礎知識 122
7.2.1 找出需要清洗的數據 123
7.2.2 數據格式化 131
7.2.3 找出離群值和不良數據 135
7.2.4 找出重復值 140
7.2.5 模糊匹配 143
7.2.6 正則表達式匹配 146
7.2.7 如何處理重復記錄 150
7.3 小結 151
第8 章 數據清洗:標準化和腳本化 153
8.1 數據歸一化和標準化 153
8.2 數據存儲 154
8.3 找到適合項目的數據清洗方法 156
8.4 數據清洗腳本化 157
8.5 用新數據測試 170
8.6 小結 172
第9 章 數據探索和分析 173
9.1 探索數據 173
9.1.1 導入數據 174
9.1.2 探索表函數 179
9.1.3 聯(lián)結多個數據集 182
9.1.4 識別相關性 186
9.1.5 找出離群值 187
9.1.6 創(chuàng)建分組 189
9.1.7 深入探索 192
9.2 分析數據 193
9.2.1 分離和聚焦數據 194
9.2.2 你的數據在講什么 196
9.2.3 描述結論 196
9.2.4 將結論寫成文檔 197
9.3 小結 197
第10 章 展示數據 199
10.1 避免講故事陷阱 199
10.1.1 怎樣講故事 200
10.1.2 了解聽眾 200
10.2 可視化數據 201
10.2.1 圖表 201
10.2.2 時間相關數據 207
10.2.3 地圖 208
10.2.4 交互式元素 211
10.2.5 文字 212
10.2.6 圖片、視頻和插畫 212
10.3 展示工具 213
10.4 發(fā)布數據 213
10.4.1 使用可用站點 213
10.4.2 開源平臺:創(chuàng)建一個新網站 215
10.4.3 Jupyter(曾名IPython notebook) 216
10.5 小結 219
第11 章 網頁抓取:獲取并存儲網絡數據 221
11.1 抓取什么和如何抓取 221
11.2 分析網頁 223
11.2.1 檢視:標記結構 224
11.2.2 網絡 時間線:頁面是如何加載的 230
11.2.3 控制臺:同JavaScript 交互 232
11.2.4 頁面的深入分析 236
11.3 得到頁面:如何通過互聯(lián)網發(fā)出請求 237
11.4 使用Beautiful Soup 讀取網頁 238
11.5 使用lxml 讀取網頁 241
11.6 小結 249
第12 章 高級網頁抓取:屏幕抓取器與爬蟲 251
12.1 基于瀏覽器的解析 251
12.1.1 使用Selenium 進行屏幕讀取 252
12.1.2 使用Ghost.py 進行屏幕讀取 260
12.2 爬取網頁 266
12.2.1 使用Scrapy 創(chuàng)建一個爬蟲 266
12.2.2 使用Scrapy 爬取整個網站 273
12.3 網絡:互聯(lián)網的工作原理,以及為什么它會讓腳本崩潰 281
12.4 變化的互聯(lián)網(或腳本為什么崩潰) 283
12.5 幾句忠告 284
12.6 小結 284
第13 章 應用編程接口 286
13.1 API 特性 287
13.1.1 REST API 與流式API 287
13.1.2 頻率限制 287
13.1.3 分級數據卷 288
13.1.4 API key 和token 289
13.2 一次簡單的Twitter REST API 數據拉取 290
13.3 使用Twitter REST API 進行高級數據收集 292
13.4 使用Twitter 流式API 進行高級數據收集 295
13.5 小結 297
第14 章 自動化和規(guī)模化 298
14.1 為什么要自動化 298
14.2 自動化步驟 299
14.3 什么會出錯 301
14.4 在哪里自動化 302
14.5 自動化的特殊工具 303
14.5.1 使用本地文件、參數及配置文件 303
14.5.2 在數據處理中使用云 308
14.5.3 使用并行處理 310
14.5.4 使用分布式處理 312
14.6 簡單的自動化 313
14.6.1 CronJobs 314
14.6.2 Web 接口 316
14.6.3 Jupyter notebook 316
14.7 大規(guī)模自動化 317
14.7.1 Celery:基于隊列的自動化 317
14.7.2 Ansible:操作自動化 318
14.8 監(jiān)控自動化程序 319
14.8.1 Python 日志 320
14.8.2 添加自動化信息 322
14.8.3 上傳和其他報告 326
14.8.4 日志和監(jiān)控服務 327
14.9 沒有萬無一失的系統(tǒng) 328
14.10 小結 328
第15 章 結論 330
15.1 數據處理者的職責 330
15.2 數據處理之上 331
15.2.1 成為一名更優(yōu)秀的數據分析師 331
15.2.2 成為一名更優(yōu)秀的開發(fā)者 331
15.2.3 成為一名更優(yōu)秀的視覺化講故事者 332
15.2.4 成為一名更優(yōu)秀的系統(tǒng)架構師 332
15.3 下一步做什么 332
附錄A 編程語言對比 334
附錄B 初學者的Python 學習資源 336
附錄C 學習命令行 338
附錄D 高級Python 設置 349
附錄E Python 陷阱 361
附錄F IPython 指南 370
附錄G 使用亞馬遜網絡服務 374
關于作者 378
關于封面 378
展開全部

Python數據處理 作者簡介

Jacqueline Kazil,數據科學家,zi深軟件開發(fā)者。活躍于Python軟件基金會、PyLadies等社區(qū)。曾參與美國總統(tǒng)創(chuàng)新伙伴項目,是美國政府技術組織18F的聯(lián)合創(chuàng)始人。曾擔任《華盛頓郵報》數據記者。 Katharine Jarmul,zi深Python開發(fā)者,PyLadies聯(lián)合創(chuàng)始人。喜歡數據分析和獲取、網頁抓取、教人學習Python以及Unix,期望通過教育和培訓來促進Python和其他開源語言的多元化。

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 代理记账_免费注册公司_营业执照代办_资质代办-【乐财汇】 | 郑州巴特熔体泵有限公司专业的熔体泵,熔体齿轮泵与换网器生产厂家 | 三防漆–水性三防漆–水性浸渍漆–贝塔三防漆厂家 | MES系统-WMS系统-MES定制开发-制造执行MES解决方案-罗浮云计算 | 粘度计维修,在线粘度计,二手博勒飞粘度计维修|收购-天津市祥睿科技有限公司 | 博客-悦享汽车品质生活 | 大_小鼠elisa试剂盒-植物_人Elisa试剂盒-PCR荧光定量试剂盒-上海一研生物科技有限公司 | 深圳3D打印服务-3D打印加工-手板模型加工厂-悟空打印坊 | 超声波分散机-均质机-萃取仪-超声波涂料分散设备-杭州精浩 | 气动球阀_衬氟蝶阀_调节阀_电动截止阀_上海沃托阀门有限公司 | 深圳市八百通智能技术有限公司官方网站 | 神马影院-实时更新秒播| 广东燎了网络科技有限公司官网-网站建设-珠海网络推广-高端营销型外贸网站建设-珠海专业h5建站公司「了了网」 | 焊接烟尘净化器__焊烟除尘设备_打磨工作台_喷漆废气治理设备 -催化燃烧设备 _天津路博蓝天环保科技有限公司 | 公交驾校-北京公交驾校欢迎您! 工作心得_读书心得_学习心得_找心得体会范文就上学道文库 | 纯水电导率测定仪-万用气体检测仪-低钠测定仪-米沃奇科技(北京)有限公司www.milwaukeeinst.cn 锂辉石检测仪器,水泥成分快速分析仪-湘潭宇科分析仪器有限公司 手术室净化装修-手术室净化工程公司-华锐手术室净化厂家 | 火锅加盟_四川成都火锅店加盟_中国火锅连锁品牌十强_朝天门火锅【官网】 | 锥形螺带干燥机(新型耙式干燥机)百科-常州丰能干燥工程 | 数显水浴恒温振荡器-分液漏斗萃取振荡器-常州市凯航仪器有限公司 | 菲希尔FISCHER测厚仪-铁素体检测仪-上海吉馨实业发展有限公司 | 活动策划,舞台搭建,活动策划公司-首选美湖上海活动策划公司 | 南京种植牙医院【官方挂号】_南京治疗种植牙医院那个好_南京看种植牙哪里好_南京茀莱堡口腔医院 尼龙PA610树脂,尼龙PA612树脂,尼龙PA1010树脂,透明尼龙-谷骐科技【官网】 | 贝朗斯动力商城(BRCPOWER.COM) - 买叉车蓄电池上贝朗斯商城,价格更超值,品质有保障! | 防爆型气象站_农业气象站_校园气象站_农业四情监测系统「山东万象环境科技有限公司」 | ph计,实验室ph计,台式ph计,实验室酸度计,台式酸度计 | 不锈钢螺丝 - 六角螺丝厂家 - 不锈钢紧固件 - 万千紧固件--紧固件一站式采购 | 深圳公司注册-工商注册代理-注册公司流程和费用_护航财税 | 合肥风管加工厂-安徽螺旋/不锈钢风管-通风管道加工厂家-安徽风之范 | 新疆系统集成_新疆系统集成公司_系统集成项目-新疆利成科技 | 活性氧化铝|无烟煤滤料|活性氧化铝厂家|锰砂滤料厂家-河南新泰净水材料有限公司 | ★济南领跃标识制作公司★济南标识制作,标牌制作,山东标识制作,济南标牌厂 | 创富网-B2B网站|供求信息网|b2b平台|专业电子商务网站 | 东莞工厂厂房装修_无尘车间施工_钢结构工程安装-广东集景建筑装饰设计工程有限公司 | 便民信息网_家电维修,家电清洗,开锁换锁,本地家政公司 | 酒吧霸屏软件_酒吧霸屏系统,酒吧微上墙,夜场霸屏软件,酒吧点歌软件,酒吧互动游戏,酒吧大屏幕软件系统下载 | 蓝莓施肥机,智能施肥机,自动施肥机,水肥一体化项目,水肥一体机厂家,小型施肥机,圣大节水,滴灌施工方案,山东圣大节水科技有限公司官网17864474793 | 带式过滤机厂家_价格_型号规格参数-江西核威环保科技有限公司 | 立刷【微电签pos机】-嘉联支付立刷运营中心 | TPU薄膜_TPU薄膜生产厂家_TPU热熔胶膜厂家定制_鑫亘环保科技(深圳)有限公司 | 国产离子色谱仪,红外分光测油仪,自动烟尘烟气测试仪-青岛埃仑通用科技有限公司 | 润东方环保空调,冷风机,厂房车间降温设备-20年深圳环保空调生产厂家 |