-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
數據采集與預處理(微課版) 版權信息
- ISBN:9787115589903
- 條形碼:9787115589903 ; 978-7-115-58990-3
- 裝幀:平裝
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數據采集與預處理(微課版) 本書特色
【內容特點】
(1)全面講解大數據采集與預處理的相關理論和實操
(2)注重實戰,案例豐富,代碼注釋詳盡,微課視頻。
(3)精選3個行業案例精細講解。
【資源特點】配套PPT、教案、教學大綱、習題答案。
【服務特點】作者提供QQ服務群等支持。
數據采集與預處理(微課版) 內容簡介
本書詳細闡述了大數據領域數據采集與預處理的相關理論和技術,全面講解了數據采集與預處理的全流程及在多領域的應用案例。本書共8章,包括數據采集與預處理概述、數據采集與存儲、數據采集進階、數據清洗、數據規整與分組聚合、豆瓣電影排行榜數據采集與預處理、使用Scrapy框架與Selenium采集股市每日點評數據并可視化、房產數據預處理。 本書可作為高等院校大數據、人工智能、計算機等專業的教材使用,也可供相關科技人員參考。
數據采集與預處理(微課版) 目錄
1.1 數據采集簡介
1.1.1 數據采集的工具
1.1.2 爬蟲的原理與分類
1.1.3 網絡爬蟲核心流程
1.1.4 爬蟲的應用場景
1.2 數據預處理簡介
1.2.1 數據預處理的目的與意義
1.2.2 數據預處理的流程
1.2.3 數據預處理的工具介紹
1.3 Python數據采集與預處理常用庫
1.3.1 請求庫
1.3.2 解析庫
1.3.3 數據存儲庫
1.3.4 處理庫
1.4 習題
第 2章 數據采集與存儲
2.1 數據類型與操縱
2.1.1 數據類型介紹
2.1.2 JSON格式數據
2.1.3 CSV格式數據
2.2 網頁抓。号老x基礎
2.2.1 爬蟲基本流程介紹
2.2.2 HTTP基本原理
2.2.3 網頁基礎
2.2.4使用urllib庫
2.2.5使用requests庫請求網站
2.2.6正則表達式提取數據
2.2.7代理的使用
2.2.8使用Cookie登錄
2.3解析庫的使用
2.3.1使用Beautiful Soup解析網頁
2.3.2使用XPath來處理HTML
2.4數據存儲
2.4.1存儲為JSON格式
2.4.2存儲為CSV格式
2.4.3存儲到MySQL數據庫中
2.5 習題
第3章 數據采集進階
3.1 Ajax數據爬取
3.1.1 什么是Ajax
3.1.2 為什么要學習Ajax爬取
3.1.3 怎樣進行Ajax數據的爬取
3.2 使用Selenium抓取動態渲染頁面
3.2.1 Selenium的基本介紹與安裝方法
3.2.2 Selenium的簡單使用
3.2.3 Selenium的應用實例
3.2.4 Selenium的高級操作
3.3 爬蟲框架介紹
3.3.1 爬蟲框架介紹
3.3.2 爬蟲框架機制
3.4 Scrapy爬蟲框架
3.4.1 Scrapy的簡介與安裝
3.4.2 Scrapy的基本使用
3.4.3 創建Scrapy項目
3.4.4 編寫Spider
3.4.5 編寫Item Pipeline
3.4.6 設置Settings模塊
3.5 習題
第4章 數據清洗
4.1 數據清洗概述
4.2 缺失數據處理
4.2.1 數據缺失的原因
4.2.2 缺失值的主要處理方法
4.3 異常值和重復值處理
4.3.1 刪除重復值
4.3.2 檢測異常值
4.3.3 過濾異常值
4.4 數據轉換
4.4.1 數據類型轉換
4.4.2 用函數或映射進行數據轉換
4.4.3 重命名軸索引
4.4.4 連續數據離散化
4.4.5 啞變量處理類別型數據
4.4.6 數據標準化
4.5 習題
第5章 數據規整與分組聚合
5.1 數據規整
5.1.1 數據聯合與合并
5.1.2 分層索引
5.1.3 數據重塑
5.2 數據分組
5.2.1 創建分組數據
5.2.2 運用GroupBy機制分組
5.3 數據聚合
5.3.1 groupby中預置的聚合方法
5.3.2 aggregate()函數與transform()函數
5.3.3 使用apply()函數
5.4 習題
第6章 豆瓣電影排行榜數據采集與預處理
6.1 豆瓣電影榜數據采集目標
6.2 豆瓣網頁結構分析
6.2.1 宏觀整體頁面分析
6.2.2 微觀具體信息爬取
6.3 創建爬蟲
6.3.1 準備URL
6.3.2 請求及響應
6.3.3 提取數據
6.3.4 保存數據
6.4 數據預處理
6.5 數據可視化
6.6 習題
第7章 使用Scrapy框架與Selenium數據采集與可視化
7.1 采集目標和準備工作
7.2 大數據網頁結構分析
7.3 使用Scrapy與Selenium爬取信息
7.3.1 編寫item.py與spider.py
7.3.2 編寫middlewares.py
7.3.3 編寫pipelines.py
7.3.4 設置settings.py
7.3.5 運行結果
7.4 某電商數據預處理與可視化
7.4.1 數據預處理
7.4.2 數據可視化
7.5 習題
第8章 房產數據預處理
8.1 研究背景和目標分析
8.2 數據描述與探索
8.3 數據預處理
8.3.1 屬性規約
8.3.2 數據缺失值處理
8.3.3 數據異常值處理
8.3.4 數據轉換
8.3.5 保存數據
8.4 習題
數據采集與預處理(微課版) 作者簡介
安俊秀,成都信息工程大學軟件工程學院教授,主要研究領域為云計算與大數據技術、大數據分析與服務、云計算技術及應用。
- >
龍榆生:詞曲概論/大家小書
- >
隨園食單
- >
二體千字文
- >
山海經
- >
中國歷史的瞬間
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
我與地壇
- >
大紅狗在馬戲團-大紅狗克里弗-助人