-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據采集與預處理 版權信息
- ISBN:9787111757917
- 條形碼:9787111757917 ; 978-7-111-75791-7
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據采集與預處理 本書特色
·可作為高等職業院校、職業本科院校大數據技術及相關專業的教材
·從基礎的Python環境搭建、網絡基礎知識入手,結合實例,由淺入深地講解了常用爬蟲庫和解析庫、數據持久化保存、requests庫操作、Selenium和ChromeDriver操作、Scrapy爬蟲框架的基本原理和操作網絡爬蟲的常用技術和方法,以及通過Flask和ECharts實現數據可視化的方法等內容。
·提供了爬蟲案例和源代碼,以便讀者能夠更加直觀和快速地學會爬蟲的編寫技巧。
大數據采集與預處理 內容簡介
本書共分兩部分:**部分是網絡數據采集與預處理的基礎理論實踐,包括任務1~任務6,主要講解如何使用Python編寫網絡數據采集和預處理程序,內容包括Python環境搭建,Python基礎語法、語句與函數,網絡基礎知識,常用網絡數據采集與預處理庫、解析庫,數據持久化保存,以及requests庫、numpy庫、pandas庫、Selenium技術、ChromeDriver技術和Scrapy技術的應用方式。第二部分是網絡數據采集與預處理的綜合案例,包括任務7~任務9,主要講解requests庫數據采集與ECharts可視化技術相結合以展示數據,并持久化保存數據、預處理數據的應用案例;Selenium和ChromeDriver技術相結合模擬登錄,采集動態和靜態數據,并持久化保存數據和預處理數據的應用案例;Hadoop平臺的Flume日志數據采集應用案例,充分呈現了大數據采集與預處理主流技術、可視化技術的主要功能和特點。
本書可作為高等職業院校、職業本科院校大數據技術及相關專業的教材,也可作為有一定Python編程經驗并且對數據采集與預處理技術感興趣的工程技術人員的參考用書。
大數據采集與預處理 目錄
**部分基礎理論實踐
任務1Python環境搭建——編寫“Welcome to Python!”程序
1.1任務描述
1.2Python概述
1.3Python編程環境搭建
1.3.1在Windows環境下的安裝
1.3.2在 Linux 環境下的安裝
1.3.3在macOS環境下的安裝
1.4安裝集成開發環境PyCharm
1.4.1PyCharm概述
1.4.2PyCharm的安裝和運行
1.5Python基礎語法
1.5.1整型
1.5.2浮點型
1.5.3字符串
1.5.4列表
1.5.5集合
1.5.6字典
1.5.7元組
1.6Python語句與函數
1.6.1條件判斷語句
1.6.2循環語句
1.6.3自定義函數
1.7任務實現
1.8小結
1.9習題
任務2實現簡單數據采集——采集業務網站頁面數據
2.1任務描述
2.2爬蟲基礎知識
2.2.1網絡爬蟲概述
2.2.2爬蟲的法律和道德
2.2.3Python爬蟲的工作過程
2.3網絡知識基礎
2.3.1HTML
2.3.2URI和URL
2.3.3HTTP
2.3.4Request和Response
2.4requests庫
2.4.1requests庫概述
2.4.2requests庫安裝
2.4.3requests庫的基本用法
2.5lxml庫和BeautifulSoup庫
2.5.1lxml庫概述
2.5.2BeautifulSoup庫概述
2.5.3lxml庫和BeautifulSoup庫安裝
2.5.4lxml庫和BeautifulSoup庫的基本用法
2.6任務實現
2.7數據預處理基礎
2.7.1數據預處理概述
2.7.2數據清洗
2.7.3數據集成
2.7.4數據轉換
2.7.5數據規約
2.7.6數據預處理工具
2.8小結
2.9習題
任務3存儲數據——學生就業信息數據讀寫和數據持久化
3.1任務描述
3.2MySQL
3.2.1MySQL概述
3.2.2MySQL安裝
3.2.3MySQL Workbench的操作
3.3PyMySQL
3.3.1PyMySQL和MySQL的區別
3.3.2PyMySQL安裝
3.3.3PyMySQL的用法
3.4CSV和JSON
3.4.1CSV概述
3.4.2輸出CSV文件頭部
3.4.3使用Python讀取CSV文件數據
3.4.4使用Python寫入CSV文件數據
3.4.5JSON概述
3.4.6使用Python讀取JSON文件數據
3.4.7使用Python寫入JSON文件數據
3.5任務實現
3.6小結
3.7習題
任務4requests庫技術應用案例——靜態數據和動態數據采集
4.1任務描述
4.2靜態數據和動態數據
4.2.1靜態數據基本概念
4.2.2動態數據基本概念
4.2.3AJAX的起源
4.2.4AJAX概述
4.2.5AJAX的特點
4.3子任務1:業務網站A靜態數據采集
4.3.1頁面分析
4.3.2獲取靜態數據
4.3.3數據持久化保存
4.3.4網頁分頁爬取的翻頁操作實現
4.3.5數據預處理
4.3.6任務實現
4.4子任務2:業務網站B靜態數據采集
4.4.1頁面分析
4.4.2獲取靜態數據
4.4.3數據持久化保存
4.4.4數據預處理
4.4.5任務實現
4.5子任務3:業務網站C動態數據采集
4.5.1頁面分析
4.5.2獲取動態數據
4.5.3數據持久化保存
4.5.4任務實現
4.6子任務4:業務網站D靜態數據采集
4.6.1業務網站D概述
4.6.2業務網站D的基本用法
4.6.3Web API概述
4.6.4業務網站D開放API的數據特點
4.6.5業務網站D的API請求數據
4.6.6獲取API的響應數據
4.6.7處理API的響應數據
4.6.8任務實現
4.7小結
4.8習題
任務5ChromeDriver和Selenium技術應用案例——網站數據采集
5.1任務描述
5.2ChromeDriver
5.2.1ChromeDriver概述
5.2.2ChromeDriver安裝
5.3Selenium
5.3.1Selenium概述
5.3.2Selenium安裝
5.4任務實現:業務網站數據采集
5.4.1頁面分析
5.4.2數據獲取
5.4.3數據持久化保存
5.5小結
5.6習題
任務6Scrapy技術應用案例——框架式數據采集
6.1任務描述
6.2Scrapy
6.2.1Scrapy概述
6.2.2Scrapy工作原理
6.2.3Scrapy安裝
6.3Scrapy組件
6.3.1Selector
6.3.2Spider
6.3.3Downloader Middleware
6.3.4Item Pipeline
6.4任務實現:業務網站數據采集
6.4.1頁面分析
6.4.2數據獲取
6.4.3數據持久化保存
6.5小結
6.6習題
第二部分綜合案例
任務7數據采集與可視化案例
7.1任務描述
7.2數據可視化技術
7.2.1Flask概述
7.2.2ECharts概述
7.3任務實現:業務網站二手房數據采集與可視化
7.3.1頁面分析
7.3.2數據獲取
7.3.3數據持久化保存
7.3.4數據可視化
7.3.5數據探索與轉換
7.3.6任務實現
7.4小結
7.5習題
任務8爬取指定業務網站案例8.1任務描述
8.2頁面分析
8.3模擬登錄
8.3.1模擬登錄的總體步驟
8.3.2模擬登錄業務邏輯和代碼詳解
8.4獲取靜態數據
8.4.1靜態數據獲取的總體步驟
8.4.2靜態數據獲取業務邏輯和代碼詳解
8.5獲取動態數據
8.5.1動態數據獲取的總體步驟
8.5.2動態數據獲取業務邏輯和代碼詳解
8.6數據持久化保存
8.7數據預處理
8.8小結
8.9習題
任務9Hadoop平臺的Flume日志數據采集應用案例
9.1任務描述
9.2Hadoop介紹
9.2.1Hadoop核心組件和工作原理
9.2.2Hadoop生態圈簡介
9.3Flume介紹
9.4Flume安裝和配置
9.4.1Flume的安裝
9.4.2Flume的配置
9.5Flume的應用
9.5.1采集文件夾下的增量數據到HDFS
9.5.2采集TCP端口數據到控制臺
9.6小結
9.7習題
參考文獻
大數據采集與預處理 作者簡介
李俊翰,重慶電子科技職業大學副教授,骨干教師,高級雙師型教師,系統集成項目管理工程師。作為主研參與大數據技術與應用國家專業教學資源庫建設工作,主持子課程《應用程序開發基礎(Java)》;作為主研參與第二批“智慧助老”優質工作案例;作為主研獲得2022重慶市教學成果“一等獎”;發表SCI1篇,中文核心期刊4篇;作為指導教師,指導學生參加2019全國職業院校技能大賽“大數據技術與應用”賽項獲二等獎,2019、2020和2021重慶市職業院校技能競賽“大數據技術與應用”賽項獲得一等獎3項;主編和參編多部教材。
- >
伯納黛特,你要去哪(2021新版)
- >
名家帶你讀魯迅:朝花夕拾
- >
莉莉和章魚
- >
月亮虎
- >
推拿
- >
回憶愛瑪儂
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
【精裝繪本】畫給孩子的中國神話