中圖網

>

計算機教材

大數據采集與預處理

包郵大數據采集與預處理

作者：李俊翰,武春嶺編

出版社：機械工業出版社出版時間：2024-07-01

開本： 16開 頁數： 268

本類榜單：計算機/網絡銷量榜

中圖價:¥48.6(7.0折) 定價 ~~¥69.0~~ 登錄后可看到會員價

加入購物車收藏

開年大促， 全場包郵

?新疆、西藏除外

本類五星書更多>

>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用

¥14.4¥45
>
決戰行測5000題(言語理解與表達)

決戰行測5000題(言語理解與表達)

¥44.1¥88
>
軟件性能測試.分析與調優實踐之路

軟件性能測試.分析與調優實踐之路

¥56.2¥69
>
第一行代碼Android

第一行代碼Android

¥55.4¥99
>
JAVA持續交付

JAVA持續交付

¥58.1¥119
>
EXCEL最強教科書(完全版)(全彩印刷)

EXCEL最強教科書(完全版)(全彩印刷)

¥31.1¥69.9
>
深度學習

深度學習

¥92.4¥168

商品詳情
商品評論(0條)

中圖價:¥48.6 加入購物車

版權信息
本書特色
內容簡介
目錄
作者簡介

大數據采集與預處理版權信息

ISBN：9787111757917
條形碼：9787111757917 ; 978-7-111-75791-7
裝幀：平裝-膠訂
冊數：暫無
重量：暫無
所屬分類：
計算機/網絡
>
計算機教材

大數據采集與預處理本書特色

·可作為高等職業院校、職業本科院校大數據技術及相關專業的教材
·從基礎的Python環境搭建、網絡基礎知識入手，結合實例，由淺入深地講解了常用爬蟲庫和解析庫、數據持久化保存、requests庫操作、Selenium和ChromeDriver操作、Scrapy爬蟲框架的基本原理和操作網絡爬蟲的常用技術和方法，以及通過Flask和ECharts實現數據可視化的方法等內容。
·提供了爬蟲案例和源代碼，以便讀者能夠更加直觀和快速地學會爬蟲的編寫技巧。

大數據采集與預處理內容簡介

本書共分兩部分：**部分是網絡數據采集與預處理的基礎理論實踐，包括任務1~任務6，主要講解如何使用Python編寫網絡數據采集和預處理程序，內容包括Python環境搭建，Python基礎語法、語句與函數，網絡基礎知識，常用網絡數據采集與預處理庫、解析庫，數據持久化保存，以及requests庫、numpy庫、pandas庫、Selenium技術、ChromeDriver技術和Scrapy技術的應用方式。第二部分是網絡數據采集與預處理的綜合案例，包括任務7~任務9，主要講解requests庫數據采集與ECharts可視化技術相結合以展示數據，并持久化保存數據、預處理數據的應用案例；Selenium和ChromeDriver技術相結合模擬登錄，采集動態和靜態數據，并持久化保存數據和預處理數據的應用案例；Hadoop平臺的Flume日志數據采集應用案例，充分呈現了大數據采集與預處理主流技術、可視化技術的主要功能和特點。
本書可作為高等職業院校、職業本科院校大數據技術及相關專業的教材，也可作為有一定Python編程經驗并且對數據采集與預處理技術感興趣的工程技術人員的參考用書。

大數據采集與預處理目錄

前言
**部分基礎理論實踐
任務1Python環境搭建——編寫“Welcome to Python！”程序
1.1任務描述
1.2Python概述
1.3Python編程環境搭建
1.3.1在Windows環境下的安裝
1.3.2在 Linux 環境下的安裝
1.3.3在macOS環境下的安裝
1.4安裝集成開發環境PyCharm
1.4.1PyCharm概述
1.4.2PyCharm的安裝和運行
1.5Python基礎語法
1.5.1整型
1.5.2浮點型
1.5.3字符串
1.5.4列表
1.5.5集合
1.5.6字典
1.5.7元組
1.6Python語句與函數
1.6.1條件判斷語句
1.6.2循環語句
1.6.3自定義函數
1.7任務實現
1.8小結
1.9習題
任務2實現簡單數據采集——采集業務網站頁面數據
2.1任務描述
2.2爬蟲基礎知識
2.2.1網絡爬蟲概述
2.2.2爬蟲的法律和道德
2.2.3Python爬蟲的工作過程
2.3網絡知識基礎
2.3.1HTML
2.3.2URI和URL
2.3.3HTTP
2.3.4Request和Response
2.4requests庫
2.4.1requests庫概述
2.4.2requests庫安裝
2.4.3requests庫的基本用法
2.5lxml庫和BeautifulSoup庫
2.5.1lxml庫概述
2.5.2BeautifulSoup庫概述
2.5.3lxml庫和BeautifulSoup庫安裝
2.5.4lxml庫和BeautifulSoup庫的基本用法
2.6任務實現
2.7數據預處理基礎
2.7.1數據預處理概述
2.7.2數據清洗
2.7.3數據集成
2.7.4數據轉換
2.7.5數據規約
2.7.6數據預處理工具
2.8小結
2.9習題
任務3存儲數據——學生就業信息數據讀寫和數據持久化
3.1任務描述
3.2MySQL
3.2.1MySQL概述
3.2.2MySQL安裝
3.2.3MySQL Workbench的操作
3.3PyMySQL
3.3.1PyMySQL和MySQL的區別
3.3.2PyMySQL安裝
3.3.3PyMySQL的用法
3.4CSV和JSON
3.4.1CSV概述
3.4.2輸出CSV文件頭部
3.4.3使用Python讀取CSV文件數據
3.4.4使用Python寫入CSV文件數據
3.4.5JSON概述
3.4.6使用Python讀取JSON文件數據
3.4.7使用Python寫入JSON文件數據
3.5任務實現
3.6小結
3.7習題
任務4requests庫技術應用案例——靜態數據和動態數據采集
4.1任務描述
4.2靜態數據和動態數據
4.2.1靜態數據基本概念
4.2.2動態數據基本概念
4.2.3AJAX的起源
4.2.4AJAX概述
4.2.5AJAX的特點
4.3子任務1：業務網站A靜態數據采集
4.3.1頁面分析
4.3.2獲取靜態數據
4.3.3數據持久化保存
4.3.4網頁分頁爬取的翻頁操作實現
4.3.5數據預處理
4.3.6任務實現
4.4子任務2：業務網站B靜態數據采集
4.4.1頁面分析
4.4.2獲取靜態數據
4.4.3數據持久化保存
4.4.4數據預處理
4.4.5任務實現
4.5子任務3：業務網站C動態數據采集
4.5.1頁面分析
4.5.2獲取動態數據
4.5.3數據持久化保存
4.5.4任務實現
4.6子任務4：業務網站D靜態數據采集
4.6.1業務網站D概述
4.6.2業務網站D的基本用法
4.6.3Web API概述
4.6.4業務網站D開放API的數據特點
4.6.5業務網站D的API請求數據
4.6.6獲取API的響應數據
4.6.7處理API的響應數據
4.6.8任務實現
4.7小結
4.8習題
任務5ChromeDriver和Selenium技術應用案例——網站數據采集
5.1任務描述
5.2ChromeDriver
5.2.1ChromeDriver概述
5.2.2ChromeDriver安裝
5.3Selenium
5.3.1Selenium概述
5.3.2Selenium安裝
5.4任務實現：業務網站數據采集
5.4.1頁面分析
5.4.2數據獲取
5.4.3數據持久化保存
5.5小結
5.6習題
任務6Scrapy技術應用案例——框架式數據采集
6.1任務描述
6.2Scrapy
6.2.1Scrapy概述
6.2.2Scrapy工作原理
6.2.3Scrapy安裝
6.3Scrapy組件
6.3.1Selector
6.3.2Spider
6.3.3Downloader Middleware
6.3.4Item Pipeline
6.4任務實現：業務網站數據采集
6.4.1頁面分析
6.4.2數據獲取
6.4.3數據持久化保存
6.5小結
6.6習題
第二部分綜合案例
任務7數據采集與可視化案例
7.1任務描述
7.2數據可視化技術
7.2.1Flask概述
7.2.2ECharts概述
7.3任務實現：業務網站二手房數據采集與可視化
7.3.1頁面分析
7.3.2數據獲取
7.3.3數據持久化保存
7.3.4數據可視化
7.3.5數據探索與轉換
7.3.6任務實現
7.4小結
7.5習題
任務8爬取指定業務網站案例8.1任務描述
8.2頁面分析
8.3模擬登錄
8.3.1模擬登錄的總體步驟
8.3.2模擬登錄業務邏輯和代碼詳解
8.4獲取靜態數據
8.4.1靜態數據獲取的總體步驟
8.4.2靜態數據獲取業務邏輯和代碼詳解
8.5獲取動態數據
8.5.1動態數據獲取的總體步驟
8.5.2動態數據獲取業務邏輯和代碼詳解
8.6數據持久化保存
8.7數據預處理
8.8小結
8.9習題
任務9Hadoop平臺的Flume日志數據采集應用案例
9.1任務描述
9.2Hadoop介紹
9.2.1Hadoop核心組件和工作原理
9.2.2Hadoop生態圈簡介
9.3Flume介紹
9.4Flume安裝和配置
9.4.1Flume的安裝
9.4.2Flume的配置
9.5Flume的應用
9.5.1采集文件夾下的增量數據到HDFS
9.5.2采集TCP端口數據到控制臺
9.6小結
9.7習題
參考文獻

展開全部

大數據采集與預處理作者簡介

李俊翰，重慶電子科技職業大學副教授，骨干教師，高級雙師型教師,系統集成項目管理工程師。作為主研參與大數據技術與應用國家專業教學資源庫建設工作，主持子課程《應用程序開發基礎（Java）》；作為主研參與第二批“智慧助老”優質工作案例；作為主研獲得2022重慶市教學成果“一等獎”；發表SCI1篇，中文核心期刊4篇；作為指導教師，指導學生參加2019全國職業院校技能大賽“大數據技術與應用”賽項獲二等獎，2019、2020和2021重慶市職業院校技能競賽“大數據技術與應用”賽項獲得一等獎3項；主編和參編多部教材。

商品評論(0條)

寫書評賺書幣

暫無評論……

書友推薦

>
伯納黛特,你要去哪(2021新版)
伯納黛特,你要去哪(2021新版)
[美] 瑪利亞·森普爾著，何雨珈譯
¥16.9~~¥49.8~~
>
名家帶你讀魯迅:朝花夕拾
名家帶你讀魯迅:朝花夕拾
魯迅著，陳漱渝主編
¥10.0~~¥21.0~~
>
莉莉和章魚
莉莉和章魚
[美]史蒂文·羅利著，祝文亭譯
¥15.3~~¥42.0~~
>
月亮虎
月亮虎
[英] 佩內洛普·萊夫利著，郭國良譯
¥16.4~~¥48.0~~
>
推拿
推拿
畢飛宇
¥12.2~~¥32.0~~
>
回憶愛瑪儂
回憶愛瑪儂
[日]梶尾真治著，王瑋譯
¥24.0~~¥32.8~~
>
人文閱讀與收藏·良友文學叢書:一天的工作
人文閱讀與收藏·良友文學叢書:一天的工作
魯迅
¥15.7~~¥45.8~~
>
【精裝繪本】畫給孩子的中國神話
【精裝繪本】畫給孩子的中國神話
施英巍
¥18.6~~¥55.0~~

本類暢銷

大數據技術導論(第2版)

陳明

¥28.9~~¥41~~
計算機組成原理實驗指導與習題解析

譚志虎

¥34.8~~¥52~~
數據結構教程(第6版·微課視頻·題庫版)

李春葆尹為民蔣晶玨喻丹丹蔣林

¥45.9~~¥65~~
MATLAB基礎及應用

張學敏主編

¥30.9~~¥49.8~~
DREAMWEAVER網頁設計制作項目教程

沙繼東,車蕾

¥21.3~~¥39~~
C#程序設計

崔舒寧

¥20.6~~¥45.6~~

中图网(原中国图书网)：网上书店，尾货特色书店，30万种特价书低至2折！

包郵大數據采集與預處理

大數據采集與預處理版權信息

大數據采集與預處理本書特色

大數據采集與預處理內容簡介

大數據采集與預處理目錄

大數據采集與預處理作者簡介

伯納黛特,你要去哪(2021新版)

名家帶你讀魯迅:朝花夕拾

莉莉和章魚

月亮虎

推拿

回憶愛瑪儂

人文閱讀與收藏·良友文學叢書:一天的工作

【精裝繪本】畫給孩子的中國神話

大數據技術導論(第2版)

計算機組成原理實驗指導與習題解析

數據結構教程(第6版·微課視頻·題庫版)

MATLAB基礎及應用

DREAMWEAVER網頁設計制作項目教程

C#程序設計

上海灘的賈斯汀·比伯

女孩們

熊千佳昆蟲記

趙元任早年自傳

邊城-插圖本

張學良人格圖譜

包郵 大數據采集與預處理

大數據采集與預處理 版權信息

大數據采集與預處理 本書特色

大數據采集與預處理 內容簡介

大數據采集與預處理 目錄

大數據采集與預處理 作者簡介

包郵大數據采集與預處理

大數據采集與預處理版權信息

大數據采集與預處理本書特色

大數據采集與預處理內容簡介

大數據采集與預處理目錄

大數據采集與預處理作者簡介