-
>
闖進數學世界――探秘歷史名題
-
>
中醫基礎理論
-
>
當代中國政府與政治(新編21世紀公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國特色社會主義理論體系概論(2021年版)
-
>
中醫內科學·全國中醫藥行業高等教育“十四五”規劃教材
大數據采集與預處理 微課版 版權信息
- ISBN:9787115639158
- 條形碼:9787115639158 ; 978-7-115-63915-8
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據采集與預處理 微課版 本書特色
1.本選題資源與案例均為本校多年教學經驗的總結,同時結合大數據一線企業浪潮集團在數據采集行業的行業經驗與案例總結。做到了真正的產教融合。
2.以項目為模塊組織教材內容,打破了原有教材體系的章節框架局限。
3.深度契合高等職業學校大數據技術與應用*新專業教學標準
大數據采集與預處理 微課版 內容簡介
本書按照大數據采集與預處理的實現流程,由淺入深地講解大數據采集與預處理的相關技術,以及如何使用不同方式對大數據進行采集與預處理。本書內容系統、全面,可幫助開發人員快速實現大量數據的采集。
本書主要內容包括大數據采集與預處理簡介、PyCharm的安裝與使用、Urllib庫數據采集、Requests庫數據采集、XPath和Beautiful Soup庫數據解析、Scrapy框架數據采集與存儲、Flume和Kafka日志數據采集以及使用Pandas、Pig、ELK進行數據預處理等。
本書既可作為高職高專院校大數據、人工智能相關專業的教材,也可作為相關技術人員的參考書。
大數據采集與預處理 微課版 目錄
項目1
初識動態網頁數據采集與
預處理 1
項目導言 1
思維導圖 1
知識目標 1
技能目標 1
素養目標 2
任務1-1 認識數據采集與預處理 2
任務描述 2
素質拓展 2
任務技能 2
技能點1 認識大數據來源 2
技能點2 認識數據采集 5
技能點3 認識數據預處理 10
任務1-2 搭建數據采集與預處理開發
環境 14
任務描述 14
素質拓展 14
任務技能 14
技能點1 認識PyCharm 14
技能點2 下載及安裝PyCharm 15
技能點3 使用PyCharm 18
任務實施 20
項目小結 24
課后習題 24
自我評價 25
項目2
動態網頁數據采集 26
項目導言 26
思維導圖 26
知識目標 26
技能目標 26
素養目標 27
任務2-1 使用Urllib庫完成“新聞
動態”網頁數據采集 27
任務描述 27
素質拓展 27
任務技能 27
技能點1 request模塊 27
技能點2 error模塊 30
技能點3 parse模塊 31
任務實施 32
任務2-2 使用Requests庫完成
“浪潮云說”網頁數據
采集 36
任務描述 36
素質拓展 37
任務技能 37
技能點1 Requests庫的簡介及
安裝 37
技能點2 Requests庫的基本使用
方法 38
技能點3 Requests庫的高級使用
方法 42
任務實施 45
項目小結 48
課后習題 48
自我評價 49
項目3
動態網頁數據解析 50
項目導言 50
思維導圖 50
知識目標 50
技能目標 50
素養目標 51
任務3-1 使用XPath解析“新聞
動態”網頁數據 51
任務描述 51
素質拓展 51
任務技能 51
技能點1 XPath的簡介 51
技能點2 定位 55
技能點3 數據提取 57
任務實施 58
任務3-2 使用Beautiful Soup
解析“浪潮云說”網頁
數據 63
任務描述 63
素質拓展 63
任務技能 63
技能點1 Beautiful Soup的安裝 64
技能點2 Beautiful Soup的使用 65
任務實施 68
項目小結 75
課后習題 75
自我評價 76
項目4
基于Scrapy實現動態網頁
數據采集與存儲 77
項目導言 77
思維導圖 77
知識目標 77
技能目標 77
素養目標 78
任務4-1 使用Scrapy框架完成
新聞公告頁面數據采集
與存儲 78
任務描述 78
素質拓展 78
任務技能 78
技能點1 Scrapy的簡介及安裝 78
技能點2 Scrapy的操作指令 82
技能點3 段定義及Scrapy設置 83
技能點4 文本解析 89
技能點5 內容存儲 93
任務實施 95
項目小結 104
課后習題 104
自我評價 105
項目5
動態網頁訪問日志數據
采集 106
項目導言 106
思維導圖 106
知識目標 106
技能目標 106
素養目標 107
任務5-1 使用Flume采集某官網
訪問日志數據 107
任務描述 107
素質拓展 107
任務技能 107
技能點1 Flume的簡介 107
技能點2 Flume數據采集配置 110
技能點3 Flume的啟動方法 119
技能點4 Flume攔截器配置 122
任務實施 125
任務5-2 使用Kafka消費Flume中
某官網訪問日志數據 129
任務描述 129
素質拓展 130
任務技能 130
技能點1 Kafka的簡介 130
技能點2 Kafka的配置 131
技能點3 Kafka腳本操作 134
技能點4 Kafka Python API 137
任務實施 140
項目小結 144
課后習題 144
自我評價 145
項目6
動態網頁數據預處理 146
項目導言 146
思維導圖 146
知識目標 147
技能目標 147
素養目標 147
任務6-1 使用Pandas實現新聞動態
網頁數據預處理 147
任務描述 147
素質拓展 147
任務技能 148
技能點1 Pandas的簡介 148
技能點2 Pandas的數據結構 148
技能點3 Pandas的基本功能 149
技能點4 匯總和描述統計 155
技能點5 處理缺失數據 157
任務實施 158
任務6-2 使用Pig實現“浪潮云說”
網頁數據預處理 161
任務描述 161
素質拓展 161
任務技能 162
技能點1 Pig的簡介 162
技能點2 Pig配置運行 162
技能點3 Pig Latin執行 165
技能點4 運算符 166
技能點5 內置函數 171
任務實施 177
任務6-3 使用ELK實現某官網日志
數據預處理 182
任務描述 182
素質拓展 182
任務技能 182
技能點1 Elasticsearch 182
技能點2 Logstash 184
技能點3 Kibana 195
任務實施 200
項目小結 207
課后習題 207
自我評價 208
大數據采集與預處理 微課版 作者簡介
宋磊。電子與信息工程學院專業技術副總管,教授,全國技術能手(經核準后授予)、龍江技術能手,校級教學名師,校級師德先進個人,哈爾濱市“四有”好老師。黑龍江省高職高專計算機類教學指導會員會委員、區塊鏈智能合約開發職業技能等級證書考評員、數據采集職業技能等級證書考評員。從事軟件技術專業教學工作18年,主講《Java項目實戰》《Web綜合實戰》《Java企業級項目開發實戰》等多門課程。主講課程《Java項目實戰》2018年評為省級精品在線開放課程,2020年評為省級課程思政示范課。參加黑龍江省教學能力大賽獲二等獎2項。指導學生參加全國職業院校技能大賽“物聯網技術應用”“區塊鏈技術應用”賽項獲二等獎2項,三等獎3項。指導學生參加省級職業院校技能大賽“物聯網技術應用”、“云計算技術與應用”、“大數據技術與應用”、“移動應用開發”等賽項獲一等獎10余項。參與起草《數據采集》《JAVA應用開發》2項職業技能等級標準。擔任44-46屆世界技能大賽黑龍江省選拔賽“網站設計與開發”賽項裁判長和命題專家。主持省級區塊鏈技術應用專業教學資源庫建設、主持校級新一代信息技術專業群教學資源庫建設。榮獲黑龍江省一類職業技能大賽物聯網技術職業技能大賽個人賽第一名(金牌)、黑龍江省第一屆職業技能大賽區塊鏈應用操作金牌,全國第二屆職業技能大賽區塊鏈應用操作銅牌。
- >
史學評論
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
名家帶你讀魯迅:朝花夕拾
- >
伯納黛特,你要去哪(2021新版)
- >
經典常談
- >
伊索寓言-世界文學名著典藏-全譯本
- >
中國歷史的瞬間