中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
數據采集與預處理技術應用

包郵 數據采集與預處理技術應用

出版社:機械工業出版社出版時間:2023-08-01
開本: 16開 頁數: 196
本類榜單:教材銷量榜
中 圖 價:¥39.9(6.7折) 定價  ¥59.9 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

數據采集與預處理技術應用 版權信息

數據采集與預處理技術應用 本書特色

聚焦大數據關鍵技術要點,詳解數據采集與數據預處理理論與技術
介紹主流數據采集工具(Flume、Kafka、日志易、Scribe、Scrapy框架等),及主流數據預處理工具(Python、Kettle、Pig、OpenRefine)的應用
隨書提供全套教學課件、教學大綱、授課計劃、數據集、源代碼等教學資源

數據采集與預處理技術應用 內容簡介

本書重點介紹了數據采集和數據預處理的相關理論與技術。全書共9章,主要包括數據采集與預處理概述,大數據開發環境的搭建,使用Flume采集系統日志數據,使用Kafka采集系統日志數據,其他常用的系統日志數據采集工具,使用網絡爬蟲采集Web數據,Python數據預處理庫的使用,使用ETL工具Kettle進行數據預處理,以及其他常用的數據預處理工具。本書在第2章至第9章安排了豐富的實踐操作,實現了理論與實踐的有機結合,幫助讀者更好地學習和掌握數據采集與預處理的關鍵技術。本書可以作為高等院校大數據專業的大數據課程教材,也可以作為計算機相關專業的專業課或選修課教材,同時也可以作為從事大數據相關專業的工作人員的參考用書。

數據采集與預處理技術應用 目錄

目 錄
出版說明
前言

第1章 數據采集與預處理概述1
1.1 大數據簡介1
1.1.1 數據的概念、類型、組織形式1
1.1.2 大數據的概念、特點與作用3
1.1.3 大數據的技術應用4
1.2 數據分析簡介5
1.2.1 數據分析的基本流程5
1.2.2 數據分析的方法與技術6
1.3 數據采集簡介8
1.3.1 數據采集的三大方式及工具8
1.3.2 數據采集的應用場景11
1.4 數據預處理簡介12
1.4.1 數據預處理的目的與意義13
1.4.2 數據預處理的流程13
1.4.3 數據預處理的工具介紹15
習題17
第2章 大數據開發環境的搭建18
2.1 安裝Python與JDK18
2.1.1 Java和Python概述18
2.1.2 Python的安裝與配置19
2.1.3 JDK的安裝與配置20
2.1.4 Python與Java的IDE介紹21
2.2 MySQL數據庫的安裝與配置22
2.2.1 SQL概述22
2.2.2 安裝MySQL數據庫23
2.2.3 MySQL數據庫的基本使用24
2.3 Hadoop的安裝與配置26
2.3.1 單節點環境26
2.3.2 偽分布式環境27
2.3.3 節點間免密通信28
2.3.4 Hadoop的啟動和測試29
2.4 在Hadoop集群上運行
WordCount31
2.4.1 運行Java版本WordCount實例31
2.4.2 運行Python版本WordCount
實例33
習題36
第3章 使用Flume采集系統日志
數據37
3.1 Flume概述37
3.2 Flume的安裝運行38
3.3 Flume的核心組件38
3.3.1 Agent39
3.3.2 Source40
3.3.3 Sink40
3.3.4 Channel40
3.3.5 Event41
3.4 Flume攔截器與選擇器41
3.4.1 Flume內置攔截器41
3.4.2 自定義攔截器46
3.5 Flume負載均衡與故障轉移49
3.6 實踐案例:使用Flume采集數據
上傳到HDFS52
習題54
第4章 使用Kafka采集系統日志
數據55
4.1 Kafka概述55
4.1.1 消息隊列55
4.1.2 Kafka的特點56
4.1.3 Kafka與Flume的區別57
4.2 Kafka的安裝部署57
4.2.1 集群規劃57
4.2.2 安裝Zookeeper57
4.2.3 安裝Kafka59
4.3 Kafka的基本架構60
4.3.1 Kafka的消息系統60
4.3.2 Producer與Consumer60
4.3.3 主題與分區61
4.3.4 Broker與Kafka集群61
4.3.5 Zookeeper在Kafka中的作用62
4.4 實踐案例:使用Kafka采集本地
日志數據63
4.5 實踐案例:Kafka與Flume結合
采集日志數據65
習題67
第5章 其他常用的系統日志數據采集
工具68
5.1 Scribe68
5.1.1 Scribe簡介68
5.1.2 Scribe的配置文件68
5.1.3 實踐案例:使用Scribe采集系統
日志數據70
5.2 Chukwa71
5.2.1 Chukwa簡介71
5.2.2 Chukwa架構與數據采集72
5.2.3 實踐案例:使用Chukwa采集系統
日志數據74
5.3 Splunk75
5.3.1 Splunk概述75
5.3.2 Splunk的安裝與基本使用75
5.3.3 實踐案例:使用Splunk采集系統
日志數據77
5.4 日志易80
5.4.1 日志易的特點80
5.4.2 注冊日志易賬號81
5.4.3 實踐案例:使用日志易采集搜索
本地日志文件82
5.5 Logstash90
5.5.1 Logstash簡介90
5.5.2 Logstash的工作原理90
5.5.3 Logstash安裝與部署90
5.5.4 實踐案例:使用Logstash采集并
處理系統日志數據91
5.5.5 實踐案例:使用Logstash將數據
導入Elasticsearch93
5.6 Fluentd94
5.6.1 Fluentd簡介95
5.6.2 Fluentd的安裝與配置95
5.6.3 Fluentd的基本命令96
5.6.4 實踐案例:使用Fluentd采集系統
日志數據97
習題99
第6章 使用網絡爬蟲采集Web
數據100
6.1 網絡爬蟲概述100
6.1.1 網絡爬蟲的基本原理100
6.1.2 網絡爬蟲的類型100
6.2 網絡爬蟲基礎101
6.2.1 網絡爬蟲的基本爬取方式101
6.2.2 使用正則表達式進行字符串
匹配103
6.2.3 使用解析庫解析網頁104
6.2.4 Ajax數據的爬取106
6.2.5 使用selenium抓取動態渲染
頁面106
6.3 常見的網絡爬蟲框架107
6.3.1 Scrapy框架107
6.3.2 WebMagic框架110
6.3.3 Crawler4j框架111
6.3.4 WebCollector框架113
6.4 實踐案例:使用Scrapy爬取電商
網站數據114
習題118
第7章 Python數據預處理庫的使用119
7.1 Python與數據分析119
7.1.1 Python的特點119
7.1.2 為何使用Python進行數據分析120
7.2 NumPy:數組與向量計算120
7.3 Pandas:數據結構化操作123
7.4 SciPy:科學化計算127
7.5 Matplotlib:數據可視化130
7.6 實踐案例:使用Python預處理
旅游路線數據137
習題143
第8章 使用ETL工具Kettle進行
數據預處理144
8.1 Kettle概述144
8.2 Kettle的安裝與配置144
8.3 Kettle的基本使用145
8.3.1 Kettle的使用界面145
8.3.2 新建轉換與任務146
8.3.3 數據獲取149
8.3.4 數據清洗與轉換156
8.3.5 數據遷移和裝載160
8.4 實踐案例:使用Kettle處理某
電商網站數據163
習題167
第9章 其他常用的數據預處理工具168
9.1 Pig168
9.1.1 Pig概述168
9.1.2 Pig的安裝和配置169
9.1.3 Pig Latin的基本概念170
9.1.4 使用Pig進行數據預處理176
9.2 OpenRefine182
9.2.1 OpenRefine概述183
9.2.2 OpenRefine創建項目183
9.2.3 OpenRefine的基本使用186
9.3 實踐案例:使用Pig和
OpenRefine預處理
展開全部

數據采集與預處理技術應用 作者簡介

安俊秀,成都信息工程大學教授,訪問學者,碩士生導師。軟件自動生成與智能服務四川省 學術帶頭人(知識本體和大數據方向)。并行計算與大數據研究所負責人。長期從事數據科學與大數據技術相關的研究與教學工作,已發表研究領域相關論文40余篇,主編大數據與人工智能方面專著或教材10余部。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 耙式干燥机_真空耙式干燥机厂家-无锡鹏茂化工装备有限公司 | 工业雾炮机_超细雾炮_远程抑尘射雾器-世纪润德环保设备 | 滚珠丝杆升降机_螺旋升降机_丝杠升降机-德迈传动 | 合肥触摸一体机_触摸查询机厂家_合肥拼接屏-安徽迅博智能科技 | 精密模具加工制造 - 富东懿 | 电动不锈钢套筒阀-球面偏置气动钟阀-三通换向阀止回阀-永嘉鸿宇阀门有限公司 | 自动记录数据电子台秤,记忆储存重量电子桌称,设定时间记录电子秤-昆山巨天 | 哈尔滨京科脑康神经内科医院-哈尔滨治疗头痛医院-哈尔滨治疗癫痫康复医院 | 房车价格_依维柯/大通/东风御风/福特全顺/江铃图片_云梯搬家车厂家-程力专用汽车股份有限公司 | 涡街流量计_LUGB智能管道式高温防爆蒸汽温压补偿计量表-江苏凯铭仪表有限公司 | 北京百度网站优化|北京网站建设公司-百谷网络科技 | 酒店品牌设计-酒店vi设计-酒店标识设计【国际级】VI策划公司 | 企业彩铃制作_移动、联通、电信集团彩铃上传开通_彩铃定制_商务彩铃管理平台-集团彩铃网 | 活性炭-果壳木质煤质柱状粉状蜂窝活性炭厂家价格多少钱 | 酒精检测棒,数显温湿度计,酒安酒精测试仪,酒精检测仪,呼气式酒精检测仪-郑州欧诺仪器有限公司 | 华禹护栏|锌钢护栏_阳台护栏_护栏厂家-华禹专注阳台护栏、楼梯栏杆、百叶窗、空调架、基坑护栏、道路护栏等锌钢护栏产品的生产销售。 | 陕西高职单招-陕西高职分类考试网| 今日热点_实时热点_奇闻异事_趣闻趣事_灵异事件 - 奇闻事件 | 钢制暖气片散热器_天津钢制暖气片_卡麦罗散热器厂家 | 手机游戏_热门软件app下载_好玩的安卓游戏下载基地-吾爱下载站 | 焦作网 WWW.JZRB.COM | 油漆辅料厂家_阴阳脚线_艺术漆厂家_内外墙涂料施工_乳胶漆专用防霉腻子粉_轻质粉刷石膏-魔法涂涂 | 便携式XPDM露点仪-在线式防爆露点仪-增强型烟气分析仪-约克仪器 冰雕-冰雪世界-大型冰雕展制作公司-赛北冰雕官网 | 玉米深加工设备|玉米加工机械|玉米加工设备|玉米深加工机械-河南成立粮油机械有限公司 | 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 恒温振荡混匀器-微孔板振荡器厂家-多管涡旋混匀器厂家-合肥艾本森(www.17world.net) | 金现代信息产业股份有限公司--数字化解决方案供应商 | 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 浩方智通 - 防关联浏览器 - 跨境电商浏览器 - 云雀浏览器 | 超声波反应釜【百科】-以马内利仪器| 上海律师事务所_上海刑事律师免费咨询平台-煊宏律师事务所 | 旋转气浴恒温振荡器-往复式水浴恒温振荡器-金怡百科 | 胶泥瓷砖胶,轻质粉刷石膏,嵌缝石膏厂家,腻子粉批发,永康家德兴,永康市家德兴建材厂 | 走心机厂家,数控走心机-台州博城智能科技有限公司 | 杭州营业执照代办-公司变更价格-许可证办理流程_杭州福道财务管理咨询有限公司 | HEYL硬度计量泵-荧光法在线溶解氧仪-净时测控技术(上海)有限公司 | 造价工程师网,考试时间查询,报名入口信息-网站首页 | 华禹护栏|锌钢护栏_阳台护栏_护栏厂家-华禹专注阳台护栏、楼梯栏杆、百叶窗、空调架、基坑护栏、道路护栏等锌钢护栏产品的生产销售。 | 面粉仓_储酒罐_不锈钢储酒罐厂家-泰安鑫佳机械制造有限公司 | 2025福建平潭岛旅游攻略|蓝眼泪,景点,住宿攻略-趣平潭网 |