中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
數據采集與預處理

包郵 數據采集與預處理

作者:林子雨
出版社:人民郵電出版社出版時間:2022-01-01
開本: 16開 頁數: 250
中 圖 價:¥38.7(6.5折) 定價  ¥59.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

數據采集與預處理 版權信息

  • ISBN:9787115580634
  • 條形碼:9787115580634 ; 978-7-115-58063-4
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

數據采集與預處理 本書特色

適讀人群 :大數據專業的本科生、高職學生1.本書作者為大數據領域的知名作者——廈門大學林子雨,作者長期從事大數據教學,在大數據教育領域有較高的知名度和較大的影響力,其編著的《大數據技術原理與應用 ——概念、存儲、處理、 分析與應用(第3版)》一書今年銷售預計超過5萬冊; 2.本書內容全面,配套資源豐富:PPT、教學大綱、授課視頻、實驗指南、課后習題答案等; 3.有服務平臺:作者教學團隊打造了在線的“高校大數據課程公共服務平臺”,為全國高校師生提供相關教學服務并經常更新。目前該平臺已經成為國內高校大數據教學品牌,平臺累計訪問量超過1300萬次; 4.有教師服務QQ群:916443807。

數據采集與預處理 內容簡介

本書詳細闡述了大數據領域數據采集與預處理的相關理論和技術。全書共8章,內容包括概述、大數據實驗環境搭建、網絡數據采集、分布式消息系統Kafka、日志采集系統Flume、數據倉庫中的數據集成、ETL工具Kettle、使用pandas進行數據清洗。本書在第3章至第8章中安排了豐富的實踐操作,以便讀者更好地學習和掌握數據采集與預處理的關鍵技術。 本書可以作為高等院校大數據專業的大數據課程教材,也可供相關技術人員參考。

數據采集與預處理 目錄

第 1 章概述.
1.1 數據
1.1.1 數據的概念.
1.1.2 數據類型
1.1.3 數據的組織形式.
1.1.4 數據的價值
1.1.5 數據爆炸.
1.2 數據分析過程.
1.3 數據采集與預處理的任務
1.4 數據采集
1.4.1 數據采集的概念
1.4.2 數據采集的三大要點
1.4.3 數據采集的數據源.
1.4.4 數據采集方法.
1.5 數據清洗
1.5.1 數據清洗的應用領域
1.5.2 數據清洗的實現方式.
1.5.3 數據清洗的內容.
1.5.4 數據清洗的注意事項
1.5.5 數據清洗的基本.流.程.
1.5.6 數據清洗的評價標.
1.6 數據集成.
1.7 數據轉換.
1.7.1 數據轉換策略.
1.7.2 平滑處理
1.7.3 規范化處理.
1.8 數據脫敏.
1.8.1 數據脫敏原則.
1.8.2 數據脫敏方法.
1.9 本章小結.
1.10 習題
第 2 章 大數據實驗環境搭建.
2.1 Python 的安裝和使用.
2.1.1 Python 簡介
2.1.2 Python 的安裝
2.1.3 Python 的基本使用方法
2.1.4 Python 基礎語法知識
2.1.5 Python 第三方模塊的安裝。
2.2 JDK 的安裝.
2.3 MySQL 數據庫的安裝和使用
2.3.1 關系數據庫
2.3.2 關系數據庫標準語言SQL
2.3.3 安裝MySQL
2.3.4 MySQL 數據庫的使用方法
2.3.5 使用 Ppython操作MySQL數據庫
2.4 Hadoop的安裝和使用
2.4.1 Hadoop簡介
2.4.2分布式系統HDFS
2.4.3 Hadoop安裝
2.4.4 Hadoop的基本使用方法
第 3 章網絡數據采集.
3.1 網絡爬蟲概述.
3.1.1 什么是網絡爬蟲
3.1.2網絡爬蟲的類型
3.1.3反爬機制
3.2 網頁基礎知識
3.2.1超文本和HTML
3.2.2 HTTP.
3.3 用 Python 實現HTTP請求
3.3.1 urllib模塊
3.3.2 urllib3 模塊.
3.3.3 requests 模塊.
3.4 定制 request.s.
3.4.1 傳遞 URL參數,
3.4.2 定制請求頭,
3.4.3 網絡超時
3.5 解析網頁
3.5.1 BeautifulSoup 簡介.
3.5.2 BeautifulSoup 四大對象
3.5.3 遍歷文件樹
3.5.4 搜索文檔樹
3.5.5 CSS選擇器
3.6 綜合實例
實例1:采集網頁數據保存到文本
實例2:采集網頁數據保存到MYSQL數據庫
3.7 Scrapy 框架
3.7.1 Scrapy 框架概述
3.7.2 XPath 語言
3.7.3 Scrapy 框架應用實例,
3.8 本章小結
3.9 習題.
實驗 2 網絡爬蟲初級實踐
第 4 章分布式消息系統 afu.a .
4.1 Kafka 簡介
4.1.1 Kafk的特性
4.1.2 Kafka 的應用場景.
4.1.3 Kafka 的消息傳遞模式….
4.2 Kafka 在大數據生態系統中的作-用
4.3 Kafka 與 Flume 的區別與聯
4.4 Kafka 相關概念
4.5 Kafka 的安裝和使用
4.5.1 安裝Kafk
4.5.2 使用 Kafka
4.6 使用 Python 操作 Kafka
4.7 Kafka 與 MysQL 的組合使用,
4.8 本章小結
4.9 習題
實驗 3 熟悉 Kafka 的基本使用方法
第 5 章日志采集統Flume
5.1 Flume 簡介.
5.2 Flume 的安裝和使用
5.2.1 Flume 的安裝.
5.2.2 Flume 的使用.
5.3 Flume 和 Kafka 的組合使用.
5.4 采集日志文件到 HDFS.
5.4.1 采集目錄到 HDFS
5.4.2 采集文件到 HDFS.
5.5 采集 MySQL 數據到 HDFS
5.5.1 準備工作
5.5.2 創建 MysQL 數據庫.
5.6 本章小結.
5.7 習題
實驗 4熟悉 Flume 的基本使用方法
第 6 章 數據倉庫中的數據集成
6.1數據倉庫的概念
6.1.1傳統的數據倉庫
6.1.2 實時主動數據倉庫
6.2 數據集成
6.2.1 數據集成方式
6.2.2 數據分發方式
6.2.3 數據集成技術
6.3 ETL.
6.3.1 ETL 簡介.
6.3.2 ETL基本模塊
6.3.3 ETL工具
6.4 CDC .
6.4.1 CDC 的特性
6.4.2 CDC 的組成
6.4.3 CDC 的應用場景
6.4.4 CDC 需要考慮的問題
6.5 本章小結
6.6 習題
第7章 ETL工具的Kettle
7.1 Kettle 的基本概念!
7.2 Kettle 的基本功能
7.3 安裝 Kettle. .
7.4 數據抽取
7.4.1 把文本文件導入Excel 文件
7.4.2 把文本文件導入 MySQL 數據庫
7.4.3 把 Excel 文件導入MySQL數據庫
7.5 數據清洗與轉換
7.5.1 使用 Kettle 實現數據排序
7.5.2 在 Kettle 中用正則表達式清洗數據
7.5.3 使用 Kettle 去除缺失值
7.5.4 使用 Kettle 轉化 MySQL 數據庫中的數據
7.6 數據加載
7.6.1 把本地文件加載到 HDFS 中
7.6.2 把 HDFS 文件加載到 MySQL 數庫
7.7 本章.小結.
7.8 習題
實驗 5 熟悉 Kettle 的基本使用方法
第 8 章 使用 pandas 進行數據清洗
8.1 NumPy 的基本使用方法
8.1.1 數組創建
8.1.2數組索引和切片
8.1.3 數組運算
8.2 pandas的數據結構
8.2.2 Series
8.2.2 DataFrame
8.2.3索引對象
8.3 pandas的基本功能
8.3.1 重新索引.
8.3.2 丟棄指定軸上的項
8.3.3 索引、選取和濾.
8.3.4 算術運算.
8.3.5 DataFrame 和 Series 之間的運算.
8.3.6 函數應用和映射
8.3.7 排序和排名
8.3.8 分組
8.3.9 shape函數
8.3.10 info()函數
8.3.11 cut()函數
8.4 匯總和描述統計
8.4.1 與描述統計相關的函數
8.4.2 唯一值、值計數以及成員資格,
8.5 處理缺失數據
8.5.1 檢查缺失值
8.5.2 清理 填充缺失值.
8.5.3 排除缺少的值
8.6 綜合實例
8.6.1 Matplotlib 的使用方法
8.6.2 實例 1:對一個數據集進行基本操作
8.6.3 實例 2:百度搜索指數分析
8.6.4 實例 3:電影評分數據分析
8.6.5 實例 4:App行為數據預處理
8.7 本章小結
8.8 習題
實驗6 pandas數據清洗初級實踐
參考文獻

展開全部

數據采集與預處理 作者簡介

林子雨 博士,國內高校知名大數據教師,廈門大學計算機科學系副教授,廈門大學信息學院實驗教學中心主任,廈門大學數據庫實驗室負責人,中國高校**“數字教師”提出者和建設者。2013年開始在廈門大學開設大數據課程,建設了國內高校**大數據課程公共服務平臺,平臺累計網絡訪問量超過1000萬次,成為全國高校大數據教學****,并榮獲“2018年福建省教學成果二等獎”和“2018年廈門大學教學成果特等獎”,主持的課程“大數據技術原理與應用”獲評“2018年國家精品在線開放課程”和“2020年***線上一流本科課程”。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 立式壁挂广告机厂家-红外电容触摸一体机价格-华邦瀛 | H型钢切割机,相贯线切割机,数控钻床,数控平面钻,钢结构设备,槽钢切割机,角钢切割机,翻转机,拼焊矫一体机 | 郑州外墙清洗_郑州玻璃幕墙清洗_郑州开荒保洁-河南三恒清洗服务有限公司 | 泰兴市热钻机械有限公司-热熔钻孔机-数控热熔钻-热熔钻孔攻牙一体机 | elisa试剂盒-PCR试剂盒「上海谷研实业有限公司」 | 软膜天花_软膜灯箱_首选乐创品牌_一站式天花软膜材料供应商! | 环保袋,无纺布袋,无纺布打孔袋,保温袋,环保袋定制,环保袋厂家,环雅包装-十七年环保袋定制厂家 | 干粉砂浆设备-干粉砂浆生产线-干混-石膏-保温砂浆设备生产线-腻子粉设备厂家-国恒机械 | 色谱柱-淋洗液罐-巴罗克试剂槽-巴氏吸管-5ml样品瓶-SBS液氮冻存管-上海希言科学仪器有限公司 | 消电检公司,消电检价格,北京消电检报告-北京设施检测公司-亿杰(北京)消防工程有限公司 | 蜘蛛车-高空作业平台-升降机-高空作业车租赁-臂式伸缩臂叉装车-登高车出租厂家 - 普雷斯特机械设备(北京)有限公司 | 圆盘鞋底注塑机_连帮鞋底成型注塑机-温州天钢机械有限公司 | 废气处理设备-工业除尘器-RTO-RCO-蓄热式焚烧炉厂家-江苏天达环保设备有限公司 | 紧急泄压人孔_防爆阻火器_阻火呼吸阀[河北宏泽石化] | 乐考网-银行从业_基金从业资格考试_初级/中级会计报名时间_中级经济师 | 四川实木门_成都实木门 - 蓬溪聚成门业有限公司 | 讲师宝经纪-专业培训机构师资供应商_培训机构找讲师、培训师、讲师经纪就上讲师宝经纪 | 2025世界机器人大会_IC China_半导体展_集成电路博览会_智能制造展览网 | TTCMS自助建站_网站建设_自助建站_免费网站_免费建站_天天向上旗下品牌 | ZHZ8耐压测试仪-上海胜绪电气有限公司 | 盘式曝气器-微孔曝气器-管式曝气器-曝气盘-斜管填料 | 郑州市前程水处理有限公司 | 全自动五线打端沾锡机,全自动裁线剥皮双头沾锡机,全自动尼龙扎带机-东莞市海文能机械设备有限公司 | 大_小鼠elisa试剂盒-植物_人Elisa试剂盒-PCR荧光定量试剂盒-上海一研生物科技有限公司 | 凝胶成像仪,化学发光凝胶成像系统,凝胶成像分析系统-上海培清科技有限公司 | 蜘蛛车-登高车-高空作业平台-高空作业车-曲臂剪叉式升降机租赁-重庆海克斯公司 | 锤式粉碎机,医药粉碎机,锥式粉碎机-无锡市迪麦森机械制造有限公司 | 冷却塔厂家_冷却塔维修_冷却塔改造_凉水塔配件填料公司- 广东康明节能空调有限公司 | 智能交通网_智能交通系统_ITS_交通监控_卫星导航_智能交通行业 | 新能源汽车电池软连接,铜铝复合膜柔性连接,电力母排-容发智能科技(无锡)有限公司 | 赛尔特智能移动阳光房-阳光房厂家-赛尔特建筑科技(广东)有限公司 | 风化石头制砂机_方解石制砂机_瓷砖石子制砂机_华盛铭厂家 | 扬尘监测_扬尘监测系统_带证扬尘监测设备 - 郑州港迪科技有限公司 | 代做标书-代写标书-专业标书文件编辑-「深圳卓越创兴公司」 | 上海律师咨询_上海法律在线咨询免费_找对口律师上策法网-策法网 广东高华家具-公寓床|学生宿舍双层铁床厂家【质保十年】 | 广州冷却塔维修厂家_冷却塔修理_凉水塔风机电机填料抢修-广东康明节能空调有限公司 | 上海办公室装修,写字楼装修—启鸣装饰设计工程有限公司 | 金属清洗剂,防锈油,切削液,磨削液-青岛朗力防锈材料有限公司 | 华溶溶出仪-Memmert稳定箱-上海协烁仪器科技有限公司 | 洗地机-全自动/手推式洗地机-扫地车厂家_扬子清洁设备 | 球磨机 选矿球磨机 棒磨机 浮选机 分级机 选矿设备厂家 | 不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰]-不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰] |