中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
大數據技術及應用——基于Python語言

包郵 大數據技術及應用——基于Python語言

作者:嚴宣輝
出版社:電子工業出版社出版時間:2021-10-01
開本: 16開 頁數: 360
中 圖 價:¥45.9(6.7折) 定價  ¥69.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

大數據技術及應用——基于Python語言 版權信息

大數據技術及應用——基于Python語言 本書特色

理實一體化構建完整的大數據知識體系+技術方法,輔以應用案例和實踐指導 聚焦大數據處理全流程大數據基本概念—大數據實驗環境—數據采集和預處理—數據存儲與管理—分布式計算模型和算法設計—數據分析與挖掘—數據可視化 理實一體化構建完整的大數據知識體系+技術方法,輔以應用案例和實踐指導 聚焦大數據處理全流程大數據基本概念—大數據實驗環境—數據采集和預處理—數據存儲與管理—分布式計算模型和算法設計—數據分析與挖掘—數據可視化 Python語言實現提供用Python語言實現大數據處理的示例代碼,并給出用Python語言設計分布式數據掘算法的案例 配套資源豐富

大數據技術及應用——基于Python語言 內容簡介

目前,社會對大數據工程技術人才的需求大大增加,因此向計算機和電子信息類相關專業學生傳授大數據知識和技術方法,提高他們在各領域應用大數據的能力具有重大意義。本書共9章,圍繞大數據的基本概念和大數據處理的主要環節編寫。第1章主要介紹大數據的概念、特點和構成;第2章主要介紹在Windows系統中安裝Linux虛擬機及構建Hadoop分布式集群的方法;第3章主要介紹大數據采集工具的使用及數據預處理的常用方法;第4章首先介紹Hadoop的發展歷史、軟件生態、核心組件和命令結構,然后以HDFS為重點,介紹其體系結構和特點,并詳細介紹HDFS的交互式命令;第5章介紹大數據環境下存儲工具HBase的數據模型;第6章介紹Hive的存儲模型,第7章介紹在Hadoop平臺上利用Python設計MapReduce程序的基本思路;第8章介紹大數據分析與挖掘過程中的常用算法;第9章介紹數據可視化的常用方法及常用工具。本書的內容與實際應用緊密結合,目的是讓讀者能了解大數據的基本概念、理解大數據技術的基本原理、初步掌握大數據處理和分析的基本方法,為未來應用大數據思維和大數據分析方法解決工作中的實際問題打下良好的基礎。本書適合作為高等學校計算機類和電子信息類相關專業大數據技術相關課程的教材,可供本科生、研究生使用,同時也適合對大數據技術感興趣的廣大讀者進行自學和實踐時使用。

大數據技術及應用——基于Python語言 目錄

目錄

第1章 緒論 1
1.1 大數據的基本概念 1
1.2 大數據的價值和作用 4
1.3 大數據帶來的思維方式變革 7
1.4 大數據處理技術基礎 9
1.4.1 大數據處理的主要環節 9
1.4.2 大數據的技術支撐 11
1.4.3 流行的大數據技術 13
1.5 大數據面臨的技術挑戰 15
1.6 本章小結 16
1.7 習題 16
第2章 大數據實驗環境構建 18
2.1 在Windows中安裝Linux虛擬機 18
2.1.1 創建虛擬機 19
2.1.2 虛擬機啟動初始化 21
2.1.3 克隆虛擬機 22
2.2 Linux操作基礎 23
2.2.1 軟件包管理工具 23
2.2.2 目錄和文件操作 24
2.2.3 用戶和權限管理命令 25
2.2.4 修改文件的訪問權限 25
2.2.5 壓縮和解壓縮 27
2.2.6 網絡配置命令 27
2.2.7 系統服務命令 28
2.2.8 查找命令 29
2.3 建立Linux集群 29
2.3.1 VMware Workstation的網絡模式簡介 30
2.3.2 集群規劃和網絡設置 31
2.3.3 配置虛擬機的網絡參數 33
2.3.4 關閉防火墻和SELinux 36
2.3.5 SSH免密登錄 37
2.4 Hadoop系統簡介 41
2.4.1 Hadoop的生態系統 41
2.4.2 Hadoop集群的類型 42
2.5 構建Hadoop“偽分布式”集群 42
2.5.1 安裝JDK 42
2.5.2 安裝Hadoop軟件 44
2.5.3 配置SSH免密登錄 45
2.5.4 配置Hadoop 45
2.5.5 啟動Hadoop 48
2.6 構建“完全分布式”Hadoop集群 49
2.6.1 配置Hadoop集群的主節點 49
2.6.2 將配置文件發送到從節點 52
2.7 測試Hadoop集群 52
2.7.1 測試HDFS 52
2.7.2 測試WordCount程序 56
2.8 安裝Zookeeper 57
2.8.1 在“偽分布”模式下安裝Zookeeper 57
2.8.2 在“完全分布”模式下安裝Zookeeper 58
2.9 用Ambari構建和管理Hadoop集群 60
2.9.1 安裝Ambari 61
2.9.2 用Ambari管理和配置Hadoop集群 61
2.10 本章小結 63
2.11 習題與實驗 63
第3章 大數據采集與預處理 66
3.1 大數據采集概述 66
3.1.1 大數據的來源 66
3.1.2 數據容量的單位 67
3.1.3 大數據采集的基本方法 67
3.2 常用的大數據采集工具簡介 68
3.2.1 基于Python的網頁采集框架Scrapy 69
3.2.2 日志收集工具Flume 74
3.3 數據屬性的類型 79
3.3.1 “屬性”的類型 79
3.3.2 屬性類型的轉換 80
3.4 數據預處理 80
3.4.1 數據變換 81
3.4.2 數據清洗 84
3.4.3 使用OpenRefine清洗數據 86
3.4.4 數據集成 89
3.5 本章小結 91
3.6 習題 91
第4章 Hadoop分布式文件系統 94
4.1 Hadoop 94
4.1.1 Hadoop的發展歷史 95
4.1.2 Hadoop的優勢 96
4.1.3 Hadoop生態 96
4.1.4 Hadoop的核心組件 97
4.1.5 Hadoop集群與資源管理 99
4.1.6 Hadoop命令結構 102
4.2 HDFS體系結構 104
4.2.1 HDFS的設計目標 104
4.2.2 HDFS中的NameNode和DataNodes 105
4.2.3 文件系統命名空間(The File System Namespace) 108
4.2.4 數據容錯 108
4.2.5 副本的管理與使用 109
4.3 HDFS初探 110
4.3.1 開始HDFS旅程 110
4.3.2 添加數據文件 111
4.3.3 從HDFS中下載文件 111
4.3.4 關閉HDFS 111
4.3.5 利用Web Console訪問HDFS 111
4.4 HDFS常用CLI命令 113
4.4.1 HDFS CLI總覽 113
4.4.2 常用HDFS文件操作命令 115
4.5 利用pyhdfs實現HDFS的文件訪問 119
4.5.1 pyhdfs的安裝與應用案例 120
4.5.2 pyhdfs的HdfsClient類 120
4.6 pyhdfs應用實戰 133
4.7 本章小結 135
4.8 習題與實驗 135
第5章 HBase基礎與應用 137
5.1 HBase簡介 137
5.2 HBase安裝 138
5.3 HBase初探 139
5.4 HBase的數據模型 143
5.4.1 HBase數據模型相關術語 143
5.4.2 概念模式/視圖(Conceptual View) 145
5.4.3 物理模式/視圖(Physical View) 146
5.4.4 命名空間(Namespace) 147
5.5 HBase Shell 147
5.5.1 HBase Shell概述 147
5.5.2 創建表(create) 149
5.5.3 修改表/列族(alter table / column family) 153
5.5.4 添加數據(put) 155
5.5.5 獲取行或單元(get) 156
5.5.6 掃描并輸出數據(scan) 157
5.5.7 統計表的行數(count) 158
5.5.8 刪除指定值(delete) 159
5.5.9 其他常用shell命令 160
5.5.10 HBase Shell中的對象引用 162
5.6 利用Jython實現HBase的訪問 162
5.6.1 Jython環境設置 162
5.6.2 Jython訪問HBase 163
5.6.3 利用scan變量HBase中的數據 164
5.7 本章小結 165
5.8 習題與實驗 165
第6章 Hive基礎與應用 167
6.1 Hive簡介 167
6.1.1 數據庫與數據倉庫 168
6.1.2 Hive體系結構與接口 168
6.2 Hive的存儲模型 169
6.3 Hive初探 171
6.4 Hive的數據定義―DDL 175
6.4.1 數據庫的相關操作 175
6.4.2 數據表的創建 177
6.4.3 數據表和分區的修改 182
6.4.4 數據表的其他操作 189
6.5 Hive的數據操縱――DML 194
6.6 Hive的數據檢索――Hive-QL 201
6.7 本章小結 206
6.8 習題與實驗 207
第7章 分布式計算框架MapReduce 209
7.1 MapReduce概述 209
7.1.1 **個MapReduce的Python程序 210
7.1.2 MapReduce工作原理 212
7.1.3 MapReduce作業的工作流程 212
7.1.4 MapReduce的輸入/輸出 214
7.2 WordCount實例詳解 214
7.2.1 WordCount程序源碼 214
7.2.2 WordCount程序執行 215
7.2.3 WordCount程序原理 216
7.3 Hadoop Streaming 217
7.3.1 Hadoop Streaming的工作原理 218
7.3.2 打包提交作業 218
7.3.3 Streaming工具的用法 219
7.3.4 常見問題應用技巧 222
7.4 MapReduce作業管理 223
7.5 MapReduce Python代碼的測試 225
7.6 利用Python的迭代器和生成器優化wordCount程序 227
7.6.1 Python中的迭代器 227
7.6.2 Python中的生成器 228
7.6.3 itertools模塊 229
7.6.4 優化wordCount程序 232
7.7 MapReduce程序設計模式 233
7.7.1 數據集介紹 233
7.7.2 聚合查詢模式(Summarization Patterns) 235
7.7.3 過濾模式(Filtering Patterns) 241
7.7.4 數據連接模式(Join Patterns) 245
7.8 用MRJob庫編寫MapReduce程序 250
7.8.1 **個MRJob程序 250
7.8.2 MRJob應用詳解 253
7.8.3 MRJob的協議 256
7.8.4 MRJob的其余設置 259
7.9 本章小結 260
7.10 習題與實驗 261
第8章 大數據分析與挖掘 262
8.1 數據的描述性分析 262
8.1.1 數據的集中趨勢度量 262
8.1.2 數據的離散趨勢度量 263
8.1.3 數據的偏態特性度量 266
8.1.4 數據相關性計算 267
8.2 回歸分析 271
8.2.1 一元線性回歸(Linear Regression) 271
8.2.2 其他類型的回歸模型 274
8.3 分類算法簡介 275
8.3.1 邏輯回歸 275
8.3.2 近鄰分類算法 277
8.3.3 決策樹算法 279
8.4 聚類算法簡介 285
8.4.1 主要的聚類算法類型 285
8.4.2 聚類質量度量指標 286
8.4.3 k-Means算法 288
8.5 分布式大數據挖掘算法典型案例 290
8.6 本章小結 295
8.7 習題與實驗 296
第9章 大數據可視化 298
9.1 引言 298
9.2 大數據可視化的常用方法 300
9.2.1 趨勢型大數據可視化方法 300
9.2.2 對比型大數據可視化方法 302
9.2.3 比例型大數據可視化方法 304
9.2.4 分布型大數據可視化 305
9.2.5 文本大數據可視化 306
9.2.6 關系網絡大數據可視化 307
9.2.7 時空大數據可視化 308
9.2.8 層次結構大數據可視化 309
9.2.9 高維大數據可視化 310
9.3 大數據可視化常用工具簡介 311
9.3.1 Tableau大數據可視化工具簡介 312
9.3.2 Python的Matplotlib庫簡介 314
9.4 基于ECharts的可視化示例 318
9.4.1 ECharts使用準備 319
9.4.2 ECharts 基礎概念概覽 320
9.4.3 ECharts示例 320
9.5 本章小結 326
9.6 習題與實驗 326
附錄A HDFS交互命令 328
附錄B pyhdfs其他類說明 339
參考文獻 344
展開全部

大數據技術及應用——基于Python語言 作者簡介

嚴宣輝,男,福建師范大學數學與信息學院副教授、理學博士,碩士生導師,數字福建環境監測物聯網實驗室副主任、福建省人工智能學會理事。先后擔任過學院實驗室主任、公共計算機教研室主任和計算機科學系主任等工作。福建省精品在線開放課程"大數據導論”負責人,該課程已在中國大學MOOC、優課聯盟等慕課平臺上開課三個學期以上,吸引了大量學生參加學習,得到了學習者的廣泛好評。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 爆炸冲击传感器-无线遥测传感器-航天星百科 | 铝合金脚手架厂家-专注高空作业平台-深圳腾达安全科技 | 无机纤维喷涂棉-喷涂棉施工工程-山东华泉建筑工程有限公司▲ | 诺冠气动元件,诺冠电磁阀,海隆防爆阀,norgren气缸-山东锦隆自动化科技有限公司 | 温州中研白癜风专科_温州治疗白癜风_温州治疗白癜风医院哪家好_温州哪里治疗白癜风 | 自清洗过滤器-全自动自清洗过反冲洗过滤器 - 中乂(北京)科技有限公司 | 杭州荣奥家具有限公司-浙江办公家具,杭州办公家具厂 | 品牌策划-品牌设计-济南之式传媒广告有限公司官网-提供品牌整合丨影视创意丨公关活动丨数字营销丨自媒体运营丨数字营销 | 金属波纹补偿器厂家_不锈钢膨胀节价格_非金属伸缩节定制-庆达补偿器 | 专注提供国外机电设备及配件-工业控制领域一站式服务商-深圳市华联欧国际贸易有限公司 | 单级/双级旋片式真空泵厂家,2xz旋片真空泵-浙江台州求精真空泵有限公司 | 异噻唑啉酮-均三嗪-三丹油-1227-中北杀菌剂厂家 | 天津拓展_天津团建_天津趣味运动会_天津活动策划公司-天津华天拓展培训中心 | 工业电炉,台车式电炉_厂家-淄博申华工业电炉有限公司 | 润东方环保空调,冷风机,厂房车间降温设备-20年深圳环保空调生产厂家 | 生物颗粒燃烧机-生物质燃烧机-热风炉-生物颗粒蒸汽发生器-丽水市久凯能源设备有限公司 | 海外整合营销-独立站营销-社交媒体运营_广州甲壳虫跨境网络服务 焊管生产线_焊管机组_轧辊模具_焊管设备_焊管设备厂家_石家庄翔昱机械 | crm客户关系管理系统,销售管理系统,crm系统,在线crm,移动crm系统 - 爱客crm | 真空冷冻干燥机_国产冻干机_冷冻干燥机_北京四环冻干 | 旋振筛|圆形摇摆筛|直线振动筛|滚筒筛|压榨机|河南天众机械设备有限公司 | 非标压力容器_碳钢储罐_不锈钢_搪玻璃反应釜厂家-山东首丰智能环保装备有限公司 | 全自动不干胶贴标机_套标机-上海今昂贴标机生产厂家 | 天津暖气片厂家_钢制散热器_天津铜铝复合暖气片_维尼罗散热器 | 压砖机_电动螺旋压力机_粉末成型压力机_郑州华隆机械tel_0371-60121717 | 二手Sciex液质联用仪-岛津气质联用仪-二手安捷伦气质联用仪-上海隐智科学仪器有限公司 | 西安中国国际旅行社(西安国旅) | 螺旋叶片_螺旋叶片成型机_绞龙叶片_莱州源泽机械制造有限公司 | 萃取箱-萃取槽-PVC萃取箱厂家-混合澄清槽- 杭州南方化工设备 | 优考试_免费在线考试系统_培训考试系统_题库系统_组卷答题系统_匡优考试 | uv固化机-丝印uv机-工业烤箱-五金蚀刻机-分拣输送机 - 保定市丰辉机械设备制造有限公司 | 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 | 电子巡更系统-巡检管理系统-智能巡检【金万码】 | 厂房出租-厂房规划-食品技术-厂房设计-厂房装修-建筑施工-设备供应-设备求购-龙爪豆食品行业平台 | 周口市风机厂,周鼓风机,河南省周口市风机厂 | 复合土工膜厂家|hdpe防渗土工膜|复合防渗土工布|玻璃纤维|双向塑料土工格栅-安徽路建新材料有限公司 | 四合院设计_四合院装修_四合院会所设计-四合院古建设计与建造中心1 | 微动开关厂家-东莞市德沃电子科技有限公司 | 中医治疗皮肤病_潍坊银康医院「山东」重症皮肤病救治平台 | 掺铥光纤放大器-C/L波段光纤放大器-小信号光纤放大器-合肥脉锐光电技术有限公司 | 即用型透析袋,透析袋夹子,药敏纸片,L型涂布棒-上海桥星贸易有限公司 | Type-c防水母座|贴片母座|耳机接口|Type-c插座-深圳市步步精科技有限公司 |