中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
大數據技術概論

包郵 大數據技術概論

作者:陳明
出版社:中國鐵道出版社出版時間:2019-01-01
開本: 大16開 頁數: 276
中 圖 價:¥23.4(4.5折) 定價  ¥52.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個別圖書品相8-9成新、切口
有劃線標記、光盤等附件不全詳細品相說明>>
本類五星書更多>

大數據技術概論 版權信息

  • ISBN:9787113248185
  • 條形碼:9787113248185 ; 978-7-113-24818-5
  • 裝幀:平裝-膠訂
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

大數據技術概論 本書特色

大數據技術是一個面向實際應用的技術。從大數據中獲取有價值信息是大數據技術的精髓。本書概括性介紹了數據科學與大數據技術的主要內容。全書分為 9 章,主要包括概述、大數據處理平臺、大數據獲取與存儲管理技術、大數據抽取技術、大數據清洗技術、大數據去噪與標準化、大數據約簡與集成技術、大數據分析與挖掘技術、大數據分析結果解釋與展現。
本書在內容上,注重基本概念、基本方法介紹,實例豐富、語言精練、邏輯層次清晰,適合作為大學“數據科學與大數據技術”專業和相近專業的教材,也可以作為科技人員的參考書。

大數據技術概論 內容簡介

全面:對大數據涉及的各項技術如Hadoop、MapReduce、Storm、Spark等做了深入簡出的介紹。
實用:配有多個實際操作案例供讀者參考,輕松學習。

大數據技術概論 目錄

第 1 章 概述 ............................................ 1
1.1 數據科學 ................................................2
1.1.1 數據科學的產生與發展 ................2
1.1.2 數據科學的相關術語 ....................2
1.1.3 數據科學的主要內容 ....................3
1.1.4 數據科學的研究過程與體系框架.................................................4
1.1.5 數據科學、數據技術與數據工程.................................................6
1.1.6 大數據問題 ....................................6
1.2 大數據的生態環境 ................................7
1.2.1 互聯網世界 ....................................7
1.2.2 物理世界 ........................................9
1.3 大數據的概念 ........................................9
1.3.1 數據容量 ......................................10
1.3.2 數據類型 ...................................... 11
1.3.3 價值密度 ...................................... 11
1.3.4 速度 .............................................. 11
1.3.5 真實性 .......................................... 11
1.4 大數據的性質 ...................................... 11
1.4.1 非結構性 ......................................12
1.4.2 不完備性 ......................................13
1.4.3 時效性 ..........................................13
1.4.4 安全性 ..........................................13
1.4.5 可靠性 ..........................................13
1.5 大數據處理周期 ..................................13
1.5.1 大數據處理全過程 ......................14
1.5.2 大數據技術的特征 ......................15
1.5.3 大數據的一些熱點技術 ..............17
1.6 科學研究范式 ......................................18
1.6.1 科學研究范式的產生與發展 ......18
1.6.2 數據密集型科學研究第四范式....19
小結 ...............................................................23
第 2 章 大數據處理平臺 ........................ 24
2.1 Hadoop 大數據處理平臺 ....................24
2.1.1 離線計算概述 ..............................25
2.1.2 MapReduce 分布編程模型 ..........26
2.1.3 基于 Hadoop 的分布計算 ............27
2.1.4 MapReduce 程序設計分析 ..........31
2.1.5 Hadoop 環境部署與程序運行 .....36
2.2 Storm 大數據處理平臺 .......................42
2.2.1 流式數據的概念與特征 ..............43
2.2.2 大數據的計算模式 ......................45
2.2.3 流式數據處理技術的應用 ..........46
2.2.4 流式計算的系統架構 ..................50
2.2.5 Storm 流處理過程 ........................52
2.2.6 單詞計數 topology .......................56
2.3 Spark 大數據處理平臺 ........................58
2.3.1 交互式處理系統的問題 ..............58
2.3.2 Scala 編程語言簡介 .....................58
2.3.3 Spark 的主要特點 ........................59
2.3.4 軟件棧 ..........................................60
2.3.5 核心概念 ......................................61
2.3.6 彈性分布式數據集 RDD .............62
2.3.7 單詞計數實例分析 ......................66
小結 ...............................................................67
第 3 章 大數據獲取與存儲管理技術 ...... 68
3.1 大數據獲取 ..........................................69
3.1.1 大數據獲取的挑戰 ......................69
3.1.2 傳統的數據獲取與大數據獲取的區別...............................................69
3.2 領域數據 ..............................................70
3.2.1 文本數據 ......................................70
3.2.2 語音數據 ......................................71
3.2.3 圖片數據 ......................................71
3.2.4 攝像頭視頻數據 ..........................71
3.2.5 圖像數字化數據 ..........................71
3.2.6 圖形數字化數據 ..........................71
3.2.7 空間數據 ......................................72
3.3 網站數據 ..............................................72
3.3.1 網站內部數據 ..............................73
3.3.2 網站外部數據 ...........................73
3.3.3 移動網站數據 ..............................73
3.4 網絡爬蟲 ..............................................73
3.4.1 網絡爬蟲的工作過程 ..................74
3.4.2 通用網絡爬蟲 ..............................74
3.4.3 聚焦網絡爬蟲 ..............................77
3.4.4 數據抓取目標的定義 ..................79
3.4.5 網頁分析算法 ..............................80
3.4.6 更新策略 ......................................81
3.4.7 分布式爬蟲的系統結構 ..............82
3.5 大數據存儲 ..........................................84
3.5.1 大數據存儲模型 ..........................84
3.5.2 大數據存儲問題 ..........................84
3.5.3 大數據存儲方式 ..........................85
3.6 大數據存儲管理技術 ..........................86
3.6.1 數據容量問題 ..............................86
3.6.2 大圖數據 ......................................87
3.6.3 數據存儲管理 ..............................88
3.7 NoSQL 和 NewSQL .............................89
3.7.1 NoSQL ..........................................90
3.7.2 NewSQL 數據庫 ..........................93
3.7.3 不同數據庫架構混合應用模式....93
3.8 分布式文件系統 ..................................94
3.8.1 評價指標 ......................................94
3.8.2 HDFS 文件系統 ...........................95
3.8.3 NFS 文件系統 ..............................96
3.9 虛擬存儲技術 ......................................97
3.9.1 虛擬存儲的特點 ..........................98
3.9.2 虛擬存儲的應用 ..........................98
3.10 云存儲技術 ........................................99
3.10.1 云存儲原理 ................................99
3.10.2 網絡結構 ....................................99
3.10.3 云的分類 ....................................99
小結 .............................................................100
第 4 章 大數據抽取技術 ...................... 101
4.1 大數據抽取技術概述 .......................101
4.1.1 數據抽取的定義 ........................102
4.1.2 數據映射與數據遷移 ................102
4.1.3 數據抽取程序 ............................103
4.1.4 抽取、轉換和加載 ....................103
4.1.5 數據抽取方式 ............................104
4.2 增量數據抽取技術 ............................104
4.2.1 增量抽取的特點與策略 ............105
4.2.2 基于觸發器的增量抽取方式.............................................105
4.2.3 基于時間戳的增量抽取方式.............................................105
4.2.4 全表刪除插入方式 ..................106
4.2.5 全表比對抽取方式 ....................106
4.2.6 日志表方式 ................................107
4.2.7 系統日志分析方式 ....................107
4.2.8 各種數據抽取機制的比較與分析.........................................107
4.3 非結構化數據抽取 ............................109
4.3.1 非結構化數據類型 ....................109
4.3.2 非結構化數據模型 ....................109
4.3.3 非結構化數據組織 .................... 111
4.3.4 純文本抽取通用程序庫 ............ 112
4.4 基于 Hadoop 平臺的數據抽取 ......... 113
小結 ............................................................. 114
第 5 章 大數據清洗技術 .......................115
5.1 數據質量與數據清洗 ........................ 115
5.1.1 數據質量 .................................... 116
5.1.2 數據質量提高技術 .................... 118
5.1.3 數據清洗算法的標準 ................120
5.1.4 數據清洗的過程與模型 ............120
5.2 不完整數據清洗 ................................121
5.2.1 基本方法 ....................................121
5.2.2 基于 k-NN 近鄰缺失數據的填充算法.....................................123
5.3 異常數據清洗 ....................................124
5.3.1 異常值產生的原因 ....................125
5.3.2 統計方法 ....................................125
5.3.3 基于鄰近度的離群點檢測 ........126
5.4 重復數據清洗 ....................................127
5.4.1 使用字段相似度識別重復值算法.............................................127
5.4.2 搜索引擎快速去重算法 ............128
5.5 文本清洗 ............................................128
5.5.1 字符串匹配算法 ........................129
5.5.2 文本相似度度量 ........................131
5.5.3 文檔去重算法 ............................135
5.6 數據清洗的實現 ................................135
5.6.1 數據清洗的步驟 ........................135
5.6.2 基于 MapReduce 的大數據去重.............................................136
小結 .............................................................138
第 6 章 大數據去噪與標準化 ............... 139
6.1 基本的數據轉換方法 ........................139
6.1.1 對數轉換 ....................................139
6.1.2 平方根轉換 ................................140
6.1.3 平方轉換 ....................................140
6.1.4 倒數變換 ....................................140
6.2 數據平滑技術 ....................................140
6.2.1 移動平均法 ................................141
6.2.2 指數平滑法 ................................142
6.2.3 分箱平滑法 ................................146
6.3 數據規范化 ........................................148
6.3.1 zui小 - zui大規范化方法 ............148
6.3.2 z 分數規范化方法 ......................149
6.3.3 小數定標規范化方法 ................149
6.4 數據泛化處理 ....................................150
6.4.1 空間數據支配泛化算法 ............150
6.4.2 非空間數據支配泛化方法 ........151
6.4.3 統計信息網格方法 ....................151
小結 .............................................................151
第 7 章 大數據約簡與集成技術 ........... 152
7.1 數據約簡概述 ....................................153
7.1.1 數據約簡定義 ............................153
7.1.2 數據約簡方式 ............................153
7.2 特征約簡 ............................................153
7.2.1 特征提取 ....................................154
7.2.2 特征選擇 ....................................154
7.3 樣本約簡 ............................................155
7.3.1 簡單隨機抽樣 ............................155
7.3.2 系統抽樣 ....................................155
7.3.3 分層抽樣 ....................................155
7.4 數據立方體聚集 ................................155
7.4.1 多維性 ........................................156
7.4.2 數據聚集 ....................................156
7.5 維約簡 ................................................157
7.5.1 維約簡的目的 ............................157
7.5.2 維約簡的基本策略 ....................158
7.5.3 維約簡的分類 ............................158
7.6 屬性子集選擇算法 ............................159
7.6.1 逐步向前選擇屬性 ....................159
7.6.2 逐步向后刪除屬性 ....................159
7.6.3 混合式選擇 ...............................159
7.6.4 判定樹歸納 ................................159
7.7 數據壓縮 ............................................160
7.7.1 離散小波變換方法 ....................160
7.7.2 主成分分析壓縮方法 ................161
7.8 數值約簡 ............................................162
7.8.1 有參數值約簡 ............................162
7.8.2 無參數值約簡 ............................162
7.9 數據集成的概念與相關問題 ............163
7.9.1 數據集成的核心問題 ................165
7.9.2 數據集成的分類 ........................166
7.10 數據遷移 ..........................................168
7.10.1 在組織內部移動數據 ..............169
7.10.2 非結構化數據集成 ..................169
7.10.3 將處理移動到數據端 ..............170
7.11 數據集成模式 ..................................171
7.11.1 聯邦數據庫集成模式 ...............171
7.11.2 中間件集成模式 ......................172
7.11.3 數據倉庫集成模式 ..................173
7.12 數據集成系統 ..................................173
7.12.1 全局模式 ..................................174
7.12.2 語義映射 ..................................175
7.12.3 查詢重寫 ..................................175
7.13 數據聚類集成 ..................................175
7.13.1 數據聚類集成概述 ..................175
7.13.2 高維數據聚類集成 ..................176
小結 .............................................................178
第 8 章 大數據分析與挖掘技術 ........... 179
8.1 大數據分析概述 ................................180
8.1.1 大數據分析的類型 ...................180
8.1.2 數字特征 ....................................182
8.1.3 統計方法論 ...............................184
8.1.4 模型與構建 ................................186
8.1.5 R 語言 .........................................186
8.2 統計分析方法 ....................................188
8.2.1 基本方法 ...................................188
8.2.2 常用分析方法 ............................194
8.3 數據挖掘理論基礎 ............................ 211
8.3.1 數據挖掘是面向應用的技術 .... 211
8.3.2 數據挖掘的理論基礎 ................212
8.3.3 基于數據存儲方式的數據挖掘.............................................212
8.4 關聯規則挖掘 ....................................214
8.4.1 頻繁項目集生成算法 ................215
8.4.2 關聯規則挖掘質量 ....................217
8.5 分類方法 ............................................218
8.5.1 基于距離的分類算法 ................219
8.5.2 KNN 算法的 MapReduce實現 ............................................220
8.5.3 決策樹分類方法 ........................220
8.6 聚類方法 ............................................223
8.6.1 聚類定義與分類 ........................223
8.6.2 距離與相似性的度量 ................225
8.6.3 劃分聚類方法 ............................226
8.6.4 層次聚類方法 ............................228
8.7 序列模式挖掘與文本數據挖掘 ........229
8.7.1 時間序列預測的常用方法 ........229
8.7.2 序列模式挖掘 ............................230
8.8 非結構化文本數據挖掘 ....................231
8.8.1 用戶反饋文本 ............................232
8.8.2 用戶反饋文本挖掘的一般過程 ............................................232
8.8.3 文本的自然語言處理 ...............234
8.9 基于 MapReduce 的分析與挖掘實例 ....................................................235
8.9.1 大數據平均值計算 ....................235
8.9.2 大數據排序 ................................236
8.9.3 倒排索引 ....................................237
小結 .............................................................241
第 9 章 大數據分析結果解釋與展現 .... 242
9.1 數據分析結果解釋的目的與內容 ....243
9.1.1 解釋的目的 ................................243
9.1.2 檢查和驗證假設 ........................243
9.1.3 追蹤分析過程 ............................244
9.2 數據的基本展現方式 ........................245
9.2.1 基于時間變化的可視化展現 ....245
9.2.2 由大及小的可視化展現 ............245
9.2.3 由小及大的可視化展現 ............246
9.2.4 突出對比的可視化展現 ............246
9.2.5 地域空間可視化展現 ................246
9.2.6 概念可視化展現 ........................248
9.2.7 氣泡圖可視化展現 ....................248
9.2.8 注重交叉點的數據可視化展現 ............................................248
9.2.9 剖析原因的數據可視化展現 ....248
9.2.10 描繪出異常值的可視化展現 ..........................................249
9.3 大數據可視化 ....................................249
9.3.1 文本可視化 ................................249
9.3.2 網絡(圖)可視化 ....................250
9.3.3 時空數據可視化 ........................252
9.3.4 多維數據可視化 ........................252
9.4 大數據可視分析 ................................253
9.4.1 可視分析的理論基礎 ................254
9.4.2 大數據可視分析技術 ................257
9.5 數據可視化實現 ................................260
小結 .............................................................262
參考文獻 ............................................... 263
?
展開全部

大數據技術概論 作者簡介

陳明,國內計算機科學領域資深專家,曾任大連理工大學計算機科學與工程系教授、系主任,中國石油大學(北京)計算機科學與技術系教授、系主任。中國計算機學會理事、中國人工智能學會理事、中國人工智能學會智能信息網專委會副主任。全國高校計算機基礎教育研究會常務理事、教育部IT&AT 教育工程專家組成員。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 罗茨真空机组,立式无油往复真空泵,2BV水环真空泵-力侨真空科技 | 铁盒_铁罐_马口铁盒_马口铁罐_铁盒生产厂家-广州博新制罐 | 厦门ISO认证|厦门ISO9001认证|厦门ISO14001认证|厦门ISO45001认证-艾索咨询专注ISO认证行业 | 计算机毕业设计源码网| 乐考网-银行从业_基金从业资格考试_初级/中级会计报名时间_中级经济师 | 环球电气之家-中国专业电气电子产品行业服务网站! | 土壤养分检测仪|土壤水分|土壤紧实度测定仪|土壤墒情监测系统-土壤仪器网 | 铝箔袋,铝箔袋厂家,东莞铝箔袋,防静电铝箔袋,防静电屏蔽袋,防静电真空袋,真空袋-东莞铭晋让您的产品与众不同 | 塑料瓶罐_食品塑料瓶_保健品塑料瓶_调味品塑料瓶–东莞市富慷塑料制品有限公司 | 湖南成人高考报名-湖南成考网| 特种阀门-调节阀门-高温熔盐阀-镍合金截止阀-钛阀门-高温阀门-高性能蝶阀-蒙乃尔合金阀门-福建捷斯特阀门制造有限公司 | ph计,实验室ph计,台式ph计,实验室酸度计,台式酸度计 | 浩方智通 - 防关联浏览器 - 跨境电商浏览器 - 云雀浏览器 | 江苏全风,高压风机,全风环保风机,全风环形高压风机,防爆高压风机厂家-江苏全风环保科技有限公司(官网) | 热熔胶网膜|pes热熔网膜价格|eva热熔胶膜|热熔胶膜|tpu热熔胶膜厂家-苏州惠洋胶粘制品有限公司 | 柴油发电机组_柴油发电机_发电机组价格-江苏凯晨电力设备有限公司 | 一体化净水器_一体化净水设备_一体化水处理设备-江苏旭浩鑫环保科技有限公司 | 拉力测试机|材料拉伸试验机|电子拉力机价格|万能试验机厂家|苏州皖仪实验仪器有限公司 | 隐形纱窗|防护纱窗|金刚网防盗纱窗|韦柏纱窗|上海青木装潢制品有限公司|纱窗国标起草单位 | 碳刷_刷握_集电环_恒压簧_电刷厂家-上海丹臻机电科技有限公司 | 扬子叉车厂家_升降平台_电动搬运车|堆高车-扬子仓储叉车官网 | 懂研帝_专业SCI论文润色机构_SCI投稿发表服务公司 | 有机肥设备生产制造厂家,BB掺混肥搅拌机、复合肥设备生产线,有机肥料全部加工设备多少钱,对辊挤压造粒机,有机肥造粒设备 -- 郑州程翔重工机械有限公司 | 螺杆真空泵_耐腐蚀螺杆真空泵_水环真空泵_真空机组_烟台真空泵-烟台斯凯威真空 | 雪花制冰机(实验室雪花制冰机)百科 | 深圳快餐店设计-餐饮设计公司-餐饮空间品牌全案设计-深圳市勤蜂装饰工程 | 杭州代理记账费用-公司注销需要多久-公司变更监事_杭州福道财务管理咨询有限公司 | 网站优化公司_北京网站优化_抖音短视频代运营_抖音关键词seo优化排名-通则达网络 | 探伤仪,漆膜厚度测试仪,轮胎花纹深度尺厂家-淄博创宇电子 | 塑料异型材_PVC异型材_封边条生产厂家_PC灯罩_防撞扶手_医院扶手价格_东莞市怡美塑胶制品有限公司 | 周口市风机厂,周鼓风机,河南省周口市风机厂 | 上海办公室装修_上海店铺装修公司_厂房装潢设计_办公室装修 | 办公室家具_板式办公家具定制厂家-FMARTS福玛仕办公家具 | 无锡网站建设_小程序制作_网站设计公司_无锡网络公司_网站制作 | 口信网(kousing.com) - 行业资讯_行业展会_行业培训_行业资料 | 新能源汽车教学设备厂家报价[汽车教学设备运营18年]-恒信教具 | 广西正涛环保工程有限公司【官网】| led太阳能路灯厂家价格_风光互补庭院灯_农村市政工程路灯-中山华可路灯品牌 | 泰国试管婴儿_泰国第三代试管婴儿_泰国试管婴儿费用/多少钱_孕泰来 | 开平机_纵剪机厂家_开平机生产厂家|诚信互赢-泰安瑞烨精工机械制造有限公司 | 通信天线厂家_室分八木天线_对数周期天线_天线加工厂_林创天线源头厂家 |