有劃線標(biāo)記、光盤(pán)等附件不全詳細(xì)品相說(shuō)明>>
-
>
闖進(jìn)數(shù)學(xué)世界――探秘歷史名題
-
>
中醫(yī)基礎(chǔ)理論
-
>
當(dāng)代中國(guó)政府與政治(新編21世紀(jì)公共管理系列教材)
-
>
高校軍事課教程
-
>
思想道德與法治(2021年版)
-
>
毛澤東思想和中國(guó)特色社會(huì)主義理論體系概論(2021年版)
-
>
中醫(yī)內(nèi)科學(xué)·全國(guó)中醫(yī)藥行業(yè)高等教育“十四五”規(guī)劃教材
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論 版權(quán)信息
- ISBN:9787302566762
- 條形碼:9787302566762 ; 978-7-302-56676-2
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無(wú)
- 重量:暫無(wú)
- 所屬分類:>>
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論 本書(shū)特色
本書(shū)主要介紹大數(shù)據(jù)的基本概念和技術(shù),是數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的**門專業(yè)基礎(chǔ)教材。 數(shù)據(jù)科學(xué)與大數(shù)據(jù)專業(yè)的導(dǎo)論性專業(yè)基礎(chǔ)教材。
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論 內(nèi)容簡(jiǎn)介
大數(shù)據(jù)技術(shù)凝集了多學(xué)科的研究成果,是一門多學(xué)科的交叉融合技術(shù)。隨著科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)發(fā)展更為迅速,應(yīng)用更為深入與廣泛,并凸顯其巨大潛力和應(yīng)用價(jià)值。 “數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論”是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的門專業(yè)基礎(chǔ)課程。這門課程可以引導(dǎo)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的學(xué)生走進(jìn)大數(shù)據(jù)技術(shù)的大門。 本書(shū)主要介紹數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)的基本知識(shí)。全書(shū)共分11章,包括數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)概述、Hadoop大數(shù)據(jù)處理平臺(tái)、大數(shù)據(jù)采集與存儲(chǔ)管理、大數(shù)據(jù)抽取、大數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、大數(shù)據(jù)約簡(jiǎn)、大數(shù)據(jù)集成、大數(shù)據(jù)分析、大數(shù)據(jù)挖掘、數(shù)據(jù)可視化與可視分析等內(nèi)容。 本書(shū)語(yǔ)言精練,內(nèi)容完整,案例豐富,可作為高等院校“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論”課程的教材,也可作為學(xué)習(xí)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)人員的參考書(shū)。
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論 目錄
目錄
第1章數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)概述/1
知識(shí)結(jié)構(gòu)1
1.1數(shù)據(jù)科學(xué)簡(jiǎn)介1
1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展1
1.1.2數(shù)據(jù)科學(xué)的定義與方法2
1.1.3數(shù)據(jù)科學(xué)的知識(shí)體系6
1.1.4數(shù)據(jù)科學(xué)、數(shù)據(jù)技術(shù)與數(shù)據(jù)工程7
1.2大數(shù)據(jù)的生態(tài)環(huán)境與概念8
1.2.1大數(shù)據(jù)的生態(tài)環(huán)境8
1.2.2大數(shù)據(jù)的概念9
1.3大數(shù)據(jù)處理周期12
1.3.1大數(shù)據(jù)處理的全過(guò)程12
1.3.2大數(shù)據(jù)技術(shù)的特征13
1.4大數(shù)據(jù)處理模式13
1.4.1離線處理模式14
1.4.2在線處理模式14
1.4.3交互處理模式19
1.5科學(xué)研究第四范式19
1.5.1科學(xué)研究范式產(chǎn)生與發(fā)展19
1.5.2數(shù)據(jù)密集型科學(xué)研究第四范式20
1.6大數(shù)據(jù)應(yīng)用25
1.6.1大數(shù)據(jù)應(yīng)用趨勢(shì)25
1.6.2大數(shù)據(jù)應(yīng)用評(píng)價(jià)與應(yīng)用實(shí)例26
本章小結(jié)28
第2章Hadoop大數(shù)據(jù)處理平臺(tái)/29
知識(shí)結(jié)構(gòu)29
2.1MapReduce分布編程模型29
2.1.1MapReduce計(jì)算過(guò)程30
2.1.2基于MapReduce的計(jì)算舉例30數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論目錄2.2基于Hadoop的分布計(jì)算30
2.2.1作業(yè)服務(wù)器31
2.2.2計(jì)算流程31
2.2.3MapReduce程序的執(zhí)行過(guò)程33
2.3MapReduce程序設(shè)計(jì)分析35
2.3.1MapReduce模型編程方法35
2.3.2單詞計(jì)數(shù)程序設(shè)計(jì)36
2.4YARN大數(shù)據(jù)處理平臺(tái)40
2.4.1Hadoop 1.0版本的缺點(diǎn)40
2.4.2輕量級(jí)彈性計(jì)算平臺(tái)41
2.4.3基本概念與術(shù)語(yǔ)42
2.4.4MapReduce框架43
2.4.5編程模型44
2.4.6YARN基本架構(gòu)與工作流程45
2.5Spark大數(shù)據(jù)處理框架48
2.5.1Spark的主要特點(diǎn)48
2.5.2軟件棧48
2.5.3核心概念50
2.5.4RDD51
本章小結(jié)58
第3章大數(shù)據(jù)采集與存儲(chǔ)管理/59
知識(shí)結(jié)構(gòu)59
3.1大數(shù)據(jù)采集概述59
3.1.1大數(shù)據(jù)采集的定義與特點(diǎn)60
3.1.2大數(shù)據(jù)采集的挑戰(zhàn)60
3.1.3傳統(tǒng)數(shù)據(jù)采集與大數(shù)據(jù)采集的比較61
3.2大數(shù)據(jù)采集的方法61
3.2.1傳感器采集數(shù)據(jù)61
3.2.2系統(tǒng)日志采集62
3.2.3數(shù)據(jù)庫(kù)采集系統(tǒng)62
3.2.4網(wǎng)頁(yè)數(shù)據(jù)采集62
3.3大數(shù)據(jù)存儲(chǔ)架構(gòu)與系統(tǒng)79
3.3.1數(shù)據(jù)層79
3.3.2分布式文件系統(tǒng)80
3.4基于大數(shù)據(jù)的數(shù)據(jù)庫(kù)系統(tǒng)82
3.4.1大數(shù)據(jù)存儲(chǔ)管理技術(shù)82
3.4.2大數(shù)據(jù)庫(kù)83
3.4.3大數(shù)據(jù)存儲(chǔ)管理的核心算法88
3.5HBase數(shù)據(jù)庫(kù)94
3.5.1HBase概述94
3.5.2HBase的數(shù)據(jù)模型97
3.5.3HBase的邏輯實(shí)體98
3.5.4HBase的工作原理100
3.6Hive數(shù)據(jù)倉(cāng)庫(kù)100
3.6.1Hive主要功能101
3.6.2Hive的數(shù)據(jù)單元與數(shù)據(jù)類型101
3.6.3Hive的特性102
3.6.4Hive應(yīng)用舉例102
3.6.5HBase與Hive的比較102
本章小結(jié)103
第4章大數(shù)據(jù)抽取/104
知識(shí)結(jié)構(gòu)104
4.1大數(shù)據(jù)抽取概述105
4.1.1數(shù)據(jù)抽取的定義105
4.1.2數(shù)據(jù)抽取程序105
4.1.3數(shù)據(jù)抽取方式106
4.2增量數(shù)據(jù)抽取技術(shù)106
4.2.1增量數(shù)據(jù)抽取的特點(diǎn)與策略106
4.2.2基于時(shí)間戳的增量數(shù)據(jù)抽取方式107
4.2.3全表比對(duì)抽取方法107
4.3數(shù)據(jù)源109
4.3.1公開(kāi)數(shù)據(jù)庫(kù)109
4.3.2利用網(wǎng)絡(luò)爬蟲(chóng)獲得數(shù)據(jù)110
4.3.3數(shù)據(jù)交易平臺(tái)110
4.3.4網(wǎng)絡(luò)指數(shù)110
4.4基于Hadoop平臺(tái)的大數(shù)據(jù)抽取110
4.4.1將數(shù)據(jù)導(dǎo)入Hadoop平臺(tái)110
4.4.2將數(shù)據(jù)從CSV文件導(dǎo)入Hive表111
4.4.3將關(guān)系數(shù)據(jù)導(dǎo)入HDFS的方法114
4.4.4CSV文件的讀取和寫(xiě)入119
4.4.5Flume獲取日志文件123
4.5大數(shù)據(jù)抽取的應(yīng)用126
4.5.1應(yīng)用實(shí)例126
4.5.2非關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)抽取軟件簡(jiǎn)介126
本章小結(jié)128
第5章大數(shù)據(jù)清洗/129
知識(shí)結(jié)構(gòu)129
5.1數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗129
5.1.1數(shù)據(jù)質(zhì)量129
5.1.2數(shù)據(jù)質(zhì)量提高技術(shù)132
5.1.3數(shù)據(jù)清洗算法的標(biāo)準(zhǔn)135
5.1.4數(shù)據(jù)清洗的過(guò)程與模型136
5.2不完整數(shù)據(jù)清洗136
5.2.1基本方法136
5.2.2基于kNN近鄰缺失數(shù)據(jù)的填充算法138
5.3異常數(shù)據(jù)清洗140
5.3.1異常值的檢測(cè)141
5.3.2統(tǒng)計(jì)學(xué)方法141
5.3.3基于鄰近度的離群點(diǎn)檢測(cè)145
5.4重復(fù)數(shù)據(jù)清洗146
5.4.1使用字段相似度識(shí)別重復(fù)值算法146
5.4.2快速去重算法147
5.5文本清洗149
5.5.1字符串匹配算法149
5.5.2文本相似度度量方法153
5.6數(shù)據(jù)清洗的實(shí)現(xiàn)157
5.6.1數(shù)據(jù)清洗的步驟157
5.6.2數(shù)據(jù)清洗程序158
本章小結(jié)160
第6章數(shù)據(jù)轉(zhuǎn)換/161
知識(shí)結(jié)構(gòu)161
6.1基本的數(shù)據(jù)轉(zhuǎn)換161
6.1.1對(duì)數(shù)轉(zhuǎn)換161
6.1.2平方根轉(zhuǎn)換163
6.1.3平方轉(zhuǎn)換163
6.1.4倒數(shù)變換163
6.2數(shù)據(jù)平滑163
6.2.1移動(dòng)平均法164
6.2.2指數(shù)平滑法166
6.2.3分箱平滑法171
6.3數(shù)據(jù)規(guī)范化172
6.3.1*小*大規(guī)范化方法173
6.3.2z分?jǐn)?shù)規(guī)范化方法173
6.3.3小數(shù)定標(biāo)規(guī)范化方法174
6.3.4數(shù)據(jù)規(guī)范化程序174
本章小結(jié)176
第7章大數(shù)據(jù)約簡(jiǎn)/177
知識(shí)結(jié)構(gòu)177
7.1特征約簡(jiǎn)178
7.1.1特征構(gòu)造178
7.1.2特征提取179
7.1.3特征選擇180
7.2樣本約簡(jiǎn)187
7.2.1隨機(jī)抽樣187
7.2.2系統(tǒng)抽樣187
7.2.3分層抽樣187
7.3數(shù)據(jù)立方體188
7.3.1多維數(shù)據(jù)模型188
7.3.2多維數(shù)據(jù)模型的模式190
7.3.3數(shù)據(jù)立方體聚集191
7.4屬性子集選擇算法192
7.4.1逐步向前選擇屬性193
7.4.2逐步向后刪除屬性193
7.4.3混合式選擇193
7.4.4判定樹(shù)歸納193
7.5數(shù)值約簡(jiǎn)194
7.5.1有參數(shù)值約簡(jiǎn)194
7.5.2無(wú)參數(shù)值約簡(jiǎn)195
7.6概念分層與數(shù)值離散化196
7.6.1概念分層196
7.6.2數(shù)值離散化方法198
本章小結(jié)202
第8章大數(shù)據(jù)集成/203
知識(shí)結(jié)構(gòu)203
8.1數(shù)據(jù)集成技術(shù)概述203
8.1.1數(shù)據(jù)集成的概念與相關(guān)問(wèn)題204
8.1.2數(shù)據(jù)集成的核心問(wèn)題206
8.1.3數(shù)據(jù)集成的分類207
8.2數(shù)據(jù)遷移209
8.2.1在組織內(nèi)部移動(dòng)數(shù)據(jù)210
8.2.2非結(jié)構(gòu)化數(shù)據(jù)集成211
8.2.3將處理移動(dòng)到數(shù)據(jù)端212
8.3數(shù)據(jù)集成模式213
8.3.1聯(lián)邦數(shù)據(jù)庫(kù)集成模式213
8.3.2中間件集成模式214
8.3.3數(shù)據(jù)倉(cāng)庫(kù)集成模式215
8.4數(shù)據(jù)集成系統(tǒng)216
8.4.1全局模式217
8.4.2語(yǔ)義映射217
8.4.3查詢重寫(xiě)218
8.5數(shù)據(jù)集成系統(tǒng)的構(gòu)建218
8.5.1模式之間映射關(guān)系的生成218
8.5.2適應(yīng)性查詢219
8.5.3XML219
8.5.4P2P數(shù)據(jù)管理219
本章小結(jié)220
第9章大數(shù)據(jù)分析/221
知識(shí)結(jié)構(gòu)221
9.1大數(shù)據(jù)分析概述221
9.1.1幾種常用的大數(shù)據(jù)分析方法222
9.1.2數(shù)字特征223
9.1.3統(tǒng)計(jì)方法229
9.1.4常用的抽樣組織形式230
9.2相關(guān)分析230
9.2.1相關(guān)系數(shù)231
9.2.2相關(guān)分析的任務(wù)231
9.2.3相關(guān)分析的過(guò)程232
9.3回歸分析233
9.3.1回歸分析過(guò)程233
9.3.2回歸分析類型233
9.3.3回歸模型與應(yīng)用中的問(wèn)題233
9.4判別分析234
9.4.1判別函數(shù)234
9.4.2判別分析方法235
9.5顯著性檢驗(yàn)238
9.5.1顯著性檢驗(yàn)的基本思想238
9.5.2檢驗(yàn)步驟與檢驗(yàn)方法239
9.6主成分分析240
9.6.1主成分分析原理240
9.6.2主成分分析方法舉例240
9.6.3主成分分析Python程序243
本章小結(jié)246
第10章大數(shù)據(jù)挖掘/247
知識(shí)結(jié)構(gòu)247
10.1大數(shù)據(jù)挖掘概述247
10.1.1數(shù)據(jù)統(tǒng)計(jì)分析與數(shù)據(jù)挖掘的主要區(qū)別248
10.1.2數(shù)據(jù)挖掘的定義與相關(guān)概念248
10.1.3數(shù)據(jù)挖掘的理論基礎(chǔ)248
10.1.4基于數(shù)據(jù)存儲(chǔ)方式的數(shù)據(jù)挖掘249
10.2關(guān)聯(lián)規(guī)則251
10.2.1關(guān)聯(lián)規(guī)則生成描述251
10.2.2頻繁項(xiàng)目集生成算法252
10.3分類256
10.3.1分類的定義與典型的分類算法256
10.3.2分類的基本步驟258
10.3.3k近鄰分類算法258
10.4聚類方法260
10.4.1聚類的概念260
10.4.2聚類算法的特點(diǎn)261
10.4.3聚類算法分類262
10.4.4距離與相似性的度量263
10.4.5劃分聚類方法264
10.4.6層次聚類方法267
10.5序列模式268
10.5.1時(shí)間序列268
10.5.2時(shí)間序列挖掘的常用方法268
10.5.3序列模式挖掘269
10.6非結(jié)構(gòu)化文本數(shù)據(jù)挖掘271
10.6.1用戶反饋文本271
10.6.2用戶反饋文本挖掘過(guò)程272
10.6.3文本的自然語(yǔ)言處理274
本章小結(jié)275
第11章數(shù)據(jù)可視化與可視分析/276
知識(shí)結(jié)構(gòu)276
11.1數(shù)據(jù)可視化概述276
11.1.1數(shù)據(jù)可視化概念277
11.1.2感知與認(rèn)知277
11.1.3可視化突出點(diǎn)與設(shè)計(jì)原則279
11.2大數(shù)據(jù)可視化工具與軟件280
11.2.1Matplotlib簡(jiǎn)介281
11.2.2多圖形和多坐標(biāo)系284
11.2.3創(chuàng)建子圖285
11.3繪制圖形286
11.3.1折線繪制286
11.3.2散點(diǎn)圖289
11.3.3泡泡圖繪制290
11.3.4條形圖繪制293
11.3.5直方圖繪制295
11.3.6餅圖繪制297
11.3.7輪廓圖繪制300
11.3.8雷達(dá)圖300
11.4大數(shù)據(jù)可視化302
11.4.1文本可視化302
11.4.2網(wǎng)絡(luò)(圖)可視化303
11.4.3時(shí)空數(shù)據(jù)可視化305
11.4.4多維數(shù)據(jù)可視化306
11.5大數(shù)據(jù)可視分析307
11.5.1可視分析的理論基礎(chǔ)308
11.5.2大數(shù)據(jù)可視分析技術(shù)312
本章小結(jié)315
參考文獻(xiàn)/316
數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)導(dǎo)論 作者簡(jiǎn)介
教授,博士生導(dǎo)師 。研究領(lǐng)域?yàn)榉植加?jì)算、計(jì)算智能、大數(shù)據(jù)技術(shù)等。中國(guó)石油大學(xué)(北京)計(jì)算機(jī)科學(xué)與技術(shù)系創(chuàng)始系主任。獲北京市教學(xué)名師獎(jiǎng)。中國(guó)工程教育認(rèn)證專家。
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(shū)(紅燭學(xué)術(shù)叢書(shū))
- >
朝聞道
- >
山海經(jīng)
- >
羅曼·羅蘭讀書(shū)隨筆-精裝
- >
隨園食單
- >
史學(xué)評(píng)論
- >
名家?guī)阕x魯迅:朝花夕拾
- >
巴金-再思錄