包郵 大數(shù)據(jù):基礎(chǔ)、技術(shù)與應(yīng)用
-
>
全國計算機(jī)等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應(yīng)用
-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
大數(shù)據(jù):基礎(chǔ)、技術(shù)與應(yīng)用 版權(quán)信息
- ISBN:9787030714473
- 條形碼:9787030714473 ; 978-7-03-071447-3
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大數(shù)據(jù):基礎(chǔ)、技術(shù)與應(yīng)用 本書特色
適讀人群 :高校相關(guān)專業(yè)高年級本科生或研究生,有志于從事大數(shù)據(jù)相關(guān)工作的各界社會人士內(nèi)容全面、內(nèi)容較新、理論與實(shí)踐結(jié)合,對大學(xué)生及社會人士具體重要參考價值。
大數(shù)據(jù):基礎(chǔ)、技術(shù)與應(yīng)用 內(nèi)容簡介
本書主要包括十三章,其中:(1)**章為本書的引言部分,介紹大數(shù)據(jù)的概念、特征和發(fā)展趨勢。(2)第二-第七章按照大數(shù)據(jù)分析的流程順序,分別介紹大數(shù)據(jù)采集、存儲、計算、分析、挖掘、可視化技術(shù)。(3)第八章、第九章介紹大數(shù)據(jù)技術(shù)與當(dāng)下流行的兩門技術(shù),即云計算和人工智能技術(shù)的關(guān)系。(4)第十-第十三章側(cè)重典型行業(yè)內(nèi)的大數(shù)據(jù)技術(shù)應(yīng)用,即工業(yè)大數(shù)據(jù)、政務(wù)大數(shù)據(jù)、商業(yè)大數(shù)據(jù)、多媒體大數(shù)據(jù)等。
大數(shù)據(jù):基礎(chǔ)、技術(shù)與應(yīng)用 目錄
第1章 大數(shù)據(jù)概述 1
1.1 大數(shù)據(jù)發(fā)展歷程 1
1.2 大數(shù)據(jù)主要特征 3
1.3 大數(shù)據(jù)與云計算、人工智能和物聯(lián)網(wǎng) 6
1.4 大數(shù)據(jù)發(fā)展現(xiàn)狀和趨勢 10
習(xí)題 17
第2章 大數(shù)據(jù)采集 18
2.1 大數(shù)據(jù)采集概述 18
2.1.1 大數(shù)據(jù)的來源 18
2.1.2 大數(shù)據(jù)的采集 18
2.2 海量日志采集系統(tǒng)Flume 19
2.2.1 Flume簡介 19
2.2.2 Flume的組成 19
2.2.3 Flume的工作流程 22
2.2.4 Flume的數(shù)據(jù)流模型 24
2.2.5 Flume實(shí)戰(zhàn) 26
2.3 分布式發(fā)布訂閱消息系統(tǒng)Kafka 34
2.3.1 Kafka簡介 34
2.3.2 Kafka的架構(gòu) 36
2.3.3 Kafka的應(yīng)用場景 39
2.3.4 Kafka實(shí)戰(zhàn) 40
習(xí)題 45
第3章 大數(shù)據(jù)存儲基礎(chǔ) 46
3.1 HDFS簡介 46
3.1.1 HDFS的設(shè)計目標(biāo) 46
3.1.2 HDFS的局限性 47
3.2 HDFS的體系架構(gòu) 47
3.2.1 數(shù)據(jù)塊 48
3.2.2 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn) 49
3.2.3 第二名稱節(jié)點(diǎn) 49
3.3 HDFS運(yùn)行原理 50
3.3.1 副本機(jī)制 51
3.3.2 數(shù)據(jù)出錯與恢復(fù) 52
3.3.3 HDFS文件讀流程 53
3.3.4 HDFS文件寫流程 54
3.4 HDFS編程實(shí)踐 55
3.4.1 利用Shell命令與HDFS進(jìn)行交互 56
3.4.2 利用Web界面管理HDFS 58
3.4.3 使用Java API訪問HDFS 59
習(xí)題 65
第4章 大數(shù)據(jù)存儲進(jìn)階 66
4.1 從關(guān)系型數(shù)據(jù)庫到NoSQL數(shù)據(jù)庫 66
4.1.1 關(guān)系型數(shù)據(jù)庫 66
4.1.2 NoSQL簡介 68
4.1.3 NoSQL的基礎(chǔ)理論 68
4.1.4 NoSQL的四大類型 71
4.2 分布式數(shù)據(jù)庫HBase概述 73
4.2.1 HBase簡介 73
4.2.2 HBase數(shù)據(jù)模型 75
4.2.3 HBase體系結(jié)構(gòu) 78
4.2.4 HBase工作原理 79
4.3 HBase編程實(shí)踐 83
4.3.1 安裝HBase 83
4.3.2 HBase配置 84
4.3.3 HBase Shell命令 87
習(xí)題 90
第5章 大數(shù)據(jù)計算 91
5.1 MapReduce概述 91
5.1.1 MapReduce來源 91
5.1.2 MapReduce設(shè)計思想 92
5.1.3 MapReduce的優(yōu)缺點(diǎn) 93
5.2 MapReduce工作流程 94
5.2.1 MapReduce基本架構(gòu) 94
5.2.2 MapReduce運(yùn)行機(jī)制 95
5.2.3 MapReduce內(nèi)部邏輯 96
5.3 MapReduce實(shí)例分析 98
5.3.1 WordCount設(shè)計思路 98
5.3.2 WordCount數(shù)據(jù)處理流程 98
5.3.3 WordCount編程實(shí)現(xiàn) 101
5.4 Spark概述 108
5.4.1 Spark簡介 108
5.4.2 Spark生態(tài)圈 109
5.5 Spark工作流程 110
5.5.1 基本概念 110
5.5.2 架構(gòu)設(shè)計 110
5.5.3 運(yùn)行流程 112
5.5.4 RDD算子 113
習(xí)題 114
第6章 多維大數(shù)據(jù)分析 115
6.1 多維數(shù)據(jù)模型 115
6.1.1 數(shù)據(jù)立方體 115
6.1.2 多維數(shù)據(jù)模型 115
6.1.3 概念分層 119
6.1.4 多維數(shù)據(jù)模型中的OLAP操作 120
6.1.5 多維數(shù)據(jù)模型的優(yōu)缺點(diǎn) 122
6.2 多維分析工具Hive 123
6.2.1 Hive簡介 123
6.2.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫 123
6.2.3 Hive的架構(gòu)及工作原理 126
6.2.4 Hive的數(shù)據(jù)類型 128
6.2.5 Hive的數(shù)據(jù)模型 129
6.2.6 Hive實(shí)戰(zhàn) 130
習(xí)題 137
第7章 大數(shù)據(jù)挖掘 138
7.1 數(shù)據(jù)挖掘概述 138
7.1.1 數(shù)據(jù)挖掘簡介 138
7.1.2 數(shù)據(jù)預(yù)處理 138
7.1.3 數(shù)據(jù)挖掘任務(wù) 139
7.2 分類 140
7.2.1 分類模型 140
7.2.2 決策樹 141
7.2.3 支持向量機(jī) 145
7.3 回歸 147
7.3.1 回歸模型 147
7.3.2 線性回歸 148
7.3.3 多項(xiàng)式回歸 149
7.4 聚類 150
7.4.1 聚類模型 150
7.4.2 k均值算法 152
7.4.3 DBSCAN算法 153
7.5 關(guān)聯(lián)分析 155
7.5.1 關(guān)聯(lián)分析模型 155
7.5.2 Apriori算法 156
7.5.3 FP-growth算法 158
習(xí)題 160
第8章 大數(shù)據(jù)可視化 161
8.1 數(shù)據(jù)可視化概述 161
8.1.1 數(shù)據(jù)可視化簡介 161
8.1.2 數(shù)據(jù)可視化的發(fā)展歷程 161
8.1.3 數(shù)據(jù)可視化的作用 163
8.2 數(shù)據(jù)可視化方法 164
8.2.1 高維大數(shù)據(jù)可視化 164
8.2.2 網(wǎng)絡(luò)和層次大數(shù)據(jù)可視化 166
8.2.3 時空大數(shù)據(jù)可視化 168
8.2.4 文本大數(shù)據(jù)可視化 169
8.3 數(shù)據(jù)可視化工具 170
8.3.1 ECharts 170
8.3.2 Tableau 174
8.3.3 D3 176
習(xí)題 182
第9章 大數(shù)據(jù)與人工智能 183
9.1 人工智能概述 183
9.1.1 人工智能簡介 183
9.1.2 人工智能核心技術(shù) 183
9.1.3 人工智能與大數(shù)據(jù)的應(yīng)用 184
9.1.4 人工智能與大數(shù)據(jù)的關(guān)系 187
9.1.5 大數(shù)據(jù)領(lǐng)域的人工智能展望 189
9.2 機(jī)器學(xué)習(xí)與大數(shù)據(jù) 189
9.2.1 大規(guī)模機(jī)器學(xué)習(xí)優(yōu)化算法 189
9.2.2 大數(shù)據(jù)下的機(jī)器學(xué)習(xí) 192
9.3 深度學(xué)習(xí)與大數(shù)據(jù) 193
9.3.1 典型深度學(xué)習(xí)算法 194
9.3.2 大數(shù)據(jù)下的深度學(xué)習(xí) 199
習(xí)題 199
第10章 政務(wù)大數(shù)據(jù) 201
10.1 智慧政務(wù)概述 201
10.1.1 政務(wù)信息化發(fā)展歷史 201
10.1.2 智慧政務(wù)內(nèi)涵 202
10.1.3 “*多跑一次”改革 203
10.2 政務(wù)大數(shù)據(jù)體系架構(gòu) 204
10.2.1 政務(wù)大數(shù)據(jù)概述 204
10.2.2 政務(wù)大數(shù)據(jù)總體架構(gòu) 205
10.2.3 政務(wù)大數(shù)據(jù)安全 207
10.3 政務(wù)大數(shù)據(jù)與區(qū)塊鏈 208
10.3.1 區(qū)塊鏈概述 208
10.3.2 推動政務(wù)數(shù)據(jù)“上鏈” 209
10.3.3 基于區(qū)塊鏈的政務(wù)大數(shù)據(jù)共享和交換 210
習(xí)題 212
第11章 商業(yè)大數(shù)據(jù) 213
11.1 商業(yè)智能與大數(shù)據(jù) 213
11.1.1 傳統(tǒng)商業(yè)智能 213
11.1.2 大數(shù)據(jù)時代的商業(yè)智能 217
11.1.3 商業(yè)智能案例 218
11.2 社交計算與大數(shù)據(jù) 220
11.2.1 傳統(tǒng)社交網(wǎng)絡(luò) 220
11.2.2 大數(shù)據(jù)時代的社交網(wǎng)絡(luò) 221
11.2.3 社交計算案例 223
11.3 推薦系統(tǒng)與大數(shù)據(jù) 224
11.3.1 傳統(tǒng)推薦系統(tǒng) 224
11.3.2 大數(shù)據(jù)時代的推薦系統(tǒng) 227
11.3.3 推薦系統(tǒng)案例 228
習(xí)題 230
第12章 多媒體大數(shù)據(jù) 231
12.1 文本大數(shù)據(jù) 231
12.1.1 文本大數(shù)據(jù)簡介 231
12.1.2 文本大數(shù)據(jù)代表性技術(shù) 232
12.1.3 典型應(yīng)用案例 234
12.2 圖像大數(shù)據(jù) 236
12.2.1 圖像大數(shù)據(jù)簡介 236
12.2.2 圖像大數(shù)據(jù)代表性技術(shù) 236
12.2.3 典型應(yīng)用案例 238
12.3 音頻大數(shù)據(jù) 239
12.3.1 音頻大數(shù)據(jù)簡介 239
12.3.2 音頻大數(shù)據(jù)代表性技術(shù) 240
12.3.3 典型應(yīng)用案例 241
12.4 視頻大數(shù)據(jù) 242
12.4.1 視頻大數(shù)據(jù)簡介 242
12.4.2 視頻大數(shù)據(jù)代表性技術(shù) 243
12.4.3 典型應(yīng)用案例 244
習(xí)題 246
參考文獻(xiàn) 247
大數(shù)據(jù):基礎(chǔ)、技術(shù)與應(yīng)用 節(jié)選
第1章 大數(shù)據(jù)概述 本章*先介紹大數(shù)據(jù)的發(fā)展歷程及其主要特征,接著闡述大數(shù)據(jù)與云計算、人工智能和物聯(lián)網(wǎng)之間的關(guān)聯(lián),*后給出大數(shù)據(jù)的發(fā)展現(xiàn)狀以及未來趨勢。 1.1 大數(shù)據(jù)發(fā)展歷程 從上古時代的“結(jié)繩記事”,到文字發(fā)明后的“文以載道”,再到近現(xiàn)代科學(xué)的“數(shù)學(xué)建模”,數(shù)據(jù)一直伴隨著人類社會的發(fā)展和變遷。然而,直到以電子計算機(jī)為代表的現(xiàn)代信息技術(shù)出現(xiàn)后,人類獲取數(shù)據(jù)、掌握數(shù)據(jù)、處理數(shù)據(jù)的能力才實(shí)現(xiàn)了質(zhì)的躍升。人類社會在信息科技領(lǐng)域的不斷進(jìn)步為大數(shù)據(jù)時代的到來提供了技術(shù)支持,數(shù)據(jù)成為繼物質(zhì)、能源之后的又一種重要戰(zhàn)略資源。 根據(jù)IBM前*席執(zhí)行官郭士納的觀點(diǎn),IT領(lǐng)域每隔15年就會迎來一次重大變革。三次信息化浪潮見表1.1。1980年前后,個人計算機(jī)(Personal Computer,PC)開始普及。計算機(jī)的廣泛應(yīng)用解決了信息處理的問題,大大提高了社會生產(chǎn)力,也使人類迎來了**次信息化浪潮,Intel、 IBM、 蘋果、微軟、聯(lián)想等企業(yè)是這個時期的標(biāo)志。隨后,在1995年前后,人類開始全面進(jìn)入互聯(lián)網(wǎng)時代;ヂ(lián)網(wǎng)的普及把世界變成“地球村”,有效解決了信息傳輸?shù)膯栴},人類隨之迎來了第二次信息化浪潮。這個時期也締造了雅虎、谷歌、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭。時隔15年,在2010年前后,云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等前沿技術(shù)的快速發(fā)展,有效應(yīng)對了信息爆炸帶來的新問題,由此拉開了第三次信息化浪潮的大幕,大數(shù)據(jù)時代正式到來。 表1.1 三次信息化浪潮 大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為三個重要階段:萌芽期、成熟期和大規(guī)模應(yīng)用期。三個階段的時間和主要特點(diǎn)見表1.2。 表1.2 大數(shù)據(jù)發(fā)展的三個階段 下面簡要回顧大數(shù)據(jù)的發(fā)展歷程。 1980年,著名未來學(xué)家阿爾文 托夫勒在其著名的《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。 1997年,邁克爾 考克斯和大衛(wèi) 埃爾斯沃思在第八屆電氣和電子工程師協(xié)會(IEEE)關(guān)于可視化的會議論文集中發(fā)表了《為外存模型可視化而應(yīng)用控制程序請求頁面調(diào)度》的文章,這是在美國計算機(jī)學(xué)會的數(shù)字圖書館中**篇使用“大數(shù)據(jù)”這一術(shù)語的文章。 2001年,梅塔集團(tuán)分析師道格 萊尼發(fā)布題為《3D數(shù)據(jù)管理:控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》的研究報告。自此,“大數(shù)據(jù)”這一概念在信息通信領(lǐng)域被普遍接受、研究和使用。 2003年,谷歌公司發(fā)表了論文The Google File System(《谷歌文件系統(tǒng)》),介紹GFS分布式文件系統(tǒng)。該系統(tǒng)可用于海量數(shù)據(jù)的可靠存儲。 2004年,谷歌公司發(fā)表了論文MapReduce:Simplified Data Processing on Large Clusters(《MapReduce:基于大規(guī)模集群的簡化數(shù)據(jù)處理》),介紹并行計算模型MapReduce。該模型可用于海量數(shù)據(jù)的高效計算。 2008年,《自然》雜志推出了大數(shù)據(jù)?;計算社區(qū)聯(lián)盟(Computing Community Consortium)發(fā)布了報告《大數(shù)據(jù)計算:在商業(yè)、科學(xué)和社會領(lǐng)域的革命性突破》,闡述了大數(shù)據(jù)技術(shù)及其面臨的一些挑戰(zhàn)。 2011年,《科學(xué)》雜志推出?稊(shù)據(jù)處理》,討論了科學(xué)研究中的大數(shù)據(jù)問題。 2011年,維克托 邁爾-舍恩伯格和肯尼思 庫克耶出版著作《大數(shù)據(jù)時代:生活、工作與思維的大變革》,引起了社會轟動。書中提到的大數(shù)據(jù)的“4V”特征,即規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)和價值性(Value)作為定義大數(shù)據(jù)的四個維度被廣泛接受。 2011年,麥肯錫全球研究院發(fā)布《大數(shù)據(jù):下一個具有創(chuàng)新力、競爭力與生產(chǎn)力的前沿領(lǐng)域》,提出“大數(shù)據(jù)”時代已到來。 2012年,美國奧巴馬政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,正式啟動“大數(shù)據(jù)發(fā)展計劃”,大數(shù)據(jù)由此上升為美國國家發(fā)展戰(zhàn)略,被視為美國政府繼“信息高速公路計劃”之后在信息科學(xué)領(lǐng)域的又一重大舉措。 2013年,中國計算機(jī)學(xué)會發(fā)布《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》,系統(tǒng)總結(jié)了大數(shù)據(jù)的核心科學(xué)與技術(shù)問題。 2014年,美國政府發(fā)布2014年全球“大數(shù)據(jù)”白皮書《大數(shù)據(jù):抓住機(jī)遇、守護(hù)價值》,鼓勵使用數(shù)據(jù)來推動社會進(jìn)步。 2015年,我國國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,指出要全面推進(jìn)我國大數(shù)據(jù)的發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強(qiáng)國。 2017年1月,我國工業(yè)和信息化部發(fā)布《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,全面部署“十三五”時期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國,為實(shí)現(xiàn)制造強(qiáng)國和網(wǎng)絡(luò)強(qiáng)國提供強(qiáng)大的數(shù)據(jù)產(chǎn)業(yè)支撐。 2017年12月,中共中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略進(jìn)行第二次集體學(xué)習(xí)。中共中央總書記習(xí)近平在主持學(xué)習(xí)時強(qiáng)調(diào),大數(shù)據(jù)發(fā)展日新月異,我們應(yīng)該審時度勢、精心謀劃、超前布局、力爭主動,深入了解大數(shù)據(jù)的發(fā)展現(xiàn)狀和趨勢及其對經(jīng)濟(jì)社會發(fā)展的影響,分析我國大數(shù)據(jù)發(fā)展取得的成績和存在的問題,推動實(shí)施國家大數(shù)據(jù)戰(zhàn)略。① 2019年5月,中國國家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)安全管理辦法(征求意見稿)》,表明我國大數(shù)據(jù)的發(fā)展和利用從野蠻生長時代進(jìn)入了正規(guī)化管理的關(guān)鍵時代。 2019年12月,美國行政管理和預(yù)算局(Office of Management and Budget,OMB)發(fā)布《聯(lián)邦數(shù)據(jù)戰(zhàn)略與2020年行動計劃》。該計劃以政府?dāng)?shù)據(jù)治理為主要視角,描述了聯(lián)邦政府未來十年的數(shù)據(jù)愿景和2020年要推行的關(guān)鍵行動,將數(shù)據(jù)戰(zhàn)略焦點(diǎn)從“技術(shù)”轉(zhuǎn)移到“資源”。 2020年4月,中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》,將“數(shù)據(jù)”與土地、勞動力、資本、技術(shù)并稱為五種要素,這標(biāo)志著數(shù)據(jù)要素市場化配置上升為國家戰(zhàn)略。 2020年4月,中國國家互聯(lián)網(wǎng)信息辦公室、國家發(fā)改委等12個部門聯(lián)合發(fā)布《網(wǎng)絡(luò)安全審查辦法》,為我國開展網(wǎng)絡(luò)安全審查工作提供了重要的制度保障。 2020年9月,阿里巴巴云棲大會*次全程在線上舉辦,并發(fā)布了多款產(chǎn)品與技術(shù),包括軟硬件結(jié)合的沙箱容器 2.0、離線實(shí)時一體化數(shù)據(jù)倉庫 MaxCompute、阿里云的云原生分布式數(shù)據(jù)庫 PolarDB-X等。 2021年6月,第十三屆全國人民代表大會常務(wù)委員會第二十九次會議通過《中華人民共和國數(shù)據(jù)安全法》。 2021年7月,中國國家互聯(lián)網(wǎng)信息辦公室發(fā)布關(guān)于《網(wǎng)絡(luò)安全審查辦法(修訂草案征求意見稿)》公開征求意見的通知。征求意見稿包括了“掌握超過100萬名用戶個人信息的運(yùn)營者赴國外上市,必須向網(wǎng)絡(luò)安全審查辦公室申報網(wǎng)絡(luò)安全審查”等內(nèi)容。同期,中國國家互聯(lián)網(wǎng)信息辦公室等七部門聯(lián)合進(jìn)駐滴滴出行科技有限公司,開展網(wǎng)絡(luò)安全審查。 1.2 大數(shù)據(jù)主要特征 大數(shù)據(jù)并無統(tǒng)一的定義。但是,一般來說,大數(shù)據(jù)泛指無法在一定時間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對其進(jìn)行獲取、管理和處理的巨量數(shù)據(jù)集合,具有海量性、多樣性、時效性及可變性等特征,需要可伸縮的計算體系結(jié)構(gòu)以支持其存儲、處理和分析。大數(shù)據(jù)的特點(diǎn)可以用多個V來概括,其中*被認(rèn)可的是以下四個V:規(guī)模性、多樣性、高速性和價值性。下面分別介紹這四個特征的主要內(nèi)容。 1. 規(guī)模性(Volume) 信息技術(shù)的高速發(fā)展帶來了數(shù)據(jù)量的爆發(fā)性增長。從1986年開始到2010年的20多年時間里,全球的數(shù)據(jù)量增長了100倍。社交網(wǎng)絡(luò)[微博、推特(Twitter)、臉書(Facebook②)]、電商平臺、各種智能及服務(wù)工具等都成為海量數(shù)據(jù)的生產(chǎn)源。據(jù)2011年淘寶網(wǎng)及臉書官方統(tǒng)計數(shù)據(jù)顯示,淘寶網(wǎng)近4億會員每天產(chǎn)生的商品交易數(shù)據(jù)量約20 TB;臉書約10億用戶每天產(chǎn)生的日志數(shù)據(jù)量超過300 TB。未來,隨著物聯(lián)網(wǎng)的推廣和普及,各種傳感器和攝像頭將遍布人們工作和生活的各個角落,這些設(shè)備每時每刻都在自動產(chǎn)生大量數(shù)據(jù)。 綜上所述,各種數(shù)據(jù)產(chǎn)生速度之快,產(chǎn)生數(shù)量之大,已經(jīng)遠(yuǎn)遠(yuǎn)超出人類可以控制的范圍,“數(shù)據(jù)爆炸”成為大數(shù)據(jù)時代的鮮明特征。根據(jù)著名咨詢機(jī)構(gòu)IDC(Internet Data Center)做出的估測,人類社會產(chǎn)生的數(shù)據(jù)量一直都在以每年50%的速度增長,也就是說,每兩年產(chǎn)生的數(shù)據(jù)量就會增加一倍,這被稱為“大數(shù)據(jù)摩爾定律”。這意味著,人類在*近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量之和。IDC發(fā)布的《數(shù)據(jù)時代2025》白皮書預(yù)測:到2025年,全球數(shù)據(jù)量將達(dá)到史無前例的163 ZB。數(shù)據(jù)量的規(guī)模巨大是大數(shù)據(jù)的一個**特征。但是,到底多大規(guī)模的數(shù)據(jù)量才能算作大數(shù)據(jù)并無確定的標(biāo)準(zhǔn)。一般來說,至少PB級規(guī)模以上的數(shù)據(jù)量才能稱為大數(shù)據(jù),當(dāng)然,這也與處理數(shù)據(jù)的復(fù)雜程度相關(guān)。表1.3給出了數(shù)據(jù)存儲單位之間的換算關(guān)系。 表1.3 數(shù)據(jù)存儲單位間的換算關(guān)系 2. 多樣性(Variety) 廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。根據(jù)數(shù)據(jù)是否具有一定的模式、結(jié)構(gòu)和關(guān)系,大數(shù)據(jù)可分為三種基本類型:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),詳見表1.4。 表1.4 大數(shù)據(jù)的數(shù)據(jù)類型 數(shù)據(jù)類型 說明 結(jié)構(gòu)化數(shù)據(jù) 具有固定的結(jié)構(gòu)、屬性劃分和類型等信息,通常以二維表格的形式存儲在關(guān)系型數(shù)據(jù)庫里。結(jié)構(gòu)化數(shù)據(jù)是先有結(jié)構(gòu)、后產(chǎn)生數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的分析方法大部分以統(tǒng)計分析和數(shù)據(jù)挖掘?yàn)橹?非結(jié)構(gòu)化數(shù)據(jù) 不遵循統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)或模型,不方便用二維邏輯表來表現(xiàn)(如文本、圖像、視頻、音頻等)。非結(jié)構(gòu)化數(shù)據(jù)在企業(yè)數(shù)據(jù)中占比達(dá)90%,且增長速率更快,更難被計算機(jī)理解,不能直接被處理或用SQL語句進(jìn)行查詢。非結(jié)構(gòu)化數(shù)據(jù)常以二進(jìn)制大型對象形式整體存儲在關(guān)系型數(shù)據(jù)庫或非關(guān)系型數(shù)據(jù)庫中,其處理分析過程也更為復(fù)雜 半結(jié)構(gòu)化數(shù)據(jù) 具有一定的結(jié)構(gòu),但又靈活可變,介于完全結(jié)構(gòu)化數(shù)據(jù)和完全非結(jié)構(gòu)化數(shù)據(jù)之間。半結(jié)構(gòu)化數(shù)據(jù)包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層。兩種常見的半結(jié)構(gòu)化數(shù)據(jù)為:XML文件和JSON文件。半結(jié)構(gòu)化數(shù)據(jù)的常見來源包括電子轉(zhuǎn)換數(shù)據(jù)(EDI)文件、擴(kuò)展表、RSS源、傳感器數(shù)據(jù)等 除了以上三種數(shù)據(jù)類型外,還有一種用于描述其他數(shù)據(jù)的數(shù)據(jù),即元數(shù)據(jù)。元數(shù)據(jù)可說明已知的數(shù)據(jù)的一些屬性信息(數(shù)據(jù)長度、字段、數(shù)據(jù)列、文件目錄等),提供了數(shù)據(jù)系譜信息(包含數(shù)據(jù)的演化過程)和數(shù)據(jù)處理的起源。元數(shù)據(jù)可分為三種不同類型,分別為記敘性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和管理性元數(shù)據(jù),主要由機(jī)器生成并添加到數(shù)據(jù)集中。例如,數(shù)碼照片文件中提供文件大小和分辨率的屬性數(shù)據(jù)就是一種元數(shù)據(jù)。元數(shù)據(jù)的作用類似于數(shù)據(jù)倉庫中的數(shù)據(jù)字典。 3. 高速性(Velocity) 據(jù)相關(guān)商業(yè)智能(BI)科技公司2021年的統(tǒng)計,在1分鐘內(nèi),谷歌可以產(chǎn)生570萬次搜索查詢,臉書用戶可以分享24萬張圖片,推特可以產(chǎn)生57.5萬條推文,抖音(Tiktok)用戶可以觀看1.67億個視頻,亞馬遜(Amazon)可以產(chǎn)生28.3萬美元的交易額。 大數(shù)據(jù)時代的很多應(yīng)用都需要基于快速生成的數(shù)據(jù)給出實(shí)時分析結(jié)果,用于指導(dǎo)生產(chǎn)和生活實(shí)踐。因此,數(shù)據(jù)處理和分析的速度通常要達(dá)到秒級響應(yīng),這一點(diǎn)和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同,后者通常不要求給出實(shí)時分析結(jié)果。 為了實(shí)現(xiàn)快速分析海量數(shù)據(jù)的目的,新興的大數(shù)據(jù)分析技術(shù)通常采用集群處理和獨(dú)特的內(nèi)部設(shè)計。以谷歌公司的Dremel為例,它是一種可擴(kuò)展的、交互式的實(shí)時查詢系統(tǒng),用于只讀嵌套數(shù)據(jù)的分析。通過結(jié)合多級樹狀執(zhí)行過程和列式數(shù)據(jù)結(jié)構(gòu),它能在幾秒內(nèi)完成對萬億張表的聚合查詢,并可以擴(kuò)展到成千上萬的CPU上,從而滿足谷歌上萬用戶操作PB級數(shù)據(jù)的需求。 4. 價值性(Value) 隨著互聯(lián)網(wǎng)及物聯(lián)網(wǎng)的廣泛應(yīng)用,數(shù)據(jù)量呈幾何級數(shù)爆炸式增長。然而,在海量數(shù)據(jù)中,有價值
- >
月亮虎
- >
史學(xué)評論
- >
李白與唐代文化
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
- >
有舍有得是人生
- >
大紅狗在馬戲團(tuán)-大紅狗克里弗-助人
- >
羅曼·羅蘭讀書隨筆-精裝