-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數據復雜查詢技術研究 版權信息
- ISBN:9787030727909
- 條形碼:9787030727909 ; 978-7-03-072790-9
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
大數據復雜查詢技術研究 本書特色
本書以大數據復雜查詢為主要內容,對相關關鍵技術進行了深入分析與研究,主要包括以下四個方面:多維索引與查詢、可擴展空間關鍵字查詢、相似性連接查詢、大規模概率集合相似性連接查詢等。
大數據復雜查詢技術研究 內容簡介
本書比較全面地介紹云數據管理中多維索引與復雜查詢、云環境下針對物聯網數據的多維索引技術、可擴展的空間關鍵字查詢、基于MapReduce的概率集合相似性連接查詢、大規模高維向量相似性連接查詢、Top-k相似性連接查詢、基于隨機映射的相似性連接查詢、相似性連接查詢其他問題、大數據復雜查詢面臨的挑戰等內容。力求向讀者系統展示大數據復雜查詢領域的近期新研究動態,希望能夠為從事相關研究的廣大讀者提供有益的參考和幫助,同時能夠為大數據復雜查詢相關理論與技術的發展起到一定的促進作用。 本書可作為計算機科學與技術、電子信息科學與技術等相關專業碩士研究生、博士研究生的參考書,也可作為大數據管理與分析研究人員、計算機領域相關研究人員、信息技術相關從業人員的參考書。
大數據復雜查詢技術研究 目錄
前言
第1章 緒論 1
第2章 云數據管理中多維索引與復雜查詢 4
2.1 概述 4
2.2 云數據管理中多維索引技術 4
2.2.1 云數據管理索引技術研究概述 5
2.2.2 基于分布式文件系統的索引 6
2.2.3 基于key-value存儲的索引 14
2.2.4 針對不同數據類型的索引技術 19
2.3 空間關鍵字查詢 27
2.3.1 兩階段索引 27
2.3.2 空間文本混合索引 28
2.3.3 空間關鍵字查詢擴展 30
2.4 可擴展的相似性連接查詢 31
2.4.1 集合相似性連接查詢 32
2.4.2 向量相似性連接查詢 36
2.4.3 空間數據相似性連接查詢 40
2.4.4 概率數據相似性連接查詢 41
2.4.5 字符串相似性連接查詢 43
2.4.6 圖數據相似性連接查詢 43
2.5 本章小結 44
第3章 云環境下針對物聯網數據的多維索引技術 45
3.1 概述 45
3.2 MLM-Index 47
3.2.1 MLM-Index概述 47
3.2.2 MLM-Index關鍵技術 49
3.2.3 MLM-Index索引實現 53
3.2.4 基于MLM-Index的查詢處理 55
3.2.5 實驗分析 58
3.3 混合索引 65
3.3.1 混合索引概述 65
3.3.2 全局索引 66
3.3.3 局部索引 67
3.3.4 基于混合索引的查詢處理 68
3.3.5 實驗分析 71
3.4 本章小結 74
第4章 可擴展的空間關鍵字查詢 75
4.1 概述 75
4.2 空間關鍵字查詢的定義 77
4.3 基于空間和文本的混合索引方案 78
4.3.1 STbHI結構 78
4.3.2 查詢處理 80
4.3.3 優化方案 82
4.4 基于詞聚類的倒排空間索引方案 83
4.5 實驗分析 87
4.5.1 實驗設置 87
4.5.2 改變數據集大小 88
4.5.3 改變查詢詞個數 90
4.5.4 改變查詢范圍 90
4.6 本章小結 91
第5章 基于MapReduce的概率集合相似性連接查詢 92
5.1 概述 92
5.2 集合相似性連接查詢的相關工作 93
5.3 問題定義 94
5.3.1 集合級的概率集合數據庫 94
5.3.2 概率集合相似性連接查詢 94
5.4 基本的嵌套循環連接算法 95
5.4.1 BNLJ算法描述 95
5.4.2 代價分析 96
5.5 基于概率的前綴過濾算法 97
5.5.1 概率計算分析 97
5.5.2 基于概率的項頻度排序 98
5.5.3 聯合前綴過濾 99
5.5.4 基于Map端過濾的相似性連接查詢算法 100
5.5.5 基于Reduce端過濾的相似性連接查詢算法 102
5.5.6 基于混合過濾的相似性連接查詢算法 103
5.6 實驗分析 103
5.7 本章小結 107
第6章 大規模高維向量相似性連接查詢 108
6.1 概述 108
6.2 問題定義及基礎知識 110
6.2.1 問題定義 110
6.2.2 基礎知識 110
6.3 基于SAX的高維向量相似性連接查詢算法 113
6.3.1 SAX-HDSJ算法概述 113
6.3.2 SAX-HDSJ算法詳細流程 113
6.3.3 SAX-HDSJ算法代價分析 117
6.4 高維向量相似性連接查詢改進算法 120
6.4.1 改進的SAX-HDSJ算法概述 121
6.4.2 基于SAX的數據劃分 121
6.5 實驗分析 122
6.5.1 實驗環境設置 122
6.5.2 不同維度下的性能 123
6.5.3 不同閾值下的性能 124
6.5.4 不同數據規模下的性能 125
6.5.5 均勻數據集和傾斜數據集上的性能 127
6.6 基于多PAA過濾的相似性連接查詢算法 128
6.6.1 基于單PAA的向量相似性連接查詢 128
6.6.2 基于多PAA的向量相似性連接查詢 130
6.6.3 基于SAX的多PAA的向量相似性連接查詢 132
6.6.4 參數選擇 134
6.6.5 實驗分析 138
6.7 本章小結 142
第7章 Top-k相似性連接查詢 143
7.1 概述 143
7.2 問題定義 143
7.3 基于閾值的Top-k相似性連接查詢 144
7.4 基于SAX的Top-k相似性連接查詢 144
7.4.1 查詢框架 144
7.4.2 實現流程 145
7.4.3 實驗分析 149
7.5 基于閾值估計的Top-k相似性連接查詢 154
7.5.1 海量高維向量相似度分布直方圖估計 154
7.5.2 Top-k閾值估計 155
7.5.3 基于閾值估計的Top-k相似性連接查詢算法 156
7.5.4 實驗分析 157
7.6 本章小結 161
第8章 基于隨機映射的相似性連接查詢 162
8.1 概述 162
8.2 問題定義與基礎知識 162
8.3 基于單映射的并行相似性連接查詢 167
8.4 基于多映射的并行相似性連接查詢 169
8.5 基于映射空間劃分的并行相似性連接查詢 172
8.5.1 基于映射空間劃分的相似性連接查詢框架 172
8.5.2 基于MapReduce的相似性連接查詢實現 173
8.6 面向傾斜數據的相似性連接查詢 175
8.6.1 面向負載均衡的相似性連接查詢 175
8.6.2 基于距離劃分樹的相似性連接查詢 177
8.6.3 基于二維映射空間劃分的相似性連接查詢 181
8.7 本章小結 182
第9章 相似性連接查詢其他問題 183
9.1 概述 183
9.2 負載均衡 183
9.2.1 相似度計算負載評估模型 183
9.2.2 相似性連接負載均衡策略 184
9.3 多源數據相似性連接查詢 184
9.3.1 相似性連接查詢結果大小估計 185
9.3.2 多源數據相似性連接順序選擇策略 185
9.3.3 多源高維大數據相似性連接查詢算法 186
9.4 基于LSH的KNN相似性連接查詢 186
9.4.1 LSH函數學習 187
9.4.2 基于LSH的并行近似KNN連接查詢 188
9.4.3 KNN相似性連接查詢改進方案 189
9.5 本章小結 190
第10章 大數據復雜查詢面臨的挑戰 191
10.1 大數據多維索引技術 191
10.2 大數據復雜查詢處理技術 193
參考文獻 195
大數據復雜查詢技術研究 節選
第1章 緒論 隨著物聯網、云計算和移動互聯網等新型服務的不斷涌現,數據以前所未有的速度不斷增長和積累。大數據的海量性(volume)、多樣性(variety)和高速性(velocity)等特點使得從大數據中快速、準確地獲取有價值的信息變得越來越困難。大數據復雜查詢與處理主要包括大數據多維索引、可擴展空間關鍵字查詢、大數據相似性連接查詢等,是大數據分析的重要研究內容,也是實現大數據價值昀大化的關鍵,其理論和方法的研究已經成為國內外學術界的研究熱點之一,并取得了很多研究成果,但仍然存在諸多挑戰。 大數據多維索引:在很多應用中,數據都是多維的,如物聯網數據一般具有時間、經度、緯度和測量值等屬性;電子商務數據一般具有商品名稱、商品類別、價格、交易時間等屬性。針對這些多維數據,多維查詢是一種重要的查詢類型,對于分析數據規律、挖掘數據價值具有重要意義。索引是數據管理中的一個重要內容,對于提高查詢速度有重要作用。關系型數據庫具有成熟的索引技術,如 B+-樹、R-樹等,能夠提供方便快速的多維查詢,但是在擴展性方面存在瓶頸。現有的云數據管理系統,能夠針對主鍵(rowkey)提供高效的查詢,但是由于缺乏有效的索引技術,對于非主鍵查詢及多維查詢無法提供有效支持。因此,探討云數據管理中的多維索引技術對于提高海量數據的多維查詢性能具有重要的研究價值和實際意義。目前,云數據管理中的索引技術已經有一些研究工作,但是現有的方案大都基于 R-樹的索引結構,當數據維度比較高、數據量比較大時, R-樹的查詢性能和數據插入性能都會急劇下降。如何解決上述問題也具有重大挑戰。 大數據復雜查詢:與結構化數據相比,我們稱位置數據、圖片、視頻、軌跡、文本等非結構化數據為復雜數據對象。針對這些復雜數據對象,除了簡單的查詢,復雜的查詢和分析具有更重要的價值與意義。如在基于位置的服務(location-based service,LBS)中,空間關鍵字查詢變得日益重要;集合相似性連接查詢在數據集成、實體識別中具有重要的作用;向量相似性連接查詢對重復視頻檢測、圖片分類、軌跡聚類等有重要意義。 同時,相似性連接查詢作為大數據分析的一種重要操作,可以提高相似性檢索和數據挖掘的效率,在很多領域得到了廣泛應用。相似性連接查詢已經有很多研究工作,但是,在大數據時代又產生了一些新的挑戰。國際數據公司的研究報告表明,在所有大數據中,視頻、音頻、圖像、文本、基因等非結構化數據占80%以上,它們都是涉及的特征非常多的高維數據,隨著數據采集精度的不斷提高,其特征可以達到數萬維,甚至百萬維。美國數學學會組織的“21世紀數學面臨的挑戰”的學術研討會上將海量高維數據分析與處理列為一個重要的研究熱點問題。隨著數據維度的不斷增加,現有以索引為基礎的過濾模型將不再有效,當維度超過一定閾值時,索引的性能甚至不如順序掃描。因此,迫切需要設計有效的高維數據相似性連接查詢過濾模型,使其能夠有效地應對“維度災難”問題。 相似性連接查詢是典型的計算密集型操作,隨著數據維度的不斷增高,兩個數據之間相似度的計算代價會比較大;同時,隨著數據集合規模的不斷擴大,相似性連接查詢的時間開銷呈指數級增長。傳統的集中式處理算法已經無法有效地處理大規模高維數據的相似性連接查詢問題。MapReduce并行處理框架因其具有高可擴展性、高容錯性和高可用性等特點,逐漸成為海量數據處理的首選方案,為海量高維數據相似性連接查詢問題帶來了新的機遇。然而, MapReduce也存在一些缺點,如不支持連接查詢、存在“木桶效應”、無法有效地處理傾斜數據等,給相似性連接查詢帶來了新的挑戰。因此,亟須研究 MapReduce框架下的相似性連接負載模型和負載均衡策略,并在此基礎上設計可擴展的高維數據相似性連接查詢算法,有效地處理大規模高維數據。 除了數據類型具有多樣性,同一數據也很可能來自多個數據源,多源相似性連接查詢在實際生活中也有廣泛應用。雖然多表連接查詢優化已經有大量的研究成果,但是,其不能直接應用于多源相似性連接查詢。目前,針對多源高維數據相似性連接查詢問題的研究尚未有較好的解決方案。本書將對多源高維數據相似性連接查詢中涉及的若干關鍵問題進行闡述,如高維數據相似性連接查詢結果大小估計、相似度分布直方圖估計、相似性連接代價模型和多源相似性連接順序選擇策略等。 針對上述挑戰,本書將對大數據復雜查詢與處理相關關鍵技術進行闡述,主要包括以下內容。 大數據多維索引。云數據管理系統由于其高可靠性、高擴展性和高容錯性等特點,已經成為大規模數據存儲和管理的首選方案,很多企業都把數據部署到云平臺下。在很多應用中,數據大都是多維的,如電子商務網站中的商品信息、Flickr中的圖片信息、物聯網中的傳感器數據等。針對這些數據的多維查詢或多屬性查詢是一種常用的查詢類型,對數據分析有重要作用。但是,現有的云數據管理系統存在很多局限性,缺乏有效的索引支持,無法提供快速的多維查詢,從而限制了其功能和應用范圍。本書第3章以海量物聯網數據為對象,針對其數據量大、多維、產生速度快等特點,研究在云環境下的多維索引方案,使其既能支持快速的多維查詢,又能具有較高的數據插入性能。 可擴展的空間關鍵字查詢處理。空間關鍵字查詢在 LBS、地圖搜索等應用中是一種重要的查詢類型,并且隨著空間文本對象數據規模的急劇增加,高效的空間關鍵字查詢處理變得日益重要。現有的空間關鍵字查詢處理方案大都將 R-樹和倒排索引相結合,構建混合索引,在混合索引基礎上進行過濾和查詢。現有方案主要面臨兩個挑戰:一是擴展性不好,無法有效地處理日益增長的大規模空間文本數據,當數據規模越來越大時,索引效率和查詢速度都會急劇下降;二是索引更新和維護的代價比較大,無法適應更新頻繁、動態變化的應用場景。本書第4章將主要研究在云環境下如何實現可擴展的、高效的空間關鍵字處理。 海量概率集合相似性連接查詢。概率集合數據有兩個特點:一是每個集合包含若干個集合實例;二是每個集合實例都有一個存在概率。由于這兩個特點,概率集合的相似性連接存在一些新的挑戰。一方面,在判斷兩個概率集合是否滿足查詢要求時,除了考慮各集合實例之間的相似度,還需要考慮集合實例的存在概率,因此,如何將集合實例相似度和集合實例存在概率相結合設計一種新的過濾算法,對于提高概率集合相似性連接查詢性能有重要作用。另一方面,常用的基于前綴的過濾方法存在重復比較的問題。如果兩個概率集合的集合實例之間有 m個公共元素,那么它們就需要重復比較 m次。本書第5章將結合概率集合數據的特點,對如何避免重復比較、如何設計有效的過濾規則從而提高過濾效果等問題進行深入的研究,并探討基于 MapReduce框架的并行方案。 海量高維向量相似性連接查詢。高維向量相似性連接查詢在重復視頻檢測、軌跡聚類、圖片分類等方面有重要作用,但存在諸多挑戰。一是“維度災難”問題:傳統的方法大都采用基于多維索引(如 R-樹)的過濾-驗證框架,但是只適合于低維度的向量。當向量的維度比較高時,索引的過濾效果就會變得很差。二是超高維度向量的相似度計算代價比較大:當向量的維度非常高時,兩個向量之間的相似度計算代價本身就比較大,成為連接查詢性能的一個重要瓶頸。三是數據規模問題方面的挑戰:現有的以索引為基礎的算法大都是單機算法,無法適應大規模高維向量的計算問題。本書第6~9章將對海量高維向量相似性連接查詢技術進行闡述,主要包括基于多重過濾的相似性連接查詢、Top-k相似性連接查詢、基于隨機映射的相似性連接查詢和多源相似性連接查詢等。 第2章 云數據管理中多維索引與復雜查詢 2.1 概述 隨著信息技術的飛速發展,在電子商務、物聯網、社交網絡、計算機仿真、科學計算等眾多應用領域,數據量正在以指數級的速度增加,人類已經進入了大數據時代。據統計,全世界的信息量每兩年以超過翻倍的速度增長,2011年將產生和復制1.8ZB的海量數據,其增長速度已經超過摩爾定律。傳統的關系型數據庫雖然能夠提供十分成熟的數據存儲、索引及查詢處理方案,然而面對不斷增長的海量數據,關系型數據庫在擴展性方面遇到了嚴重的瓶頸,無法實現高效靈活的擴展。雖然專業的公司能夠提供一些針對關系型數據庫的擴展方案,但是其部署、管理的代價非常大。 自2004年以來,Google公司先后提出了 Google File System[1]、BigTable[2]和 MapReduce[3]等技術。隨著這三大技術的提出,云計算作為一種新的海量數據存儲、管理、分析模式應運而生,并得到業界眾多大公司的廣泛應用和深入研究,云計算已經成為海量數據處理的一種標準首選方案。同時也出現了很多優秀的云數據管理系統,如雅虎的 PNUTS[4]、Amazon的 Dynamo[5]、開源的 HBase等。雖然云數據管理系統具有高可擴展性、高可用性和高容錯性等特點,但是在索引和復雜查詢方面仍存在很多局限性,從而限制了其廣泛應用。本章首先介紹云數據管理中已有的索引技術相關研究工作,并對現有工作進行歸納整理與對比分析。然后對幾種重要的復雜查詢處理技術進行介紹。相似性連接查詢主要介紹集合相似性連接查詢、向量相似性連接查詢及其他類型數據的相似性連接查詢,并對現有研究工作的優缺點進行分析。 2.2 云數據管理中多維索引技術 基于key-value存儲的云數據管理技術具有高可擴展性、高可用性和高容錯性等特點,能夠實現對海量數據的高效存儲和處理。然而,現有的基于 key-value存儲的云數據管理系統在數據訪問方面提供的功能比較簡單。云數據管理系統大都按照 rowkey的順序對數據進行組織,并在 rowkey上建立類似 B+-樹的索引結構,所以在 rowkey上能夠提供高效的點查詢或范圍查詢。然而針對非 rowkey的查詢,它們只能通過全表掃描的方式來實現。雖然我們可以利用 MapReduce技術來實現數據訪問的并行化,在一定程度上提高查詢速度,但是當數據量非常大時,對于時延要求比較高的應用,全表掃描所需的時間仍然比較長,無法滿足實際應用的需求。 在實際應用中,除了對 rowkey的查詢,還有很多針對非 rowkey的多維查詢需求。如在基于位置的服務中,我們經常需要針對某個對象的經度、緯度、時間等屬性進行多維查詢;在圖片共享服務中,我們可以對圖片的拍攝時間、拍攝地點、圖片主題等屬性進行查詢;在電子商務網站中,商品的數量往往達到數十億甚至上百億,并且每件商品都有幾十個甚至上百個屬性,如名稱、類別、價格、上架時間等。用戶往往需要從多個角度對商品進行查詢,從而對所要購買的商品有更加全面深入的了解。 目前云數據管理系統在數據查詢方面的局限性限制了其在眾多領域的廣泛應用。索引是實現多維查詢的一個有效方案,因此目前已有很多學者、公司針對云數據管理中的索引技術開展了大量研究工作,并提出了一系列有價值的解決方案。如新加坡國立大學的 epiC項目組創新性地提出了雙層索引框架,并在此基礎上給出了一系列解決方案;華為技術有限公司基于 HBase的 Coprocessor技術設計了新的二級索引方案,大大提高了查詢的效率。本節主要對云數據管理索引技術的相關工作進行深入調研,分析各自的優點及缺點;昀后指出了在云計算環境下針對大數據索引技術的若干挑戰性問題。 2.2.1 云數據管理索引技術研究概述 云數據管理是指以云計算技術為基礎,針對大規模數據的分布式、可擴展的數據管理技術。與傳統數據管理(以關系型數據庫管理為主)相比,在數據規模、數據對象、系統結構等方面都存在不同之處,并各有優劣,詳細對比見表2.1。 表2.1 云數據管理與傳統數據管理 為了豐富云數據管理系統的查詢功能,提高數據查詢和處理的效率,很多學者開展了云數據管理系統中索引技術的研究工作,并提出了很多有價值的實現方案。我們對各種索引方案的索引結構、實現方式、優缺點進行了深入分
- >
上帝之肋:男人的真實旅程
- >
詩經-先民的歌唱
- >
自卑與超越
- >
姑媽的寶刀
- >
苦雨齋序跋文-周作人自編集
- >
名家帶你讀魯迅:朝花夕拾
- >
月亮與六便士
- >
有舍有得是人生