-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
并行數據挖掘及性能優化——關聯規則與數據相關性分析 版權信息
- ISBN:9787121375828
- 條形碼:9787121375828 ; 978-7-121-37582-8
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
并行數據挖掘及性能優化——關聯規則與數據相關性分析 本書特色
大數據的戰略意義不在于擁有龐大的數據資源,而在于提高對數據的"加工能力”,通過"加工”實現數據的"增值”,數據挖掘是實現大數據知識發現的有效手段和途徑。關聯規則作為數據挖掘領域中的一個主要研究內容,可以在不知道或無法確定數據的關聯函數或模型時,有效發現大量數據項集之間有趣的關聯信息。現有的關聯規則挖掘算法因其時空復雜性和I/O代價高,無法適應大數據分析處理任務。本書圍繞大數據時代數據處理的核心理論與技術問題,將數據挖掘技術,并行算法設計及考慮計算模型的優化技術有機結合,充分利用集群系統的強大數據處理能力,研究了面向大數據的關聯規則挖掘方法和數據放置、負載均衡等性能優化技術。
并行數據挖掘及性能優化——關聯規則與數據相關性分析 內容簡介
本書圍繞大數據時代數據處理的核心理論與技術問題, 將數據挖掘技術, 并行算法設計及考慮計算模型的優化技術有機結合, 充分利用集群系統的強大數據處理能力, 研究了面向大數據的關聯規則挖掘方法和數據放置、負載均衡等性能優化技術。
并行數據挖掘及性能優化——關聯規則與數據相關性分析 目錄
**篇 基礎理論篇
第1章 緒論 3
1.1 數據挖掘 4
1.1.1 數據挖掘的產生和定義 4
1.1.2 數據挖掘的任務與分類 6
1.1.3 研究前沿和發展趨勢 8
1.2 關聯規則 9
1.2.1 關聯規則及其分類 9
1.2.2 關聯規則挖掘算法 12
1.3 集群系統與并行計算模型 17
1.3.1 集群系統 17
1.3.2 并行計算模型 18
1.3.3 大數據處理架構Hadoop與Spark 21
1.4 大數據環境下的數據挖掘及應用 27
1.4.1 大數據 27
1.4.2 大數據挖掘及應用 29
第2章 MapReduce集群環境下的數據放置策略 33
2.1 引言 34
2.2 數據放置策略的關鍵問題與度量標準 35
2.3 數據放置策略的優化 37
2.3.1 MapReduce集群系統能耗與數據放置策略 38
2.3.2 負載均衡的數據放置策略 41
2.3.3 改善I/O性能與通信負載的數據放置策略 46
2.3.4 考慮其他因素的數據放置策略 49
2.4 數據放置策略的分析與歸納 50
2.5 本章小結 53
第二篇 關聯規則并行挖掘及性能優化篇
第3章 壓縮后綴鏈表與并行頻繁項集挖掘算法 61
3.1 問題提出 62
3.2 基礎理論 63
3.3 基于MapReduce的頻繁項集挖掘算法 65
3.3.1 **個MapReduce作業 67
3.3.2 第二個MapReduce作業 67
3.4 實驗評價 68
3.4.1 *小支持度 69
3.4.2 可擴展性 70
3.4.3 加速比 70
3.5 本章小結 71
第4章 FIUT算法與頻繁項集并行挖掘 73
4.1 引言 74
4.2 FIUT算法描述 76
4.3 FiDoop算法概述 77
4.4 基于MapReduce的FiDoop算法 81
4.4.1 **個MapReduce作業 83
4.4.2 第二個MapReduce作業 83
4.4.3 第三個MapReduce作業 84
4.5 實現細節 87
4.5.1 負載均衡 87
4.5.2 高維優化 88
4.6 FiDoop-HD算法 90
4.7 實驗評價 92
4.7.1 *小支持度 93
4.7.2 負載均衡 95
4.7.3 加速比 96
4.7.4 可擴展性 97
4.8 本章小結 98
第5章 MapReduce編程模型下的約束頻繁項集并行挖掘算法 101
5.1 問題提出 102
5.2 約束頻繁項集挖掘算法的并行化 103
5.3 基于MapReduce的約束頻繁項集并行挖掘 105
5.4 基于MapReduce的約束頻繁項集并行挖掘算法(PACFP) 108
5.4.1 并行化計數過程 108
5.4.2 并行化CFP-Growth算法 109
5.4.3 結果聚合 111
5.5 負載均衡 111
5.6 實驗結果及分析 112
5.6.1 *小支持度 113
5.6.2 可伸縮性 115
5.6.3 可擴展性 116
5.6.4 約束條件判斷的代價分析 117
5.6.5 負載均衡 118
5.7 本章小結 120
第6章 支持并行頻繁項集挖掘的數據劃分策略 121
6.1 引言 122
6.1.1 FiDoop-DP算法的研發動機 123
6.1.2 FiDoop-DP算法要解決的數據劃分問題 124
6.1.3 FiDoop-DP算法的基本思想 125
6.2 并行FP-Growth算法 126
6.3 相關工作 128
6.3.1 MapReduce下的數據劃分 128
6.3.2 應用系統相關的數據劃分 129
6.4 問題陳述和設計目標 131
6.4.1 基本方法與問題陳述 131
6.4.2 設計目標 132
6.5 數據劃分策略 133
6.5.1 距離度量 134
6.5.2 K-Means算法種子點的選擇 135
6.5.3 劃分策略 135
6.6 實現細節 138
6.7 實驗評價 143
6.7.1 種子點個數對算法的影響 143
6.7.2 *小支持度對算法的影響 145
6.7.3 數據特征對算法的影響 147
6.7.4 加速比 149
6.7.5 可擴展性 150
6.8 本章小結 151
第7章 頻繁項集并行化過程中的重定向任務調度 153
7.1 問題提出 154
7.2 重定向任務調度算法 156
7.2.1 數據本地化的重要性 156
7.2.2 計算響應時間 157
7.2.3 重定向任務調度算法的設計 158
7.3 實驗結果及分析 160
7.3.1 有效性 160
7.3.2 可擴展性 161
7.3.3 穩定性 162
7.4 本章小結 163
第8章 基于Spark內存計算的并行頻繁項集挖掘及優化 165
8.1 引言 166
8.2 FP-Growth 算法的并行化分析 167
8.3 Spark環境下的均衡FP-Growth算法 169
8.3.1 負載均衡的分組策略 169
8.3.2 負載均衡的FP-Growth算法并行化 172
8.4 實驗評價 174
8.4.1 算法執行效率 175
8.4.2 加速比 176
8.4.3 可擴展性 177
8.5 本章小結 178
第三篇 應 用 篇
第9章 冷軋輥加工質量管理過程相關性分析 181
9.1 引言 182
9.2 系統需求與總體設計 184
9.2.1 軋輥生產工藝流程 184
9.2.2 冷軋輥生產質量管理特點 186
9.2.3 系統的軟件體系結構及功能 188
9.3 數據預處理及關鍵技術 190
9.3.1 數據轉換 190
9.3.2 數據清理 190
9.3.3 數據離散化 193
9.4 提取關聯規則 195
9.5 系統實現及運行結果 196
9.6 本章小結 203
附錄A 冷軋輥加工數據 205
附錄B 冷軋輥加工數據預處理格式 207
參考文獻 209
**篇 基礎理論篇
第1章 緒論 3
1.1 數據挖掘 4
1.1.1 數據挖掘的產生和定義 4
1.1.2 數據挖掘的任務與分類 6
1.1.3 研究前沿和發展趨勢 8
1.2 關聯規則 9
1.2.1 關聯規則及其分類 9
1.2.2 關聯規則挖掘算法 12
1.3 集群系統與并行計算模型 17
1.3.1 集群系統 17
1.3.2 并行計算模型 18
1.3.3 大數據處理架構Hadoop與Spark 21
1.4 大數據環境下的數據挖掘及應用 27
1.4.1 大數據 27
1.4.2 大數據挖掘及應用 29
第2章 MapReduce集群環境下的數據放置策略 33
2.1 引言 34
2.2 數據放置策略的關鍵問題與度量標準 35
2.3 數據放置策略的優化 37
2.3.1 MapReduce集群系統能耗與數據放置策略 38
2.3.2 負載均衡的數據放置策略 41
2.3.3 改善I/O性能與通信負載的數據放置策略 46
2.3.4 考慮其他因素的數據放置策略 49
2.4 數據放置策略的分析與歸納 50
2.5 本章小結 53
第二篇 關聯規則并行挖掘及性能優化篇
第3章 壓縮后綴鏈表與并行頻繁項集挖掘算法 61
3.1 問題提出 62
3.2 基礎理論 63
3.3 基于MapReduce的頻繁項集挖掘算法 65
3.3.1 **個MapReduce作業 67
3.3.2 第二個MapReduce作業 67
3.4 實驗評價 68
3.4.1 *小支持度 69
3.4.2 可擴展性 70
3.4.3 加速比 70
3.5 本章小結 71
第4章 FIUT算法與頻繁項集并行挖掘 73
4.1 引言 74
4.2 FIUT算法描述 76
4.3 FiDoop算法概述 77
4.4 基于MapReduce的FiDoop算法 81
4.4.1 **個MapReduce作業 83
4.4.2 第二個MapReduce作業 83
4.4.3 第三個MapReduce作業 84
4.5 實現細節 87
4.5.1 負載均衡 87
4.5.2 高維優化 88
4.6 FiDoop-HD算法 90
4.7 實驗評價 92
4.7.1 *小支持度 93
4.7.2 負載均衡 95
4.7.3 加速比 96
4.7.4 可擴展性 97
4.8 本章小結 98
第5章 MapReduce編程模型下的約束頻繁項集并行挖掘算法 101
5.1 問題提出 102
5.2 約束頻繁項集挖掘算法的并行化 103
5.3 基于MapReduce的約束頻繁項集并行挖掘 105
5.4 基于MapReduce的約束頻繁項集并行挖掘算法(PACFP) 108
5.4.1 并行化計數過程 108
5.4.2 并行化CFP-Growth算法 109
5.4.3 結果聚合 111
5.5 負載均衡 111
5.6 實驗結果及分析 112
5.6.1 *小支持度 113
5.6.2 可伸縮性 115
5.6.3 可擴展性 116
5.6.4 約束條件判斷的代價分析 117
5.6.5 負載均衡 118
5.7 本章小結 120
第6章 支持并行頻繁項集挖掘的數據劃分策略 121
6.1 引言 122
6.1.1 FiDoop-DP算法的研發動機 123
6.1.2 FiDoop-DP算法要解決的數據劃分問題 124
6.1.3 FiDoop-DP算法的基本思想 125
6.2 并行FP-Growth算法 126
6.3 相關工作 128
6.3.1 MapReduce下的數據劃分 128
6.3.2 應用系統相關的數據劃分 129
6.4 問題陳述和設計目標 131
6.4.1 基本方法與問題陳述 131
6.4.2 設計目標 132
6.5 數據劃分策略 133
6.5.1 距離度量 134
6.5.2 K-Means算法種子點的選擇 135
6.5.3 劃分策略 135
6.6 實現細節 138
6.7 實驗評價 143
6.7.1 種子點個數對算法的影響 143
6.7.2 *小支持度對算法的影響 145
6.7.3 數據特征對算法的影響 147
6.7.4 加速比 149
6.7.5 可擴展性 150
6.8 本章小結 151
第7章 頻繁項集并行化過程中的重定向任務調度 153
7.1 問題提出 154
7.2 重定向任務調度算法 156
7.2.1 數據本地化的重要性 156
7.2.2 計算響應時間 157
7.2.3 重定向任務調度算法的設計 158
7.3 實驗結果及分析 160
7.3.1 有效性 160
7.3.2 可擴展性 161
7.3.3 穩定性 162
7.4 本章小結 163
第8章 基于Spark內存計算的并行頻繁項集挖掘及優化 165
8.1 引言 166
8.2 FP-Growth 算法的并行化分析 167
8.3 Spark環境下的均衡FP-Growth算法 169
8.3.1 負載均衡的分組策略 169
8.3.2 負載均衡的FP-Growth算法并行化 172
8.4 實驗評價 174
8.4.1 算法執行效率 175
8.4.2 加速比 176
8.4.3 可擴展性 177
8.5 本章小結 178
第三篇 應 用 篇
第9章 冷軋輥加工質量管理過程相關性分析 181
9.1 引言 182
9.2 系統需求與總體設計 184
9.2.1 軋輥生產工藝流程 184
9.2.2 冷軋輥生產質量管理特點 186
9.2.3 系統的軟件體系結構及功能 188
9.3 數據預處理及關鍵技術 190
9.3.1 數據轉換 190
9.3.2 數據清理 190
9.3.3 數據離散化 193
9.4 提取關聯規則 195
9.5 系統實現及運行結果 196
9.6 本章小結 203
附錄A 冷軋輥加工數據 205
附錄B 冷軋輥加工數據預處理格式 207
參考文獻 209
并行數據挖掘及性能優化——關聯規則與數據相關性分析 作者簡介
荀亞玲,女,1980年生,山西臨汾霍州人,博士,現任太原科技大學計算機科學與技術學院副教授。在科研方面一直從事數據挖掘和并行與分布式計算等方面的研究工作。在關聯規則挖掘、天體光譜數據挖掘技術、并行與分布式計算等領域進行了理論和應用研究,已取得了一些階段性的研究成果。先后參與了多項國家自然科學基金、國家"863”高技術發展計劃基金項目子課題。主持國家青年基金項目1項("MapReduce集群環境下的恒星光譜關聯規則挖掘及性能優化”項目(編號:61602335))。在《IEEE Transactions on Systems, Man, and Cybernetics: Systems》、《軟件學報》等國內外期刊上, 已公開發表了第一作者學術論文若干,其中: SCI收錄1篇, EI收錄2篇;在《Soft Computing》、《Knowledge-Based Systems》、《軟件學報》等期刊上,合作發表了論文十余篇;此外,以第一作者撰寫的《FiDoop-DP: Data Partitioning in Frequent Itemset Mining on Hadoop Clusters》論文,已被CCF推薦的A類國際**SCI期刊《IEEE Transactions on Parallel and Distributed Systems 》,于2016年5月錄用。2016年5月,《一種基于云存儲的校園安防系統》獲授權國家專利,專利號:ZL 2015 2 1058772.7。
- >
有舍有得是人生
- >
史學評論
- >
伯納黛特,你要去哪(2021新版)
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
月亮虎
- >
詩經-先民的歌唱
- >
巴金-再思錄