數據挖掘:概念、模型、方法和算法 版權信息
- ISBN:9787302307143
- 條形碼:9787302307143 ; 978-7-302-30714-3
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
數據挖掘:概念、模型、方法和算法 本書特色
隨著數據集規模和復雜度的持續上升,分析員必須利用更高級的軟件工具來執行間接的、自動的智能化數據分析。《數據挖掘:概念、模型、方法和算法(第2版)》介紹了通過分析高維數據空間中的海量原始數據來提取用于決策的新信息的尖端技術和方法。 本書開篇闡述數據挖掘原理,此后在示例的引導下詳細講解起源于統計學、機器學習、神經網絡、模糊邏輯和演化計算等學科的具有代表性的、*前沿的挖掘方法和算法。本書還著重描述如何恰當地選擇方法和數據分析軟件并合理地調整參數。每章末尾附有復習題。 本書主要用作計算機科學、計算機工程和計算機信息系統專業的研究生數據挖掘教材,高年級本科生或具備同等教育背景的讀者也完全可以理解本書的所有主題。本書特色◆ 介紹支持向量機(SVM)和Kohonen映射◆ 講解DBSCAN、BIRCH和分布式DBSCAN聚類算法◆ 介紹貝葉斯網絡,討論圖形中的Betweeness和Centrality參數測量算法◆ 分析在建立決策樹時使用的CART算法和基尼指數◆ 介紹Bagging & Boosting集成學習方法,并詳述AdaBoost算法◆ 討論Relief以及PageRank算法◆ 討論文本挖掘的潛在語義分析(LSA),并分析如何測定文本文檔之間的語義相似性◆ 講解時態、空間、Web、文本、并行和分布式數據挖掘等新主題◆ 更詳細地講解數據挖掘技術商業、隱私、安全和法律方面的內容
數據挖掘:概念、模型、方法和算法 內容簡介
從《數據挖掘:概念、模型、方法和算法》第1 版出版以來的7年中,數據挖掘領域在開發新技術和拓展其應用范圍方面有了長足的進步。正是數據挖掘領域中的這些變化,令筆者下定決心修訂本書的第1 版,出版第2版。本版的核心內容并沒有改變,但匯總了這個快速變化的領域中的*進展,呈現了數據挖掘在學術研究和商業應用領域的*尖端技術。與第1 版相比,*顯著的變化是添加了如下內容:??一些新主題,例如集成學習、圖表挖掘、時態、空間、分布式和隱私保護等的數據挖掘;??一些新算法,例如分類遞歸樹(CART),DBSCAN (Density-Based Spatial Clustering of Applications with Noise)、BIRCH(Balanced and Iterative Reducing and Clustering Using Hierarchies)、PageRank、AdaBoost、支持向量機(SVM)、Kohonen 自組織映射(SOM)和潛在語義索引(LSI);??詳細介紹數據挖掘過程的實用方面和商用理解,討論驗證、部署、數據理解、因果關系、安全和隱私等重要問題;??比較數據挖掘模型的一些量化方式方法,如ROC 曲線、增益圖、ROI 圖、McNemar測試和K 折交叉驗證成對t 測試。
數據挖掘:概念、模型、方法和算法 目錄
目 錄第1章 數據挖掘的概念 11.1 概述 11.2 數據挖掘的起源 31.3 數據挖掘過程 41.4 大型數據集 71.5 數據倉庫 101.6 數據挖掘的商業方面:為什么數據挖掘項目會失敗 131.7 本書結構安排 151.8 復習題 161.9 參考書目 17第2章 數據準備 192.1 原始數據的表述 192.2 原始數據的特性 232.3 原始數據的轉換 242.3.1 標準化 242.3.2 數據平整 252.3.3 差值和比率 252.4 丟失數據 262.5 時間相關數據 272.6 異常點分析 302.7 復習題 352.8 參考書目 38第3章 數據歸約 413.1 大型數據集的維度 413.2 特征歸約 433.2.1 特征選擇 443.2.2 特征提取 483.3 Relief算法 503.4 特征排列的熵度量 513.5 主成分分析 533.6 值歸約 553.7 特征離散化:ChiMerge技術 583.8 案例歸約 613.9 復習題 633.10 參考書目 64第4章 從數據中學習 674.1 學習機器 684.2 統計學習原理 724.3 學習方法的類型 754.4 常見的學習任務 774.5 支持向量機 804.6 kNN:*近鄰分類器 904.7 模型選擇與泛化 924.8 模型的評估 954.9 90%準確的情形 1004.9.1 保險欺詐檢測 1014.9.2 改進心臟護理 1024.10 復習題 1034.11 參考書目 104第5章 統計方法 1075.1 統計推斷 1075.2 評測數據集的差異 1095.3 貝葉斯定理 1125.4 預測回歸 1145.5 方差分析 1185.6 對數回歸 1205.7 對數-線性模型 1215.8 線性判別分析 1245.9 復習題 1265.10 參考書目 128第6章 決策樹和決策規則 1316.1 決策樹 1326.2 C4.5算法:生成決策樹 1346.3 未知屬性值 1396.4 修剪決策樹 1426.5 C4.5算法:生成決策規則 1436.6 CART算法和Gini指標 1466.7 決策樹和決策規則的局限性 1486.8 復習題 1506.9 參考書目 153第7章 人工神經網絡 1557.1 人工神經元的模型 1567.2 人工神經網絡的結構 1597.3 學習過程 1617.4 使用ANN完成的學習任務 1647.4.1 模式聯想 1647.4.2 模式識別 1647.5 多層感知機 1667.6 競爭網絡和競爭學習 1727.7 SOM 1747.8 復習題 1787.9 參考書目 180第8章 集成學習 1838.1 集成學習方法論 1848.2 多學習器組合方案 1878.3 bagging和boosting 1888.4 AdaBoost算法 1898.5 復習題 1908.6 參考書目 193第9章 聚類分析 1959.1 聚類的概念 1959.2 相似度的度量 1989.3 凝聚層次聚類 2039.4 分區聚類 2069.5 增量聚類 2089.6 DBSCAN算法 2119.7 BIRCH 算法 2139.8 聚類驗證 2159.9 復習題 2159.10 參考書目 218第10章 關聯規則 22110.1 購物籃分析 22210.2 Apriori 算法 22310.3 從頻繁項集中得到關聯規則 22510.4 提高Apriori算法的效率 22610.5 FP增長方法 22710.6 關聯分類方法 22910.7 多維關聯規則挖掘 23110.8 復習題 23210.9 參考書目 236第11章 Web挖掘和文本挖掘 23711.1 Web挖掘 23711.2 Web內容、結構與使用挖掘 23811.3 HITS和LOGSOM算法 24011.4 挖掘路徑遍歷模式 24511.5 PageRank算法 24711.6 文本挖掘 24911.7 潛在語義分析 25211.8 復習題 25511.9 參考書目 257第12章 數據挖掘高級技術 25912.1 圖挖掘 25912.2 時態數據挖掘 27012.2.1 時態數據表示 27112.2.2 序列之間的相似性度量 27412.2.3 時態數據模型 27612.2.4 數據挖掘 27712.3 空間數據挖掘(SDM) 28112.4 分布式數據挖掘(DDM) 28412.5 關聯并不意味著存在因果關系 29012.6 數據挖掘的隱私、安全及法律問題 29512.7 復習題 29912.8 參考書目 300第13章 遺傳算法 30313.1 遺傳算法的基本原理 30413.2 用遺傳算法進行優化 30513.2.1 編碼方案和初始化 30613.2.2 適合度估計 30613.2.3 選擇 30713.2.4 交叉 30813.2.5 突變 30813.3 遺傳算法的簡單例證 31013.3.1 表述 31013.3.2 初始群體 31113.3.3 評價 31113.3.4 交替 31213.3.5 遺傳算子 31213.3.6 評價(第二次迭代) 31313.4 圖式 31413.5 旅行推銷員問題 31613.6 使用遺傳算法的機器學習 31813.6.1 規則交換 32013.6.2 規則概化 32013.6.3 規則特化 32113.6.4 規則分割 32113.7 遺傳算法用于聚類 32113.8 復習題 32313.9 參考書目 324第14章 模糊集和模糊邏輯 32714.1 模糊集 32714.2 模糊集的運算 33214.3 擴展原理和模糊關系 33514.4 模糊邏輯和模糊推理系統 33914.5 多因子評價 34214.6 從數據中提取模糊模型 34414.7 數據挖掘和模糊集 34914.8 復習題 35014.9 參考書目 352第15章 可視化方法 35315.1 感知和可視化 35315.2 科學可視化和信息可視化 35415.3 平行坐標 35915.4 放射性可視化 36115.5 使用自組織映射進行可視化 36315.6 數據挖掘的可視化系統 36515.7 復習題 36815.8 參考書目 369附錄A 數據挖掘工具 371附錄B 數據挖掘應用 393
展開全部
數據挖掘:概念、模型、方法和算法 作者簡介
Mehmed Kantardzic博士是美國路易維爾大學工學院計算機工程與科學系的教授,任該系的研究生院院長和數據挖掘實驗室主任。Mehmed是IEEE、ISCA和SPIE的成員,曾受邀參加多個重要的學術會議;他已出版多本書籍,在許多期刊上發表過論文,其中有多篇論文獲獎。