R語言數據挖掘 版權信息
- ISBN:9787111547693
- 條形碼:9787111547693 ; 978-7-111-54769-3
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
R語言數據挖掘 本書特色
本書介紹了關聯規則、分類、聚類分析、異常值探測、數據流挖掘、時間序列、圖形挖掘、網絡分析、文本挖掘和網絡分析等流行的數據挖掘算法,給出了具體算法以及這些算法的偽代碼和R語言實現。本書可以作為統計學、計算機等相關專業高年級本科生或研究生的教材,也可以作為數據分析和挖掘等相關研究人員的參考資料。
R語言數據挖掘 內容簡介
本書介紹了關聯規則、分類、聚類分析、異常值探測、數據流挖掘、時間序列、圖形挖掘、網絡分析、文本挖掘和網絡分析等流行的數據挖掘算法,給出了具體算法以及這些算法的偽代碼和R語言實現。本書可以作為統計學、計算機等相關專業高年級本科生或研究生的教材,也可以作為數據分析和挖掘等相關研究人員的參考資料。
R語言數據挖掘 目錄
目 錄 Contents譯者序作者簡介審校者簡介前言致謝第1章 預備知識 11.1 大數據 21.2 數據源 31.3 數據挖掘 41.3.1 特征提取 41.3.2 總結 41.3.3 數據挖掘過程 51.4 社交網絡挖掘 71.5 文本挖掘 91.5.1 信息檢索和文本挖掘 101.5.2 文本挖掘預測 101.6 網絡數據挖掘 101.7 為什么選擇R 121.8 統計學 121.8.1 統計學與數據挖掘 131.8.2 統計學與機器學習 131.8.3 統計學與R語言 131.8.4 數據挖掘中統計學的局限性 131.9 機器學習 131.9.1 機器學習方法 141.9.2 機器學習架構 141.10 數據屬性與描述 151.10.1 數值屬性 161.10.2 分類屬性 161.10.3 數據描述 161.10.4 數據測量 171.11 數據清洗 181.11.1 缺失值 181.11.2 垃圾數據、噪聲數據或異常值 191.12 數據集成 191.13 數據降維 201.13.1 特征值和特征向量 201.13.2 主成分分析 201.13.3 奇異值分解 201.13.4 CUR分解 211.14 數據變換與離散化 211.14.1 數據變換 211.14.2 標準化數據的變換方法 221.14.3 數據離散化 221.15 結果可視化 231.16 練習 241.17 總結 24第2章 頻繁模式、關聯規則和相關規則挖掘 252.1 關聯規則和關聯模式概述 262.1.1 模式和模式發現 262.1.2 關系或規則發現 292.2 購物籃分析 302.2.1 購物籃模型 312.2.2 Apriori算法 312.2.3 Eclat算法 352.2.4 FP-growth算法 372.2.5 基于*大頻繁項集的GenMax算法 412.2.6 基于頻繁閉項集的Charm算法 432.2.7 關聯規則生成算法 442.3 混合關聯規則挖掘 462.3.1 多層次和多維度關聯規則挖掘 462.3.2 基于約束的頻繁模式挖掘 472.4 序列數據集挖掘 482.4.1 序列數據集 482.4.2 GSP算法 482.5 R語言實現 502.5.1 SPADE算法 512.5.2 從序列模式中生成規則 522.6 高性能算法 522.7 練習 532.8 總結 53第3章 分類 543.1 分類 553.2 通用決策樹歸納法 563.2.1 屬性選擇度量 583.2.2 決策樹剪枝 593.2.3 決策樹生成的一般算法 593.2.4 R語言實現 613.3 使用ID3算法對高額度信用卡用戶分類 613.3.1 ID3算法 623.3.2 R語言實現 643.3.3 網絡攻擊檢測 643.3.4 高額度信用卡用戶分類 663.4 使用C4.5算法進行網絡垃圾頁面檢測 663.4.1 C4.5算法 673.4.2 R語言實現 683.4.3 基于MapReduce的并行版本 693.4.4 網絡垃圾頁面檢測 703.5 使用CART算法判斷網絡關鍵資源頁面 723.5.1 CART算法 733.5.2 R語言實現 743.5.3 網絡關鍵資源頁面判斷 743.6 木馬程序流量識別方法和貝葉斯分類 753.6.1 估計 753.6.2 貝葉斯分類 763.6.3 R語言實現 773.6.4 木馬流量識別方法 773.7 垃圾郵件識別和樸素貝葉斯分類 793.7.1 樸素貝葉斯分類 793.7.2 R語言實現 803.7.3 垃圾郵件識別 803.8 基于規則的計算機游戲玩家類型分類和基于規則的分類 813.8.1 從決策樹變換為決策規則 823.8.2 基于規則的分類 823.8.3 序列覆蓋算法 833.8.4 RIPPER算法 833.8.5 計算機游戲玩家類型的基于規則的分類 853.9 練習 863.10 總結 86第4章 高級分類算法 874.1 集成方法 874.1.1 Bagging算法 884.1.2 Boosting和AdaBoost算法 894.1.3 隨機森林算法 914.1.4 R語言實現 914.1.5 基于MapReduce的并行版本 924.2 生物學特征和貝葉斯信念網絡 924.2.1 貝葉斯信念網絡算法 934.2.2 R語言實現 944.2.3 生物學特征 944.3 蛋白質分類和k近鄰算法 944.3.1 kNN算法 954.3.2 R語言實現 954.4 文檔檢索和支持向量機 954.4.1 支持向量機算法 974.4.2 R語言實現 994.4.3 基于MapReduce的并行版本 994.4.4 文檔檢索 1004.5 基于頻繁模式的分類 1004.5.1 關聯分類 1004.5.2 基于判別頻繁模式的分類 1014.5.3 R語言實現 1014.5.4 基于序列頻繁項集的文本分類 1024.6 基于反向傳播算法的分類 1024.6.1 BP算法 1044.6.2 R語言實現 1054.6.3 基于MapReduce的并行版本 1054.7 練習 1064.8 總結 107第5章 聚類分析 1085.1 搜索引擎和k均值算法 1105.1.1 k均值聚類算法 1115.1.2 核k均值聚類算法 1125.1.3 k模式聚類算法 1125.1.4 R語言實現 1135.1.5 基于MapReduce的并行版本 1135.1.6 搜索引擎和網頁聚類 1145.2 自動提取文檔文本和k中心點算法 1165.2.1 PAM算法 1175.2.2 R語言實現 1175.2.3 自動提取和總結文檔文本 1175.3 CLARA算法及實現 1185.3.1 CLARA算法 1195.3.2 R語言實現 1195.4 CLARANS算法及實現 1195.4.1 CLARANS算法 1205.4.2 R語言實現 1205.5 無監督的圖像分類和仿射傳播聚信息
展開全部
R語言數據挖掘 作者簡介
作者簡介 About the AuthorBater Makhabel(LinkedIn: BATERMJ和GitHub: BATERMJ)為系統構架師,生活在中國北京、上海和烏魯木齊等地。他于1995至2002年之間在清華大學學習,并獲得計算機科學和技術的學士和博士學位。他在機器學習、數據挖掘、自然語言處理(NLP)、分布系統、嵌入系統、網絡、移動平臺、算法、應用數學和統計領域有豐富的經驗。他服務過的客戶包括CA Technologies、META4ALL和EDA(DFR的一家子公司)。同時,他也擁有在中國創辦公司的經歷。 Bater的生活開創性地在計算機科學和人文科學之間取得了平衡。在過去的12年中,他在應用多種先進計算機技術于文化創作方面獲得了經驗,其中一項是人機界面,通過哈薩克語與計算機系統進行交互。他一直和他工作領域中的其他作家有合作,但是本書是他的正式作品。 About the Reviewers 審校者簡介Jason H.D. Cho在伊利諾伊大學香檳分校獲得計算機碩士學位,現在在攻讀博士。他對應用自然語言處理和大數據解決醫學信息問題特別感興趣。尤其是,他希望能在社交媒體上找到病人關心的健康需求。他曾帶領一個學員小組在美國一項主要的保健競賽(CIMIT)中躋身前10名。Jason也為自然語言處理和大數據研究領域的文章進行審稿。 Gururaghav Gopal現在在Paterson證券公司工作,其職位是量化分析員、開發人員、交易員和分析師。以前,他是一個和電商行業相關的數據科學咨詢師。他曾經在印度韋洛爾的韋洛爾理工大學教授大學生和研究生模式識別課程。他曾經在一些研究機構做過研究助理,包括IFMR和NAL。 Gururaghav獲得了電子工程的學士學位、計算機科學和工程的碩士學位,并在IFMR輔修金融工程和風險管理方面的課程。之后,他便在金融相關領域工作。他獲得過多個獎項并以他的名字發表過多篇文章。他對編程、教學和咨詢感興趣。在閑暇時間,他會聽音樂。 Vibhav Kamath獲得了位于孟買的印度理工學院工業工程和運籌學的碩士學位,并具有位于浦那的工學院的電子工程學士學位。大四期間,他對算法和數學模型產生了興趣,從此便進入分析領域。Vibhav現在在班加羅爾的一家IT服務公司工作,其工作的一部分內容是應用R編程語言基于優化和線性回歸技術來開發統計和數學模型。他曾經審閱過Packt出版社出版的兩本R語言圖書:R Graphs Cookbook, Second Edition和Social Media Mining with R,他曾經應用SAS、SQL和Excel/VBA做過數據可視化,為一家銀行開發過儀表盤程序。 過去,Vibhav從事過離散時間仿真和語言處理(均基于MATLAB)等方面的學術工作。他涉獵過機器人領域,建立了一個瀏覽魔方的機器人Micromouse。除了分析和編程之外,Vibhav喜歡閱讀小說類讀物。空閑時,他打乒乓球、板球和網球,實在無聊時就玩田字格游戲(數獨和數謎)。可以通過郵件vibhav.kamath@hotmail.com或者領英in.linkedin.com/in/vibhavkamath與他聯系。 Hasan Kurban于2012年在布盧明頓的印度大學獲得計算機碩士學位,現在在該校的信息與計算機學院攻讀博士學位,專業為計算機科學同時輔修統計學。他的研究方向為數據挖掘、機器學習和統計學。信息