-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
數據挖掘 版權信息
- ISBN:9787121335310
- 條形碼:9787121335310 ; 978-7-121-33531-0
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
數據挖掘 本書特色
中國大數據專家委員會劉鵬教授聯合全國上百家高校從事一線教學科研任務的教師,一起編撰高級大數據人才培養從書。本書是叢書之一,其定位是大數據挖掘技術與應用。本書系統地介紹了數據挖掘算法理論與方法、工具和應用,包括經典數據挖掘算法,大數據環境下常用數據挖掘算法的優化,大數據新常態下催生的數據分析方法(如推薦系統、鏈接分析與網頁排序、互聯網信息抽取、日志挖掘與查詢分析)、工具與應用。本書適合作為相關專業本科和研究生教材。高職高專學校也可以選用部分內容開展教學。本書也很適合作為大數據分析研發人員的自學書籍。
數據挖掘 內容簡介
短短幾年間,大數據就以一日千里的發展速度,快速實現了從概念到落地,直接帶
動了相關產業井噴式發展。全球多家研究機構統計數據顯示,大數據產業將迎來發展黃
金期:IDC 預計,大數據和分析市場將從2016 年的1300 億美元增長到2020 年的2030
億美元以上;中國報告大廳發布的大數據行業報告數據也說明,自2017 年起,我國大數據
產業將迎來發展黃金期,未來2~3 年的市場規模增長率將保持在35%左右。
數據采集、數據存儲、數據挖掘、數據分析等大數據技術在越來越多的行業中得到
應用,隨之而來的就是大數據人才問題的凸顯。麥肯錫預測,每年數據科學專業的應屆
畢業生將增加7%,然而僅高質量項目對于專業數據科學家的需求每年就會增加12%,完
全供不應求。根據《人民日報》的報道,未來3~5 年,中國需要180 萬數據人才,但目
前只有約30 萬人,人才缺口達到150 萬之多。
以貴州大學為例,其首屆大數據專業研究生就業率就達到100%,可以說“一搶而空”。
急切的人才需求直接催熱了大數據專業,國家教育部正式設立“數據科學與大數據技術”
本科新專業。目前已經有兩批共計35 所大學獲批,包括北京大學、中南大學、對外經
濟貿易大學、中國人民大學、北京郵電大學、復旦大學等。估計2018 年會有幾百所高
校獲批。
不過,就目前而言,在大數據人才培養和大數據課程建設方面,大部分高校仍然處
于起步階段,需要探索的還有很多。首先,大數據是個新生事物,懂大數據的老師少之總序
短短幾年間,大數據就以一日千里的發展速度,快速實現了從概念到落地,直接帶
動了相關產業井噴式發展。全球多家研究機構統計數據顯示,大數據產業將迎來發展黃
金期:IDC 預計,大數據和分析市場將從2016 年的1300 億美元增長到2020 年的2030
億美元以上;中國報告大廳發布的大數據行業報告數據也說明,自2017 年起,我國大數據
產業將迎來發展黃金期,未來2~3 年的市場規模增長率將保持在35%左右。
數據采集、數據存儲、數據挖掘、數據分析等大數據技術在越來越多的行業中得到
應用,隨之而來的就是大數據人才問題的凸顯。麥肯錫預測,每年數據科學專業的應屆
畢業生將增加7%,然而僅高質量項目對于專業數據科學家的需求每年就會增加12%,完
全供不應求。根據《人民日報》的報道,未來3~5 年,中國需要180 萬數據人才,但目
前只有約30 萬人,人才缺口達到150 萬之多。
以貴州大學為例,其首屆大數據專業研究生就業率就達到100%,可以說“一搶而空”。
急切的人才需求直接催熱了大數據專業,國家教育部正式設立“數據科學與大數據技術”
本科新專業。目前已經有兩批共計35 所大學獲批,包括北京大學、中南大學、對外經
濟貿易大學、中國人民大學、北京郵電大學、復旦大學等。估計2018 年會有幾百所高
校獲批。
不過,就目前而言,在大數據人才培養和大數據課程建設方面,大部分高校仍然處
于起步階段,需要探索的還有很多。首先,大數據是個新生事物,懂大數據的老師少之
又少,院校缺“人”;其次,尚未形成完善的大數據人才培養和課程體系,院校缺“機制”;
再次,大數據實驗需要為每位學生提供集群計算機,院校缺“機器”;*后,院校沒有海
量數據,開展大數據教學科研工作缺“原材料”。
其實,早在網格計算和云計算興起時,我國科技工作者就曾遇到過類似的挑戰,我
有幸參與了這些問題的解決過程。為了解決網格計算問題,我在清華大學讀博期間,于
2001 年創辦了中國網格信息中轉站網站,每天花幾個小時收集和分享有價值的資料給學
術界,此后我也多次籌辦和主持全國性的網格計算學術會議,進行信息傳遞與知識分享。
2002 年,我與其他專家合作的《網格計算》教材也正式面世。
2008 年,當云計算開始萌芽之時,我創辦了中國云計算網站(chinacloud.cn)(在各
大搜索引擎“云計算”關鍵詞中排名*),2010 年出版了《云計算(*版)》、2011
年出版了《云計算(第二版)》、2015 年出版了《云計算(第三版)》,每一版都花費了大
量成本制作并免費分享對應的幾十個教學PPT。目前,這些PPT 的下載總量達到了幾百
萬次之多。同時,《云計算》教材也成為國內高校的*教材,在CNKI 公布的高被引圖
書名單中,對于2010 年以來出版的所有圖書,《云計算(*版)》在自動化和計算機領域
排名全國*。除了資料分享,在2010 年,我也在南京組織了全國高校云計算師資培訓
班,培養了國內*批云計算老師,并通過與華為、中興、360 等知名企業合作,輸出云
計算技術,培養云計算研發人才。這些工作獲得了大家的認可與好評,此后我接連擔任
了工信部云計算研究中心專家、中國云計算專家委員會云存儲組組長等職位。
近幾年,面對日益突出的大數據發展難題,我也正在嘗試使用此前類似的辦法去應
對這些挑戰。為了解決大數據技術資料缺乏和交流不夠通透的問題,我于2013 年創辦了
中國大數據網站(thebigdata.cn),投入大量的人力進行日常維護,該網站目前已經在各
大搜索引擎的“大數據”關鍵詞排名中位居*;為了解決大數據師資匱乏的問題,我
面向全國院校陸續舉辦多期大數據師資培訓班。2016 年末至今,在南京多次舉辦全國高
校/高職/中職大數據免費培訓班,基于《大數據》《大數據實驗手冊》以及云創大數據提
供的大數據實驗平臺,幫助到場老師們跑通了Hadoop、Spark 等多個大數據實驗,使他
們跨過了“從理論到實踐,從知道到用過”的門檻。2017 年5 月,還舉辦了全國千所高
校大數據師資免費講習班,盛況空前。
其中,為了解決大數據實驗難的問題而開發的大數據實驗平臺,正在為越來越多高
校的教學科研帶去方便:2016 年,我帶領云創大數據(www.cstor.cn,股票代碼:835305)
的科研人員,應用Docker 容器技術,成功開發了BDRack 大數據實驗一體機,它打破虛
擬化技術的性能瓶頸,可以為每一位參加實驗的人員虛擬出Hadoop 集群、Spark 集群、
Storm 集群等,自帶實驗所需數據,并準備了詳細的實驗手冊(包含42 個大數據實驗)、
PPT 和實驗過程視頻,可以開展大數據管理、大數據挖掘等各類實驗,并可進行精確營
銷、信用分析等多種實戰演練。目前,大數據實驗平臺已經在鄭州大學、西京學院、鄭
州升達經貿管理學院、鎮江高等職業技術學校等多所院校成功應用,并廣受校方好評。
該平臺也以云服務的方式在線提供(大數據實驗平臺,https://bd.cstor.cn),幫助師生通過
自學,用一個月左右成為大數據動手的高手。
同時,為了解決缺乏權威大數據教材的問題,我所負責的南京大數據研究院,聯合
金陵科技學院、河南大學、云創大數據、中國地震局等多家單位,歷時兩年,編著出版
了適合本科教學的《大數據》《大數據庫》《大數據實驗手冊》等教材。另外,《數據挖掘》
《虛擬化與容器》《大數據可視化》《深度學習》等本科教材也將于近期出版。在大數據教
學中,本科院校的實踐教學應更加系統性,偏向新技術的應用,且對工程實踐能力要求
更高。而高職、高專院校則更偏向于技術性和技能訓練,理論以夠用為主,學生將主要
從事數據清洗和運維方面的工作。基于此,我們還聯合多家高職院校專家準備了《云計
算基礎》《大數據基礎》《數據挖掘基礎》《R 語言》《數據清洗》《大數據系統運維》《大
數據實踐》系列教材,目前也已經陸續進入定稿出版階段。
此外,我們也將繼續在中國大數據(thebigdata.cn)和中國云計算(chinacloud.cn)
等網站免費提供配套PPT 和其他資料。同時, 持續開放大數據實驗平臺
(https://bd.cstor.cn)、免費的物聯網大數據托管平臺萬物云(wanwuyun.com)和環境大數
據免費分享平臺環境云(envicloud.cn),使資源與數據隨手可得,讓大數據學習變得更加
輕松。
在此,特別感謝我的碩士導師謝希仁教授和博士導師李三立院士。謝希仁教授所著
的《計算機網絡》已經更新到第7 版,與時俱進且日臻完美,時時提醒學生要以這樣的
標準來寫書。李三立院士是留蘇博士,為我國計算機事業做出了杰出貢獻,曾任國家攀
登計劃項目首席科學家。他的嚴謹治學帶出了一大批杰出的學生。
本叢書是集體智慧的結晶,在此謹向付出辛勤勞動的各位作者致敬!書中難免會有
不當之處,請讀者不吝賜教。我的郵箱:gloud@126.com,微信公眾號:劉鵬看未來
(lpoutlook)。
劉鵬 教授
于南京大數據研究院
前言
21 世紀初,人類邁入大數據時代,各行各業擁抱大數據,希冀借大數據挖掘與分
析來促進產業升級與變革。因此,大數據人才的需求呈現井噴之勢。
中國云計算專家咨詢委員會秘書長劉鵬教授順勢而為,周密思考,提出高級大數據
人才培養課程體系,并邀請全國上百家高校中從事一線教學科研任務的教師一起,編撰
高級大數據人才培養叢書。本書即該套叢書之一。
本書的定位是大數據挖掘技術與應用。以“讓學習變得輕松”為根本出發點,本書
努力回答:數據挖掘是什么?發展如何?經典的數據挖掘算法有哪些?大數據環境下數
據挖掘有哪些新特點和新延展?如何分析實際問題,如何應用?本書編寫的指導思想有
三:一是理論與應用相呼應。從數據挖掘算法理論與方法、工具和應用兩方面進行闡述,
既注重理論,同時貼近實戰,解行結合,希望學習者既能很快將理論應用于實際領域的
數據分析中,同時也具備厚積薄發的能力;二是基礎與發展一脈相承。大數據新常態下
經典數據挖掘的基本原理仍然適用,不同之處在于,根據現有分布式、并行環境,對原
有算法進行優化。本書擬循序漸進地介紹經典數據挖掘算法,以及大數據環境下數據挖
掘算法的新特點和新延展,有助于學習者全面掌握數據挖掘理論;三是局部與全局整體
聯動。本書屬于高級大數據人才培養叢書系列教材,因此,在本書內容組織上,需要考
慮與叢書其他教材的關系,既緊密聯系又自成一體,共同組成高級大數據人才培養課程
體系。
基于上述指導思想,本書內容分為四部分:一是概念與基礎,見第1 章緒論和第2
章;二是經典的數據挖掘算法,見第3 章分類、第4 章回歸、第5 章聚類和第6 章關聯
規則;三是大數據挖掘技術,其中,第7 章重點介紹了大數據環境下經典數據挖掘算法
的優化與改進,第8 章介紹了推薦系統的理論與方法,第9 章則對鏈接分析與網頁排序、
互聯網信息抽取、日志挖掘與查詢分析等技術進行了介紹;四是常用數據挖掘工具(包),
見附錄。
本書成稿過程中得到叢書主編劉鵬教授和叢書副主編金陵科技學院張燕副院長的大
力支持,在書稿提綱和內容組織上提出了諸多建設性意見。同時,兩輪審稿評審專家對
本書給予了全面指導和幫助,在此一并致謝。
當前,大數據挖掘技術仍處在高速發展的歷史階段,其概念內涵、技術方法、應用
模式還在不斷創新演化之中,由于時間和水平所限,本書還存在缺點和不足,歡迎大家
不吝賜教。
數據挖掘 目錄
1.1 數據挖掘基本概念 ··································································································1
1.1.1 數據挖掘的概念 ··························································································1
1.1.2 大數據環境下的數據挖掘 ···········································································2
1.1.3 數據挖掘的特性 ··························································································3
1.1.4 數據挖掘的過程 ··························································································3
1.2 數據挖掘起源及發展歷史 ······················································································4
1.3 數據挖掘常用工具 ··································································································7
1.3.1 商用工具 ······································································································7
1.3.2 開源工具 ······································································································8
1.4 數據挖掘應用場景 ································································································ 10
習題 ································································································································ 12
參考文獻 ························································································································ 13
第2 章 數據預處理與相似性 ····························································································· 14
2.1 數據類型 ··············································································································· 14
2.1.1 屬性與度量 ································································································ 14
2.1.2 數據集的類型 ···························································································· 15
2.2 數據預處理 ··········································································································· 16
2.2.1 數據清理 ···································································································· 16
2.2.2 數據集成 ···································································································· 18
2.2.3 數據規范化 ································································································ 19
2.2.4 數據約簡 ···································································································· 20
2.2.5 數據離散化 ································································································ 22
2.3 數據的相似性 ······································································································· 23
2.3.1 數值屬性的相似性度量 ············································································· 23
2.3.2 標稱屬性的相似性度量 ············································································· 26
2.3.3 組合異種屬性的相似性度量 ····································································· 27
2.3.4 文檔相似性度量 ························································································ 28
2.3.5 離散序列相似性度量 ················································································· 30
習題 ································································································································ 31
參考文獻 ························································································································ 32
第3 章 分類 ························································································································ 33
3.1 分類的基本概念、分類過程及分類器性能的評估 ············································· 33
3.1.1 分類的基本概念 ························································································ 33
3.1.2 分類的過程 ································································································ 33
3.1.3 分類器性能的評估方法 ············································································· 34
3.2 決策樹 ···········································································
數據挖掘 作者簡介
1995年在重慶大學獲得學士學位,2003年在中國人民解放軍后勤工程學院獲得碩士學位,2012年在清華大學獲得博士學位,現于中國人民解放軍陸軍勤務學院任教,副教授、碩導。計算機科學與技術學科、后勤信息化學科中青年骨干。主(持)研科研項目35項,其中,主持國家級科研項目1項、軍隊(省部級)6項。發表論文40余篇,SCI收錄期刊論文2篇(1作)、EI收錄論文10篇(1作6篇)。出版專著3本,獲國家發明專利3項。獲教育部科技進步一等獎1項,多次榮獲學院優秀教員榮譽稱號、學院教學研究成果獎和教學質量獎。
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
煙與鏡
- >
羅庸西南聯大授課錄
- >
推拿
- >
名家帶你讀魯迅:朝花夕拾
- >
我與地壇
- >
山海經
- >
中國人在烏蘇里邊疆區:歷史與人類學概述