中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

超值優惠券
¥50
滿100可用 有效期2天

全場圖書通用(淘書團除外)

不再提示
關閉
歡迎光臨中圖網 請 | 注冊
> >
探尋數據背后的邏輯:R語言數據挖掘之道

包郵 探尋數據背后的邏輯:R語言數據挖掘之道

作者:宋云生
出版社:電子工業出版社出版時間:2017-05-01
開本: 其他 頁數: 432
中 圖 價:¥61.5(6.9折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

探尋數據背后的邏輯:R語言數據挖掘之道 版權信息

探尋數據背后的邏輯:R語言數據挖掘之道 本書特色

數據分析、數據挖掘的本質是探尋數據背后的邏輯,挖掘人們的欲望、需求、態度等。本書不僅僅教會讀者如何掌握數據挖掘相關技能,更教會讀者如何從數據挖掘結果中分析出更深層次的邏輯。 《探尋數據背后的邏輯:R語言數據挖掘之道》主要介紹使用R語言進行數據挖掘的過程。具體內容包括R軟件的安裝及R語言基礎知識、數據探索、數據可視化、回歸預測分析、時間序列分析、算法選擇流程及十大算法介紹、數據抓取、社交網絡關系分析、情感分析、話題模型、推薦系統,以及數據挖掘在生物信息學中的應用。另外,本書還介紹了R腳本優化相關內容,使讀者的數據挖掘技能更上一層樓。 《探尋數據背后的邏輯:R語言數據挖掘之道》適合從事數據挖掘、數據分析、市場研究的工作者及學生群體,以及對數據挖掘和數據分析感興趣的初級讀者。

探尋數據背后的邏輯:R語言數據挖掘之道 內容簡介

數據分析、數據挖掘的本質是探尋數據背后的邏輯,挖掘人們的欲望、需求、態度等。本書不僅僅教會讀者如何掌握數據挖掘相關技能,更教會讀者如何從數據挖掘結果中分析出更深層次的邏輯。本書主要介紹使用R語言進行數據挖掘的過程。具體內容包括R軟件的安裝及R語言基礎知識、數據探索、數據可視化、回歸預測分析、時間序列分析、算法選擇流程及十大算法介紹、數據抓取、社交網絡關系分析、情感分析、話題模型、推薦系統,以及數據挖掘在生物信息學中的應用。另外,本書還介紹了R腳本優化相關內容,使讀者的數據挖掘技能更上一層樓。本書適合從事數據挖掘、數據分析、市場研究的工作者及學生群體,以及對數據挖掘和數據分析感興趣的初級讀者。

探尋數據背后的邏輯:R語言數據挖掘之道 目錄

第1章 萬事不只開頭難 1
1.1 工欲善其事,必先利其器:安裝 1
1.1.1 安裝R和RStudio 1
1.1.2 安裝數據包 3
1.1.3 數據包加載、卸載、升級,查看幫助文檔 5
1.1.4 什么樣的R包值得相信 7
1.2 了解R的對象 8
1.2.1 如何進行常見的算術運算 8
1.2.2 R語言的三大數據類型 10
1.2.3 向量及其運算 12
1.2.4 因子變量鮮有人知的秘密 15
1.2.5 矩陣相關運算及神奇的特征值 17
1.2.6 數據框及其篩選、替換、添加、排序、去重 18
1.2.7 與數組(array)相比,表單(list)的用處更加廣泛 22
1.2.8 如何進行數據結構之間的轉化 23
1.3 R語言的重器:函數 26
1.3.1 自編函數 26
1.3.2 有用的R字符串函數 29
1.4 控制流在R語言里只是一種輔助工具 31
1.4.1 判斷 32
1.4.2 循環 33
1.5 數據的讀入與輸出 35
1.5.1 常見數據格式的輸入/輸出(CSV、TXT、RDATA、XLSX) 35
1.5.2 數據庫連接:Oracle、MySQL及Hive 37
1.5.3 亂碼就像馬賽克一樣讓人討厭 39

第2章 數據探索,招招都是利器 41
2.1 不要在工作后才認識“臟數據” 41
2.1.1 以老板信服的方式處理缺失數據 42
2.1.2 異常值預警 48
2.1.3 字符處理正則表達式不再是天書 49
2.2 數據透視、數據整形、關聯融合與批量處理 50
2.2.1 還忘不掉Excel的數據透視表嗎 50
2.2.2 你能給數據做整形手術嗎:long型和wide型 52
2.2.3 關聯合并表 54
2.2.4 數據批處理:R語言里*重要的一個函數家族:*pply 55
2.3 一招完成數據探索報告 58
2.4 拯救你的很多時候是基礎理論 61
2.4.1 參數檢驗及非參檢驗 62
2.4.2 學了很多算法卻忘了方差分析 68
2.4.3 多因素方差分析及協方差作用 70
2.4.4 很多熟悉的數據處理方法已經成笑話,工具箱該換了 73

第3章 從商務氣質的數據可視化說起 84
3.1 說說數據可視化的專業素養 84
3.1.1 數據可視化歷史上有多少背影等你仰望 84
3.1.2 商務圖表應該具有哪些素質 87
3.1.3 那些你不知道的圖表誤導性伎倆 94
3.1.4 如何快速解構著名雜志的圖表 98
3.2 ggplot2包:一個價值8萬美元的態度 103
3.2.1 一張圖學會ggplot2包的繪圖原理 105
3.2.2 基礎繪圖科學:ggplot2包的主題函數繼承關系圖(關系網絡圖) 127
3.2.3 基礎圖表一網打盡 132
3.2.4 古老的地圖煥發新顏 151
3.3 將靜態圖轉為D3交互圖表:plotly 156
3.4 從基礎到進階的變形圖表 157
3.4.1 馬賽克圖(分類變量描述性分析) 157
3.4.2 Sankey圖和chordDiagram圖 158

第4章 分位數回歸模擬股票指數風險通道 163
4.1 用線性回歸預測醫院的藥品銷售額 163
4.2 多項式回歸及常見回歸方程的書寫 168
4.3 Lasso回歸和回歸評價的常見指標 170
4.4 分位數回歸擬合上證指數風險通道 175

第5章 時間序列分析 181
5.1 時間序列分析:分析帶有時間屬性的數列 181
5.2 不是所有序列都叫時間序列 181
5.3 時間序列三件寶:趨勢、周期、隨機波動 183
5.3.1 趨勢 183
5.3.2 周期 184
5.3.3 隨機波動 186
5.4 預測分析 186
5.4.1 指數平滑法 186
5.4.2 ARIMA模型預測 188

第6章 選擇什么算法也有一套流程 192
6.1 重新審視一下這幾個模型 192
6.1.1 Logistic回歸 192
6.1.2 我要的不是一棵樹,而是整座森林:隨機森林 195
6.1.3 神奇的神經網絡 196
6.2 銀行信用卡評估模型之變量篩選 197
6.2.1 變量構建 197
6.2.2 Logistic回歸變量篩選 198
6.2.3 隨機森林變量篩選 203
6.2.4 人工神經網絡建模 204
6.3 必須面對的模型評估 204

第7章 深入淺出十大算法 208
7.1 C5.0算法 208
7.1.1 一個重要的概念:信息熵 208
7.1.2 非列變量選擇的實例 209
7.1.3 C5.0算法的R實現 210
7.2 K-means算法 212
7.2.1 K-means算法的R實現 212
7.2.2 怎么確定聚類數 213
7.3 支持向量機(SVM)算法 213
7.3.1 通俗理解SVM 214
7.3.2 SVM的R實現 216
7.4 Apriori算法 216
7.4.1 舉例說明Apriori 217
7.4.2 Apriori算法的R實現 219
7.5 EM算法 220
7.5.1 舉例說明EM算法 221
7.5.2 EM算法的R實現 222
7.6 PageRank算法 223
7.7 AdaBoost算法 224
7.8 KNN算法與K-means算法有什么不同 226
7.9 Naive Bayes(樸素貝葉斯)算法 227
7.10 CART算法 228

第8章 數據抓取 231
8.1 數據挖掘工程師不可抱怨“巧婦難為無米之炊” 231
8.2 抓取股市龍虎榜數據,碰碰運氣 232
8.2.1 了解XML和Html樹狀結構,才能庖丁解牛 233
8.2.2 了解RCurl包和網頁解析函數 234
8.2.3 抓取股票龍虎榜 235
8.2.4 資金流入分析 237
8.3 抓取某家醫藥信息網站全站藥品銷售數據 240
8.3.1 所有醫藥公司名稱一網打盡 240
8.3.2 為什么抓取數據時可以使用For循環 242
8.3.3 不要把代碼寫復雜 244
8.3.4 用Sankey數據流描繪醫藥市場份額流動 248

第9章 不可不說的社交網絡關系 254
9.1 社交網絡圖 254
9.1.1 社交網絡圖告訴你和誰交朋友 254
9.1.2 這幾個基本概念你需要抓牢 256
9.1.3 還有比本章任務更有趣的數據挖掘嗎 259
9.2 你還要裝備幾個評價指標 260
9.2.1 社交網絡大小 260
9.2.2 社交網絡關系的完備性 261
9.2.3 節點實力評價 262
9.3 全球某貨物貿易中的親密關系 263
9.3.1 全球某貨物貿易數據整合清洗 263
9.3.2 分組和社交網絡中心 267
9.3.3 全球某貨物交易圈:尋找各自的小伙伴 270
9.4 中國電影演藝圈到底有沒有“圈” 276
9.4.1 數據清洗與整形 276
9.4.2 看看演藝圈長什么樣 279
9.4.3 誰才是演藝圈的“關系戶” 281
9.4.4 用Apriori算法查查演藝圈合作的“朋友”關系 283
9.4.5 給范冰冰推薦合作伙伴 284

第10章 情感分析:一種準確率高達90%的新方法? 287
10.1 情感分析及其應用:這是老生常談 287
10.1.1 情感分析的用途 287
10.1.2 情感分析的方法論 288
10.1.3 有關情感分析的一些知識和方向 289
10.2 文本分析的基本武器:R 290
10.2.1 RJava包配置 290
10.2.2 Rwordseg包安裝 291
10.2.3 jieba分詞包安裝 291
10.3 基于詞典的情感分析的效果好過瞎猜嗎 292
10.3.1 數據整理及詞典構建 292
10.3.2 分詞整理 297
10.3.3 情感指數計算 299
10.3.4 方法評價:優、缺點分析 300
10.4 監督式情感分析:挑選訓練數據集是所有人心中的痛 301
10.4.1 TFIDF指標 301
10.4.2 構建語料庫 302
10.4.3 隨機森林模型 304
10.4.4 算法評估:隨機森林應該建多少棵樹 308
10.5 一種準確率高達90%的新方法 316
10.5.1 拿來主義的啟示 316
10.5.2 情感詞典和規則構建 317
10.5.3 樸素貝葉斯情感分析器 329
10.5.4 支持向量機(SVM)、決策樹等情感分析器 330
10.5.5 如何選擇支持SVM的核函數 339
10.5.6 情感分類器方法評價 343
10.6 談談情感分析的下一步思考 344

第11章 話題模型:很多牛人過不去的坎兒 346
11.1 話題模型與文案文本集 346
11.1.1 任務仍然是以處理dirty data 開始 347
11.1.2 數據清洗 348
11.2 話題模型中幾個重要的數據處理步驟 350
11.2.1 中文分詞 350
11.2.2 數據整型 352
11.2.3 怎樣設定“閾值” 353
11.3 上帝有多少個色子:話題數量估計 356
11.3.1 通俗地說一遍話題模型 356
11.3.2 主題數估計與交叉檢驗 357
11.3.3 如何使用復雜度、對數似然值確定主題數 362
11.4 LDA話題模型竟然能輸出這么多關系 368
11.4.1 輸出主題——詞匯及其概率矩陣 368
11.4.2 輸出主題——文檔歸屬及其概率矩陣 369
11.5 話題之間也有社交(衍生)關系嗎 370
11.6 話題模型的幾個強大衍生品 372
11.6.1 話題模型提取特征詞 372
11.6.2 三種方法確定聚類的類數和文本層次聚類 373
11.6.3 漂亮的文本聚類樹和批量繪制大類詞云圖 375

第12章 排名就是簡單的推薦系統嗎? 378
12.1 全球宜居城市綜合實力排行 378
12.1.1 綜合實力排行:專家法VS數據驅動法 379
12.1.2 怎么比較兩個排名結果 382
12.2 協同過濾推薦系統 383
12.2.1 基于商品的協同過濾系統(ItemCF) 386
12.2.2 基于用戶的系統過濾系統(UserCF) 388
12.2.3 推薦系統效果評比 390

第13章 生物信息學中的數據挖掘案例 392
13.1 生物信息學與R語言 392
13.2 生物信息學中常用的軟件包 392
13.2.1 軟件包簡介 392
13.2.2 數據表示方式——對象類(class) 393
13.2.3 生物信息學R包簡介:Bioconductor和CRAN 393
13.2.4 ape包 394
13.2.5 讀懂你的對象 404
13.2.6 修改工具包中的函數以適應新情況 407

第14章 產品化:關于內存、速度和自動化 411
14.1 不同終端調用、自動化執行R腳本及參數傳遞 411
14.2 與速度、內存、并行相關的程序優化 414
展開全部

探尋數據背后的邏輯:R語言數據挖掘之道 作者簡介

宋云生,中山大學生命科學學院碩士畢業,混跡于醫藥商業、汽車制造等多個行業,先后從事市場研究、BI(商業智能)、質量控制等多個領域的數據研究和落地應用,現主攻自然語言理解領域的實際應用。 張堅洪,華南農業大學數學與應用數學本科畢業,先后從事汽車、金融等行業,主要工作方向為數據倉庫、數據挖掘在互聯網金融領域的應用。 黎新年,中山大學生命科學學院博士畢業,主要研究方向為基因組的進化、群體演化和系統發育。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 杭州画室_十大画室_白墙画室_杭州美术培训_国美附中培训_附中考前培训_升学率高的画室_美术中考集训美术高考集训基地 | 电地暖-电采暖-发热膜-石墨烯电热膜品牌加盟-暖季地暖厂家 | 二手回收公司_销毁处理公司_设备回收公司-找回收信息网 | TPM咨询,精益生产管理,5S,6S现场管理培训_华谋咨询公司 | 铝单板_铝窗花_铝单板厂家_氟碳包柱铝单板批发价格-佛山科阳金属 | 拖鞋定制厂家-品牌拖鞋代加工厂-振扬实业中国高端拖鞋大型制造商 | 郑州水质检测中心_井水检测_河南废气检测_河南中环嘉创检测 | 医学动画公司-制作3d医学动画视频-医疗医学演示动画制作-医学三维动画制作公司 | 铝箔袋,铝箔袋厂家,东莞铝箔袋,防静电铝箔袋,防静电屏蔽袋,防静电真空袋,真空袋-东莞铭晋让您的产品与众不同 | Type-c防水母座|贴片母座|耳机接口|Type-c插座-深圳市步步精科技有限公司 | 土壤水分自动监测站-SM150便携式土壤水分仪-铭奥仪器 | 合肥弱电工程_安徽安防工程_智能化工程公司-合肥雷润 | 点焊机-缝焊机-闪光对焊机-电阻焊设备生产厂家-上海骏腾发智能设备有限公司 | 四川实木门_成都实木门 - 蓬溪聚成门业有限公司 | 汽车整车综合环境舱_军标砂尘_盐雾试验室试验箱-无锡苏南试验设备有限公司 | 菲希尔X射线测厚仪-菲希尔库伦法测厚仪-无锡骏展仪器有限责任公司 | 100_150_200_250_300_350_400公斤压力空气压缩机-舰艇航天配套厂家 | 阜阳在线-阜阳综合门户 | 电磁铁_小型推拉电磁铁_电磁阀厂家-深圳市宗泰电机有限公司 | 低压载波电能表-单相导轨式电能表-华邦电力科技股份有限公司-智能物联网综合管理平台 | 紧急泄压人孔_防爆阻火器_阻火呼吸阀[河北宏泽石化] | 背压阀|减压器|不锈钢减压器|减压阀|卫生级背压阀|单向阀|背压阀厂家-上海沃原自控阀门有限公司 本安接线盒-本安电路用接线盒-本安分线盒-矿用电话接线盒-JHH生产厂家-宁波龙亿电子科技有限公司 | 茶楼装修设计_茶馆室内设计效果图_云臻轩茶楼装饰公司 | 光栅尺_Magnescale探规_磁栅尺_笔式位移传感器_苏州德美达 | 100国际学校招生 - 专业国际学校择校升学规划 | 3d可视化建模_三维展示_产品3d互动数字营销_三维动画制作_3D虚拟商城 【商迪3D】三维展示服务商 广东健伦体育发展有限公司-体育工程配套及销售运动器材的体育用品服务商 | 网站建设,北京网站建设,北京网站建设公司,网站系统开发,北京网站制作公司,响应式网站,做网站公司,海淀做网站,朝阳做网站,昌平做网站,建站公司 | 聚合氯化铝-碱式氯化铝-聚合硫酸铁-聚氯化铝铁生产厂家多少钱一吨-聚丙烯酰胺价格_河南浩博净水材料有限公司 | 大立教育官网-一级建造师培训-二级建造师培训-造价工程师-安全工程师-监理工程师考试培训 | 工业冷却塔维修厂家_方形不锈钢工业凉水塔维修改造方案-广东康明节能空调有限公司 | YT保温材料_YT无机保温砂浆_外墙保温材料_南阳银通节能建材高新技术开发有限公司 | 北钻固控设备|石油钻采设备-石油固控设备厂家 | 数显水浴恒温振荡器-分液漏斗萃取振荡器-常州市凯航仪器有限公司 | 无锡网站建设-做网站-建网站-网页设计制作-阿凡达建站公司 | 根系分析仪,大米外观品质检测仪,考种仪,藻类鉴定计数仪,叶面积仪,菌落计数仪,抑菌圈测量仪,抗生素效价测定仪,植物表型仪,冠层分析仪-杭州万深检测仪器网 | 山东聚盛新型材料有限公司-纳米防腐隔热彩铝板和纳米防腐隔热板以及钛锡板、PVDF氟膜板供应商 | 杭州中央空调维修_冷却塔/新风机柜/热水器/锅炉除垢清洗_除垢剂_风机盘管_冷凝器清洗-杭州亿诺能源有限公司 | 对照品_中药对照品_标准品_对照药材_「格利普」高纯中药标准品厂家-成都格利普生物科技有限公司 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库 | 合景一建-无尘车间设计施工_食品医药洁净车间工程装修总承包公司 | 薪动-人力资源公司-灵活用工薪资代发-费用结算-残保金优化-北京秒付科技有限公司 | 郑州墨香品牌设计公司|品牌全案VI设计公司 |