中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
大話數據科學:大數據與機器學習實戰(基于R語言)

包郵 大話數據科學:大數據與機器學習實戰(基于R語言)

作者:陳文賢
出版社:清華大學出版社出版時間:2020-07-01
開本: 其他 頁數: 382
中 圖 價:¥63.7(5.0折) 定價  ¥128.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

大話數據科學:大數據與機器學習實戰(基于R語言) 版權信息

  • ISBN:9787302551300
  • 條形碼:9787302551300 ; 978-7-302-55130-0
  • 裝幀:一般純質紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

大話數據科學:大數據與機器學習實戰(基于R語言) 本書特色

數據科學作為一門新興的學科,正在高速發展并落地應用。當前的各行各業都充滿了數據,這些數據的類型多種多樣,不僅包括傳統的結構化數據,也包括網頁、文本、圖像、視頻、語音等非結構化數據。 數據科學涵蓋的體系甚廣,對某一領域進行數據科學研究,首先要研究該領域(比如生物信息學、天體信息學、數字地球等)的特性,然后通過包括統計學、機器學習、數據挖掘、數據庫等技術從中分析出需要的結果。這些學科都是數據科學的重要組成部分,只有把它們有機地整合在一起,才能形成整個數據科學的全貌。 陳文賢老師作為數據科學的早期探索者,積累了大量科研經驗,*為難得的是,陳老師擅用與科班教材截然不同的方式把包羅萬象的數據科學細節逐步分解,娓娓道來,再用多年積累的實際案例把理論串聯起來,從中再佐以大家耳熟能詳的案例(如武俠場景、生活場景),把艱深晦澀、邏輯復雜的問題剖析地如水銀瀉地般流暢。 由于數據科學的特性,我們在策劃階段便確認彩色印刷,以便可以*精準地講解和分析各種圖表和代碼。另外,陳老師針對全書脈絡,每章都提供了學習地圖,確保讀者學習過程中不會迷失。

大話數據科學:大數據與機器學習實戰(基于R語言) 內容簡介

本書以獨特的方式講解數據科學,不僅讓讀者可以輕松學習數據科學理論,又可以動手(手算和機算)進行數據科學實戰。本書特色:全彩印刷,圖形、表格、思維導圖豐富;避免深奧的數學證明,采用簡單的數學說明;用各種學習圖將本書內容貫穿起來;實戰計算,包含小型數據的演算和大型數據的實戰程序。 本書共13章,內容涵蓋豐富的數據科學模型,包含關聯分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等算法。利用小數據例題介紹計算步驟,同時用R語言驗證計算結果。另外,也有大數據的案例數據,例如:推薦系統、支持向量機、集成學習等。另外,本書只有大數據的案例數據用R語言計算。 本書適合各個專業領域(包含金融、電商、保險、互聯網等行業)想掌握數據科學的讀者,也可以作為高校、社會培訓機構教材。由于內容比較多,教師可自行選擇教學內容。

大話數據科學:大數據與機器學習實戰(基于R語言) 目錄

**篇 基礎篇

第1章 大數據概述 3

1.1 大數據與相關學科的定義 4

1.1.1 大數據的定義 4

1.1.2 數據挖掘 6

1.1.3 數據挖掘標準過程 7

1.1.4 機器學習 9

1.1.5 知識管理 12

1.1.6 數據科學 14

1.1.7 商業智能 15

1.1.8 人工智能 17

1.1.9 統計學與大數據比較 19

1.1.10 數據名詞的定義 21

1.2 系統與模型概念 22

1.2.1 系統定義與成分 22

1.2.2 輸入,處理,輸出與黑箱 23

1.2.3 環境 24

1.2.4 反饋 25

1.2.5 效率與效果 25

1.2.6 模型與建模 26

1.2.7 模型的假定與參數 27

1.2.8 敏感,穩健或魯棒 28

1.2.9 模型的過擬合 28

1.3 大數據分析模型的分類 30

1.3.1 后設模型 30

1.3.2 關系與因果 31

1.3.3 基于因果關系的統計學分類 32

1.3.4 基于因果關系的大數據分類 32

1.3.5 基于數據類型的分類 34

1.3.6 基于測量的分類 35

1.3.7 數據科學模型的其他分類 36

1.4 大數據的江湖傳奇 36

1.5 R語言“詞云圖”代碼 40

1.6 本章思維導圖 42

第2 章 大數據與R 語言 43

2.1 大數據進位 44

2.2 R語言介紹 45

2.2.1 安裝 R 語言軟件 45

2.2.2 下載R語言程序包 45

2.3 R數據對象的屬性與結構 46

2.3.1 數值 47

2.3.2 整數 47

2.3.3 字符串 47

2.3.4 邏輯 47

2.3.5 向量 48

2.3.6 因子 49

2.3.7 矩陣 50

2.3.8 數據框 52

2.3.9 數組 52

2.3.10 列表 53

2.3.11 時間序列 54

2.3.12 訪問數據類型和結構 54

2.3.13 遺失值 55

2.3.14 讀入Excel CSV數據 55

2.3.15 編輯數據 55

2.3.16 保存Excel CSV數據 55

2.3.17 數據輸入窗口 56

2.3.18 R 的數據結構和函數表 56

2.4 R的函數包 56

2.5 R的數據繪圖 59

2.6 本章思維導圖 64

第二篇 非監督式學習
第3 章 關聯分析 67

3.1 關聯分析介紹 68

3.1.1 事務與項目的定義 68

3.1.2 項集的關聯規則 69

3.2 關聯規則數據格式 71

3.3 關聯規則的算法 72

3.3.1 Apriori算法 73

3.3.2 關聯規則其他測度值 74

3.3.3 負關聯規則 75

3.4 關聯規則的優點和缺點 76

3.4.1 Apriori算法的優點 76

3.4.2 Apriori算法的缺點 76

3.4.3 關聯規則的評估 76

3.5 關聯規則的實例計算 77

3.5.1 尿布與啤酒 77

3.5.2 豆漿、燒餅與飯團 79

3.5.3 評估與應用 82

3.6 R語言實戰 82

3.6.1 泰坦尼克號 82

3.6.2 商店數據 86

3.6.3 食品雜貨數據 90

3.6.4 人口收入數據 92

3.6.5 鳶尾花數據 93

3.7 本章思維導圖 96

第4 章 聚類分析 97

4.1 聚類分析介紹 98

4.2 距離與相似度衡量 99

4.2.1 數值數據距離 99

4.2.2 標準化與歸一化 100

4.2.3 0-1數據距離和相似度 100

4.2.4 混合數據的距離 102

4.2.5 顧客數據的距離 102

4.2.6 距離和相似度的轉換 104

4.2.7 計算距離的R函數 104

4.3 層次聚類分析 106

4.3.1 兩類連接 106

4.3.2 顧客數據的聚類 107

4.3.3 層次聚類的優點和缺點 110

4.4 非層次聚類分析 110

4.4.1 K-mean聚類 110

4.4.2 PAM 聚類 112

4.4.3 K-mean聚類的優點和缺點 113

4.5 聚類分析的評價 113

4.6 R語言實戰 115

4.6.1 歐洲語言的聚類 115

4.6.2 美國電力公司數據 118

4.6.3 歐州人蛋白質數據 120

4.6.4 紅酒數據 124

4.6.5 汽車數據 126

4.7 本章思維導圖 128

第5 章 降維分析 129

5.1 降維分析介紹 130

5.2 主成分分析 131

5.2.1 主成分分析的計算理論 132

5.2.2 主成分分析的計算步驟 134

5.2.3 主成分分析的優點和缺點 134

5.3 R語言程序 135

5.4 R語言實戰 138

5.4.1 鳶尾花數據 138

5.4.2 美國罪犯數據 138

5.4.3 美國法官數據 145

5.4.4 國家冰球聯盟資料 146

5.4.5 美國職業棒球數據 149

5.4.6 早餐麥片數據 151

5.4.7 紅酒數據 151

5.4.8 心理學數據 152

5.5 本章思維導圖 154

第三篇 監督式學習
第6 章 模型選擇與評價 157

6.1 模型選擇與評價步驟 158

6.2 大數據的抽樣方法 159

6.2.1 保留方法抽樣 160

6.2.2 自助抽樣法 162

6.2.3 632自助法 163

6.2.4 過采樣 164

6.3 交叉驗證 165

6.3.1 k-折交叉驗證 165

6.3.2 留一交叉驗證 166

6.4 模型選擇 167

6.4.1 參數和非參數學習 168

6.4.2 偏差和方差 169

6.4.3 模型的復雜度 170

6.4.4 正則化 171

6.4.5 認真學習和懶惰學習 171

6.5 模型評價 172

6.5.1 二元0-1分類器的評價——混淆矩陣 172

6.5.2 混淆矩陣的舉例說明 174

6.5.3 二元分類器的成本計算 176

6.5.4 二元分類器例題數據R語言 176

6.5.5 多標簽分類器的評價 179

6.5.6 多標簽分類器評價R 語言 181

6.5.7 交叉驗證分類的評價 183

6.5.8 分類學習的ROC曲線 183

6.5.9 連續型目標變量回歸模型的評價 187

6.6 R語言實戰 189

6.6.1 R語言自動調模與調參 189

6.6.2 汽車數據 190

6.6.3 乳腺癌診斷數據 190

6.7 本章思維導圖 192

第7 章 回歸分析 193

7.1 多元線性回歸 194

7.1.1 多元線性回歸模型 194

7.1.2 參數估計 195

7.1.3 適合性檢驗 196

7.1.4 實例計算 197

7.1.5 R語言的實例計算 199

7.2 變量(特征)選擇 200

7.2.1 偏相關系數 200

7.2.2 逐步回歸 203

7.2.3 部分子集回歸 204

7.2.4 壓縮方法 205

7.3 Logistic邏輯回歸 207

7.4 R語言實戰 209

7.4.1 股票數據 209

7.4.2 乳腺癌病理數據 210

7.4.3 醫療保險數據 213

7.4.4 棒球數據 215

7.4.5 波士頓房價數據 218

7.4.6 皮瑪數據 221

7.5 本章思維導圖 224

第8 章 近鄰法 225

8.1 學習器 226

8.1.1 認真學習器和懶惰學習器 226

8.1.2 基于實例學習器 227

8.1.3 參數學習器和非參數學習器 228

8.2 近鄰法介紹 229

8.2.1 k-近鄰法算法步驟 229

8.2.2 k-近鄰法分類器 230

8.2.3 k-近鄰法回歸 231

8.2.4 自變量是分類變量 232

8.3 近鄰法的優點和缺點 232

8.4 R語言實戰 233

8.4.1 食材數據 233

8.4.2 鳶尾花數據 234

8.4.3 乳癌檢查數據 236

8.4.4 美國總統候選人數據 238

8.4.5 玻璃數據 240

8.4.6 波士頓房價數據 241

8.4.7 皮瑪數據 242

8.5 本章思維導圖 244

第9 章 貝葉斯分類 245

9.1 貝葉斯公式 246

9.2 貝葉斯分類 247

9.2.1 樸素貝葉斯分類 247

9.2.2 特征值是連續變量 248

9.2.3 樸素貝葉斯分類的優點和缺點 249

9.3 貝葉斯分類的實例計算 249

9.3.1 天氣和打網球 249

9.3.2 驗前概率與似然概率 251

9.3.3 拉普拉斯校準 251

9.3.4 R 語言實例計算 252

9.4 R語言實戰 255

9.4.1 泰坦尼克號數據 255

9.4.2 鳶尾花數據 256

9.4.3 垃圾郵件數據 258

9.4.4 皮瑪數據 261

9.5 本章思維導圖 262

第10 章 決策樹 263

10.1 決策樹概述 264

10.1.1 圖形表示 264

10.1.2 邏輯表示 265

10.1.3 規則表示 265

10.1.4 數學公式表示 265

10.2 決策樹的信息計算 266

10.2.1 信息計算 266

10.2.2 熵與信息 267

10.2.3 信息增益 267

10.2.4 信息增益比 268

10.2.5 基尼系數與基尼增益 268

10.2.6 卡方統計量 269

10.2.7 分枝法則的選擇 269

10.2.8 回歸樹 269

10.3 決策樹的實例計算 270

10.4 決策樹的剪枝 277

10.4.1 貪婪算法 277

10.4.2 決策樹剪枝 278

10.5 決策樹的優點和缺點 279

10.6 R語言實戰 280

10.6.1 決策樹R語言包 280

10.6.2 打網球數據 280

10.6.3 泰坦尼克號數據 283

10.6.4 鳶尾花數據 284

10.6.5 皮瑪數據 289

10.6.6 汽車座椅銷售數據 292

10.6.7 波士頓房價數據 295

10.6.8 貓數據 297

10.6.9 駝背數據 300

10.6.10 美國總統選舉投票數據 301

10.6.11 員工離職數據 302

10.7 本章思維導圖 306

第11 章 支持向量機 307

11.1 支持向量機概述 308

11.2 *大間隔分類(硬間隔) 310

11.3 支持向量分類(軟間隔) 311

11.4 支持向量機(核函數) 313

11.4.1 支持向量機的核函數 313

11.4.2 多元分類支持向量機 315

11.5 支持向量機的優點和缺點 315

11.6 支持向量機R語言應用 316

11.6.1 隨機正態分布數據線性核函數 317

11.6.2 隨機正態分布數據徑向基核函數 318

11.6.3 三分類數據徑向基核函數 321

11.7 R語言實戰 322

11.7.1 基因表達數據 322

11.7.2 鳶尾花數據 322

11.7.3 貓數據 323

11.7.4 皮瑪數據 325

11.7.5 字符數據 328

11.7.6 玻璃數據 329

11.8 本章思維導圖 332

第12 章 集成學習 333

12.1 集成學習介紹 334

12.2 個別分類方法評價 335

12.3 Bagging學習 337

12.4 隨機森林 338

12.4.1 隨機森林介紹 338

12.4.2 隨機森林算法步驟 339

12.4.3 R 語言 339

12.4.4 隨機森林的優點和缺點 340

12.4.5 非監督式學習-鳶尾花數據 340

12.4.6 美國大學數據 341

12.5 Boosting學習 342

12.6 Stacking學習 343

12.6.1 皮瑪數據 343

12.6.2 員工離職數據 344

12.7 R語言實戰 345

12.7.1 紅酒數據 345

12.7.2 信用數據 347

12.7.3 皮瑪數據 348

12.7.4 波士頓房價數據 349

12.7.5 汽車座椅數據 352

12.7.6 顧客流失數據 353

12.8 本章思維導圖 356

第13 章 推薦系統 357

13.1 推薦系統概述 358

13.2 過濾推薦 359

13.2.1 相似度 360

13.2.2 基于用戶的協同過濾 360

13.2.3 基于項目的協同過濾 361

13.2.4 協同過濾的評價 362

13.2.5 協同過濾的優點和缺點 363

13.2.6 混合的推薦機制 364

13.3 R語言應用 365

13.3.1 推薦系統R語言包 365

13.3.2 recommenderlab 函數程序 366

13.3.3 模擬數據 367

13.4 R語言實戰 369

13.4.1 電影數據 369

13.4.2 笑話數據 373

13.5 本章思維導圖 378
結語 379
參考文獻 381

展開全部

大話數據科學:大數據與機器學習實戰(基于R語言) 作者簡介

陳文賢,美國加州大學伯克利分校工業工程博士,歷任:臺大信息管理系教授兼系主任、美國雪城Syracuse大學客座教授、澳大利亞悉尼科技大學UTS客座教授、臺北德明財經科技大學信息管理系特聘教授。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 浴室柜-浴室镜厂家-YINAISI · 意大利设计师品牌 | 咿耐斯 |-浙江台州市丰源卫浴有限公司 | 阻垢剂,反渗透阻垢剂,缓蚀阻垢剂-山东普尼奥水处理科技有限公司 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 环氧树脂地坪_防静电地坪漆_环氧地坪漆涂料厂家-地壹涂料地坪漆 环球电气之家-中国专业电气电子产品行业服务网站! | 快速门厂家-快速卷帘门-工业快速门-硬质快速门-西朗门业 | 400电话_400电话申请_866元/年_【400电话官方业务办理】-俏号网 3dmax渲染-效果图渲染-影视动画渲染-北京快渲科技有限公司 | 桑茶-七彩贝壳桑叶茶 长寿茶 | 联系我们老街华纳娱乐公司官网19989979996(客服) | 造价工程师网,考试时间查询,报名入口信息-网站首页 | 篮球架_乒乓球台_足球门_校园_竞技体育器材_厂家_价格-沧州浩然体育器材有限公司 | 商用绞肉机-熟肉切片机-冻肉切丁机-猪肉开条机 - 广州市正盈机械设备有限公司 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 立式硫化罐-劳保用品硫化罐-厂家直销-山东鑫泰鑫硫化罐厂家 | 贝壳粉涂料-内墙腻子-外墙腻子-山东巨野七彩贝壳漆业中心 | 瓶盖扭矩测试仪-瓶盖扭力仪-全自动扭矩仪-济南三泉中石单品站 | 鹤壁创新仪器公司-全自动量热仪,定硫仪,煤炭测硫仪,灰熔点测定仪,快速自动测氢仪,工业分析仪,煤质化验仪器 | 蜘蛛车-高空作业平台-升降机-高空作业车租赁-臂式伸缩臂叉装车-登高车出租厂家 - 普雷斯特机械设备(北京)有限公司 | 发电机价格|发电机组价格|柴油发电机价格|柴油发电机组价格网 | 滚塑PE壳体-PE塑料浮球-警示PE浮筒-宁波君益塑业有限公司 | 翰墨AI智能写作助手官网_人工智能问答在线AI写作免费一键生成 | 杭州公司变更法人-代理记账收费价格-公司注销代办_杭州福道财务管理咨询有限公司 | 机房监控|动环监控|动力环境监控系统方案产品定制厂家 - 迈世OMARA | 工业冷却塔维修厂家_方形不锈钢工业凉水塔维修改造方案-广东康明节能空调有限公司 | 河南正规膏药生产厂家-膏药贴牌-膏药代加工-修康药业集团官网 | 焦作网 WWW.JZRB.COM| 汽车水泵_汽车水泵厂家-瑞安市骏迪汽车配件有限公司 | 南京泽朗生物科技有限公司-液体饮料代加工_果汁饮料代加工_固体饮料代加工 | 移动机器人产业联盟官网| 新密高铝耐火砖,轻质保温砖价格,浇注料厂家直销-郑州荣盛窑炉耐火材料有限公司 | 成都亚克力制品,PVC板,双色板雕刻加工,亚克力门牌,亚克力标牌,水晶字雕刻制作-零贰捌广告 | 丽陂特官网_手机信号屏蔽器_Wifi信号干扰器厂家_学校考场工厂会议室屏蔽仪 | 雷蒙磨,雷蒙磨粉机,雷蒙磨机 - 巩义市大峪沟高峰机械厂 | 心肺复苏模拟人|医学模型|急救护理模型|医学教学模型上海康人医学仪器设备有限公司 | 天津仓库出租网-天津电商仓库-天津云仓一件代发-【博程云仓】 | 消泡剂-水处理消泡剂-涂料消泡剂-切削液消泡剂价格-东莞德丰消泡剂厂家 | 厂房出租_厂房出售_产业园区招商_工业地产 - 中工招商网 | 包头市鑫枫装饰有限公司 | VI设计-LOGO设计公司-品牌设计公司-包装设计公司-导视设计-杭州易象设计 | 收录网| 电缆故障测试仪_电缆故障定位仪_探测仪_检测仪器_陕西意联电气厂家 | SRRC认证|CCC认证|CTA申请_IMEI|MAC地址注册-英利检测 | 北京浩云律师事务所-企业法律顾问_破产清算等公司法律服务 |