中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >>
Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn)

包郵 Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn)

作者:林大貴著
出版社:清華大學(xué)出版社出版時(shí)間:2018-01-01
開本: 32開 頁數(shù): 519
中 圖 價(jià):¥49.5(5.0折) 定價(jià)  ¥99.0 登錄后可看到會(huì)員價(jià)
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>
買過本商品的人還買了

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 版權(quán)信息

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 本書特色

本書從淺顯易懂的“大數(shù)據(jù)和機(jī)器學(xué)習(xí)”原理說明入手,講述大數(shù)據(jù)和機(jī)器學(xué)習(xí)的基本概念,如分類、分析、訓(xùn)練、建模、預(yù)測、機(jī)器學(xué)習(xí)(推薦引擎)、機(jī)器學(xué)習(xí)(二元分類)、機(jī)器學(xué)習(xí)(多元分類)、機(jī)器學(xué)習(xí)(回歸分析)和數(shù)據(jù)可視化應(yīng)用等。書中不僅加入了新近的大數(shù)據(jù)技術(shù),還豐富了“機(jī)器學(xué)習(xí)”內(nèi)容。 為降低讀者學(xué)習(xí)大數(shù)據(jù)技術(shù)的門檻,書中提供了豐富的上機(jī)實(shí)踐操作和范例程序詳解,展示了如何在單機(jī)Windows系統(tǒng)上通過Virtual Box虛擬機(jī)安裝多機(jī)Linux虛擬機(jī),如何建立Hadoop集群,再建立Spark開發(fā)環(huán)境。書中介紹搭建的上機(jī)實(shí)踐平臺(tái)并不限制于單臺(tái)實(shí)體計(jì)算機(jī)。對于有條件的公司和學(xué)校,參照書中介紹的搭建過程,同樣可以實(shí)現(xiàn)將自己的平臺(tái)搭建在多臺(tái)實(shí)體計(jì)算機(jī)上,以便更加接近于大數(shù)據(jù)和機(jī)器學(xué)習(xí)真實(shí)的運(yùn)行環(huán)境。 本書非常適合于學(xué)習(xí)大數(shù)據(jù)基礎(chǔ)知識(shí)的初學(xué)者閱讀,更適合正在學(xué)習(xí)大數(shù)據(jù)理論和技術(shù)的人員作為上機(jī)實(shí)踐用的教材。

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 內(nèi)容簡介

1.Hadoop集群安裝與分散式運(yùn)算和存儲(chǔ)介紹通過實(shí)機(jī)操作,學(xué)會(huì)如何安裝Virtual Box、Ubuntu Linux、Hadoop單機(jī)與多臺(tái)機(jī)器集群安裝,并學(xué)會(huì)使用HDFS分散式存儲(chǔ)與MapReduce分散式運(yùn)算。2.Python Spark 2.0安裝通過實(shí)機(jī)操作,學(xué)會(huì)安裝Spark 2.0,并在本機(jī)與多臺(tái)機(jī)器集群執(zhí)行Python Spark應(yīng)用程序。同時(shí)介紹如何在iPython Notebook互動(dòng)界面執(zhí)行Python Spark指令。安裝eclipse整合開發(fā)界面,開發(fā)Python Spark應(yīng)用程序,大幅提升程序開發(fā)生產(chǎn)力。3.Python Spark SQL、DataFrame數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)可視化Spark SQL 即使非程序設(shè)計(jì)人員,只需要懂得SQL語法,就可以使用。DataFrame API 可使用類SQL的方法,如select()、groupby()、count(),很容易進(jìn)行統(tǒng)計(jì),大幅降低大數(shù)據(jù)分析的學(xué)習(xí)門檻。Spark DataFrame可轉(zhuǎn)換為Pandas DataFrame,運(yùn)用Python豐富的數(shù)據(jù)可視化組件(例如matplotlib)進(jìn)行數(shù)據(jù)可視化。4.Python Spark MLlib機(jī)器學(xué)習(xí)以大數(shù)據(jù)分析實(shí)際案例MoiveLens、StumbleUpon、CovType、BikeSharing介紹如何使用Python Spark運(yùn)用機(jī)器學(xué)習(xí)演算法進(jìn)行數(shù)據(jù)處理、訓(xùn)練、建立模型、訓(xùn)練驗(yàn)證找出*模型、預(yù)測結(jié)果。5.Python Spark ML Pipeline機(jī)器學(xué)習(xí)流程以大數(shù)據(jù)實(shí)際案例示范使用Python Spark ML Pipeline機(jī)器學(xué)習(xí)流程進(jìn)行二元分類、多元分類、回歸分析,將機(jī)器學(xué)習(xí)的每一個(gè)步驟建立成Pipeline流程:數(shù)據(jù)處理 →運(yùn)算法訓(xùn)練數(shù)據(jù)→建立模型→找出*模型→預(yù)測結(jié)果。Spark ML Pipeline 通過內(nèi)建數(shù)據(jù)處理模塊與機(jī)器學(xué)習(xí)運(yùn)算法,減輕數(shù)據(jù)分析師在程序設(shè)計(jì)上的負(fù)擔(dān)。

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 目錄

目 錄 第1章 Python Spark機(jī)器學(xué)習(xí)與Hadoop大數(shù)據(jù) 1 1.1 機(jī)器學(xué)習(xí)的介紹 2 1.2 Spark的介紹 5 1.3 Spark數(shù)據(jù)處理 RDD、DataFrame、Spark SQL 7 1.4 使用Python開發(fā) Spark機(jī)器學(xué)習(xí)與大數(shù)據(jù)應(yīng)用 8 1.5 Python Spark 機(jī)器學(xué)習(xí) 9 1.6 Spark ML Pipeline機(jī)器學(xué)習(xí)流程介紹 10 1.7 Spark 2.0的介紹 12 1.8 大數(shù)據(jù)定義 13 1.9 Hadoop 簡介 14 1.10 Hadoop HDFS分布式文件系統(tǒng) 14 1.11 Hadoop MapReduce的介紹 17 1.12 結(jié)論 18 第2章 VirtualBox虛擬機(jī)軟件的安裝 19 2.1 VirtualBox的下載和安裝 20 2.2 設(shè)置VirtualBox存儲(chǔ)文件夾 23 2.3 在VirtualBox創(chuàng)建虛擬機(jī) 25 2.4 結(jié)論 29 第3章 Ubuntu Linux 操作系統(tǒng)的安裝 30 3.1 Ubuntu Linux 操作系統(tǒng)的安裝 31 3.2 在Virtual設(shè)置Ubuntu虛擬光盤文件 33 3.3 開始安裝Ubuntu 35 3.4 啟動(dòng)Ubuntu 40 3.5 安裝增強(qiáng)功能 41 3.6 設(shè)置默認(rèn)輸入法 45 3.7 設(shè)置“終端”程序 48 3.8 設(shè)置“終端”程序?yàn)榘椎缀谧? 49 3.9 設(shè)置共享剪貼板 50 3.10 設(shè)置*佳下載服務(wù)器 52 3.11 結(jié)論 56 第4章 Hadoop Single Node Cluster的安裝 57 4.1 安裝JDK 58 4.2 設(shè)置SSH無密碼登錄 61 4.3 下載安裝Hadoop 64 4.4 設(shè)置Hadoop環(huán)境變量 67 4.5 修改Hadoop配置設(shè)置文件 69 4.6 創(chuàng)建并格式化HDFS目錄 73 4.7 啟動(dòng)Hadoop 74 4.8 打開Hadoop Resource-Manager Web界面 76 4.9 NameNode HDFS Web界面 78 4.10 結(jié)論 79 第5章 Hadoop Multi Node Cluster的安裝 80 5.1 把Single Node Cluster復(fù)制到data1 83 5.2 設(shè)置VirtualBox網(wǎng)卡 84 5.3 設(shè)置data1服務(wù)器 87 5.4 復(fù)制data1服務(wù)器到data2、data3、master 94 5.5 設(shè)置data2服務(wù)器 97 5.6 設(shè)置data3服務(wù)器 100 5.7 設(shè)置master服務(wù)器 102 5.8 master連接到data1、data2、data3 創(chuàng)建HDFS目錄 107 5.9 創(chuàng)建并格式化NameNode HDFS目錄 110 5.10 啟動(dòng)Hadoop Multi Node Cluster 112 5.11 打開Hadoop ResourceManager Web界面 114 5.12 打開NameNode Web界面 115 5.13 停止Hadoop Multi Node Cluster 116 5.14 結(jié)論 116 第 6 章 Hadoop HDFS命令 117 6.1 啟動(dòng)Hadoop Multi-Node Cluster 118 6.2 創(chuàng)建與查看HDFS目錄 120 6.3 從本地計(jì)算機(jī)復(fù)制文件到HDFS 122 6.4 將HDFS上的文件復(fù)制到本地計(jì)算機(jī) 127 6.5 復(fù)制與刪除HDFS文件 129 6.6 在Hadoop HDFS Web用戶界面瀏覽HDFS 131 6.7 結(jié)論 134 第7章 Hadoop MapReduce 135 7.1 簡單介紹WordCount.java 136 7.2 編輯WordCount.java 137 7.3 編譯WordCount.java 141 7.4 創(chuàng)建測試文本文件 143 7.5 運(yùn)行WordCount.java 145 7.6 查看運(yùn)行結(jié)果 146 7.7 結(jié)論 147 第8章 Python Spark的介紹與安裝 148 8.1 Scala的介紹與安裝 150 8.2 安裝Spark 153 8.3 啟動(dòng)pyspark交互式界面 156 8.4 設(shè)置pyspark顯示信息 157 8.5 創(chuàng)建測試用的文本文件 159 8.6 本地運(yùn)行pyspark程序 161 8.7 在Hadoop YARN運(yùn)行pyspark 163 8.8 構(gòu)建Spark Standalone Cluster運(yùn)行環(huán)境 165 8.9 在Spark Standalone運(yùn)行pyspark 171 8.10 Spark Web UI界面 173 8.11 結(jié)論 175 第9章 在 IPython Notebook 運(yùn)行 Python Spark 程序 176 9.1 安裝Anaconda 177 9.2 在IPython Notebook使用Spark 180 9.3 打開IPython Notebook筆記本 184 9.4 插入程序單元格 185 9.5 加入注釋與設(shè)置程序代碼說明標(biāo)題 186 9.6 關(guān)閉IPython Notebook 188 9.7 使用IPython Notebook在Hadoop YARN-client模式運(yùn)行 189 9.8 使用IPython Notebook在Spark Stand Alone模式運(yùn)行 192 9.9 整理在不同的模式運(yùn)行IPython Notebook的命令 194 9.9.1 在 Local 啟動(dòng) IPython Notebook 195 9.9.2 在Hadoop YARN-client 模式啟動(dòng) IPython Notebook 195 9.9.3 在Spark Stand Alone 模式啟動(dòng) IPython Notebook 195 9.10 結(jié)論 196 第10章 Python Spark RDD 197 10.1 RDD的特性 198 10.2 開啟IPython Notebook 199 10.3 基本RDD“轉(zhuǎn)換”運(yùn)算 201 10.4 多個(gè)RDD“轉(zhuǎn)換”運(yùn)算 206 10.5 基本“動(dòng)作”運(yùn)算 208 10.6 RDD Key-Value 基本“轉(zhuǎn)換”運(yùn)算 209 10.7 多個(gè)RDD Key-Value“轉(zhuǎn)換”運(yùn)算 212 10.8 Key-Value“動(dòng)作”運(yùn)算 215 10.9 Broadcast 廣播變量 217 10.10 accumulator累加器 220 10.11 RDD Persistence持久化 221 10.12 使用Spark創(chuàng)建WordCount 223 10.13 Spark WordCount詳細(xì)解說 226 10.14 結(jié)論 228 第11章 Python Spark的集成開發(fā)環(huán)境 229 11.1 下載與安裝eclipse Scala IDE 232 11.2 安裝PyDev 235 11.3 設(shè)置字符串替代變量 240 11.4 PyDev 設(shè)置 Python 鏈接庫 243 11.5 PyDev設(shè)置anaconda2鏈接庫路徑 245 11.6 PyDev設(shè)置Spark Python鏈接庫 247 11.7 PyDev設(shè)置環(huán)境變量 248 11.8 新建PyDev項(xiàng)目 251 11.9 加入WordCount.py程序 253 11.10 輸入WordCount.py程序 254 11.11 創(chuàng)建測試文件并上傳至HDFS目錄 257 11.12 使用spark-submit執(zhí)行WordCount程序 259 11.13 在Hadoop YARN-client上運(yùn)行WordCount程序 261 11.14 在Spark Standalone Cluster上運(yùn)行WordCount程序 264 11.15 在eclipse外部工具運(yùn)行Python Spark程序 267 11.16 在eclipse運(yùn)行spark-submit YARN-client 273 11.17 在eclipse運(yùn)行spark-submit Standalone 277 11.18 結(jié)論 280 第12章 Python Spark創(chuàng)建推薦引擎 281 12.1 推薦算法介紹 282 12.2 “推薦引擎”大數(shù)據(jù)分析使用場景 282 12.3 ALS推薦算法的介紹 283 12.4 如何搜索數(shù)據(jù) 285 12.5 啟動(dòng)IPython Notebook 289 12.6 如何準(zhǔn)備數(shù)據(jù) 290 12.7 如何訓(xùn)練模型 294 12.8 如何使用模型進(jìn)行推薦 295 12.9 顯示推薦的電影名稱 297 12.10 創(chuàng)建Recommend項(xiàng)目 299 12.11 運(yùn)行RecommendTrain.py 推薦程序代碼 302 12.12 創(chuàng)建Recommend.py推薦程序代碼 304 12.13 在eclipse運(yùn)行Recommend.py 307 12.14 結(jié)論 310 第13章 Python Spark MLlib決策樹二元分類 311 13.1 決策樹介紹 312 13.2 “StumbleUpon Evergreen”大數(shù)據(jù)問題 313 13.2.1 Kaggle網(wǎng)站介紹 313 13.2.2 “StumbleUpon Evergreen”大數(shù)據(jù)問題場景分析 313 13.3 決策樹二元分類機(jī)器學(xué)習(xí) 314 13.4 如何搜集數(shù)據(jù) 315 13.4.1 StumbleUpon數(shù)據(jù)內(nèi)容 315 13.4.2 下載 StumbleUpon 數(shù)據(jù) 316 13.4.3 用LibreOffice Calc 電子表格查看train.tsv 319 13.4.4 復(fù)制到項(xiàng)目目錄 322 13.5 使用IPython Notebook示范 323 13.6 如何進(jìn)行數(shù)據(jù)準(zhǔn)備 324 13.6.1 導(dǎo)入并轉(zhuǎn)換數(shù)據(jù) 324 13.6.2 提取 feature 特征字段 327 13.6.3 提取分類特征字段 328 13.6.4 提取數(shù)值特征字段 331 13.6.5 返回特征字段 331 13.6.6 提取 label 標(biāo)簽字段 331 13.6.7 建立訓(xùn)練評估所需的數(shù)據(jù) 332 13.6.8 以隨機(jī)方式將數(shù)據(jù)分為 3 部分并返回 333 13.6.9 編寫 PrepareData(sc) 函數(shù) 333 13.7 如何訓(xùn)練模型 334 13.8 如何使用模型進(jìn)行預(yù)測 335 13.9 如何評估模型的準(zhǔn)確率 338 13.9.1 使用 AUC 評估二元分類模型 338 13.9.2 計(jì)算 AUC 339 13.10 模型的訓(xùn)練參數(shù)如何影響準(zhǔn)確率 341 13.10.1 建立 trainEvaluateModel 341 13.10.2 評估impurity參數(shù) 343 13.10.3 訓(xùn)練評估的結(jié)果以圖表顯示 344 13.10.4 編寫 evalParameter 347 13.10.5 使用 evalParameter 評估 maxDepth 參數(shù) 347 13.10.6 使用 evalParameter 評估 maxBins 參數(shù) 348 13.11 如何找出準(zhǔn)確率*高的參數(shù)組合 349 13.12 如何確認(rèn)是否過度訓(xùn)練 352 13.13 編寫RunDecisionTreeBinary.py程序 352 13.14 開始輸入RunDecisionTreeBinary.py程序 353 13.15 運(yùn)行RunDecisionTreeBinary.py 355 13.15.1 執(zhí)行參數(shù)評估 355 13.15.2 所有參數(shù)訓(xùn)練評估找出*好的參數(shù)組合 355 13.15.3 運(yùn)行 RunDecisionTreeBinary.py 不要輸入?yún)?shù) 357 13.16 查看DecisionTree的分類規(guī)則 358 13.17 結(jié)論 360 第14章 Python Spark MLlib 邏輯回歸二元分類 361 14.1 邏輯回歸分析介紹 362 14.2 RunLogisticRegression WithSGDBinary.py程序說明 363 14.3 運(yùn)行RunLogisticRegression WithSGDBinary.py進(jìn)行參數(shù)評估 367 14.4 找出*佳參數(shù)組合 370 14.5 修改程序使用參數(shù)進(jìn)行預(yù)測 370 14.6 結(jié)論 372 第15章 Python Spark MLlib支持向量機(jī)SVM二元分類 373 15.1 支持向量機(jī)SVM算法的基本概念 374 15.2 運(yùn)行SVMWithSGD.py進(jìn)行參數(shù)評估 376 15.3 運(yùn)行SVMWithSGD.py 訓(xùn)練評估參數(shù)并找出*佳參數(shù)組合 378 15.4 運(yùn)行SVMWithSGD.py 使用*佳參數(shù)進(jìn)行預(yù)測 379 15.5 結(jié)論 381 第16章 Python Spark MLlib樸素貝葉斯二元分類 382 16.1 樸素貝葉斯分析原理的介紹 383 16.2 RunNaiveBayesBinary.py程序說明 384 16.3 運(yùn)行NaiveBayes.py進(jìn)行參數(shù)評估 386 16.4 運(yùn)行訓(xùn)練評估并找出*好的參數(shù)組合 387 16.5 修改RunNaiveBayesBinary.py 直接使用*佳參數(shù)進(jìn)行預(yù)測 388 16.6 結(jié)論 390 第17章 Python Spark MLlib決策樹多元分類 391 17.1 “森林覆蓋植被”大數(shù)據(jù)問題分析場景 392 17.2 UCI Covertype數(shù)據(jù)集介紹 393 17.3 下載與查看數(shù)據(jù) 394 17.4 修改PrepareData() 數(shù)據(jù)準(zhǔn)備 396 17.5 修改trainModel 訓(xùn)練模型程序 398 17.6 使用訓(xùn)練完成的模型預(yù)測數(shù)據(jù) 399 17.7 運(yùn)行RunDecisionTreeMulti.py 進(jìn)行參數(shù)評估 401 17.8 運(yùn)行RunDecisionTreeMulti.py 訓(xùn)練評估參數(shù)并找出*好的參數(shù)組合 403 17.9 運(yùn)行RunDecisionTreeMulti.py 不進(jìn)行訓(xùn)練評估 404 17.10 結(jié)論 406 第18章 Python Spark MLlib決策樹回歸分析 407 18.1 Bike Sharing大數(shù)據(jù)問題分析 408 18.2 Bike Sharing數(shù)據(jù)集 409 18.3 下載與查看數(shù)據(jù) 409 18.4 修改 PrepareData() 數(shù)據(jù)準(zhǔn)備 412 18.5 修改DecisionTree.trainRegressor訓(xùn)練模型 415 18.6 以 RMSE 評估模型準(zhǔn)確率 416 18.7 訓(xùn)練評估找出*好的參數(shù)組合 417 18.8 使用訓(xùn)練完成的模型預(yù)測數(shù)據(jù) 417 18.9 運(yùn)行RunDecisionTreeMulti.py進(jìn)行參數(shù)評估 419 18.10 運(yùn)行RunDecisionTreeMulti.py訓(xùn)練評估參數(shù)并找出*好的參數(shù)組合 421 18.11 運(yùn)行RunDecisionTreeMulti.py 不進(jìn)行訓(xùn)練評估 422 18.12 結(jié)論 424 第19章 Python Spark SQL、DataFrame、RDD數(shù)據(jù)統(tǒng)計(jì)與可視化 425 19.1 RDD、DataFrame、Spark SQL 比較 426 19.2 創(chuàng)建RDD、DataFrame與Spark SQL 427 19.2.1 在 local 模式運(yùn)行 IPython Notebook 427 19.2.2 創(chuàng)建RDD 427 19.2.3 創(chuàng)建DataFrame 428 19.2.4 設(shè)置 IPython Notebook 字體 430 19.2.5 為DataFrame 創(chuàng)建別名 431 19.2.6 開始使用 Spark SQL 431 19.3 SELECT顯示部分字段 434 19.3.1 使用 RDD 選取顯示部分字段 434 19.3.2 使用 DataFrames 選取顯示字段 434 19.3.3 使用 Spark SQL 選取顯示字段 435 19.4 增加計(jì)算字段 436 19.4.1 使用 RDD 增加計(jì)算字段 436 19.4.2 使用 DataFrames 增加計(jì)算字段 436 19.4.3 使用 Spark SQL 增加計(jì)算字段 437 19.5 篩選數(shù)據(jù) 438 19.5.1 使用 RDD 篩選數(shù)據(jù) 438 19.5.2 使用 DataFrames 篩選數(shù)據(jù) 438 19.5.3 使用 Spark SQL 篩選數(shù)據(jù) 439 19.6 按單個(gè)字段給數(shù)據(jù)排序 439 19.6.1 RDD 按單個(gè)字段給數(shù)據(jù)排序 439 19.6.2 使用 Spark SQL排序 440 19.6.3 使用 DataFrames按升序給數(shù)據(jù)排序 441 19.6.4 使用 DataFrames按降序給數(shù)據(jù)排序 442 19.7 按多個(gè)字段給數(shù)據(jù)排序 442 19.7.1 RDD 按多個(gè)字段給數(shù)據(jù)排序 442 19.7.2 Spark SQL 按多個(gè)字段給數(shù)據(jù)排序 443 19.7.3 DataFrames 按多個(gè)字段給數(shù)據(jù)排序 443 19.8 顯示不重復(fù)的數(shù)據(jù) 444 19.8.1 RDD 顯示不重復(fù)的數(shù)據(jù) 444 19.8.2 Spark SQL 顯示不重復(fù)的數(shù)據(jù) 445 19.8.3 Dataframes顯示不重復(fù)的數(shù)據(jù) 445 19.9 分組統(tǒng)計(jì)數(shù)據(jù) 446 19.9.1 RDD 分組統(tǒng)計(jì)數(shù)據(jù) 446 19.9.2 Spark SQL分組統(tǒng)計(jì)數(shù)據(jù) 447 19.9.3 Dataframes分組統(tǒng)計(jì)數(shù)據(jù) 448 19.10 Join 聯(lián)接數(shù)據(jù) 450 19.10.1 創(chuàng)建 ZipCode 450 19.10.2 創(chuàng)建 zipcode_tab 452 19.10.3 Spark SQL 聯(lián)接 zipcode_table 數(shù)據(jù)表 454 19.10.4 DataFrame user_df 聯(lián)接 zipcode_df 455 19.11 使用 Pandas DataFrames 繪圖 457 19.11.1 按照不同的州統(tǒng)計(jì)并以直方圖顯示 457 19.11.2 按照不同的職業(yè)統(tǒng)計(jì)人數(shù)并以圓餅圖顯示 459 19.12 結(jié)論 461 第20章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程二元分類 462 20.1 數(shù)據(jù)準(zhǔn)備 464 20.1.1 在 local 模式執(zhí)行 IPython Notebook 464 20.1.2 編寫 DataFrames UDF 用戶自定義函數(shù) 466 20.1.3 將數(shù)據(jù)分成 train_df 與 test_df 468 20.2 機(jī)器學(xué)習(xí)pipeline流程的組件 468 20.2.1 StringIndexer 468 20.2.2 OneHotEncoder 470 20.2.3 VectorAssembler 472 20.2.4 使用 DecisionTreeClassi?er 二元分類 474 20.3 建立機(jī)器學(xué)習(xí)pipeline流程 475 20.4 使用pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 476 20.5 使用pipelineModel 進(jìn)行預(yù)測 477 20.6 評估模型的準(zhǔn)確率 478 20.7 使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 479 20.8 使用crossValidation交叉驗(yàn)證找出*佳模型 481 20.9 使用隨機(jī)森林 RandomForestClassi?er分類器 483 20.10 結(jié)論 485 第21章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程多元分類 486 21.1 數(shù)據(jù)準(zhǔn)備 487 21.1.1 讀取文本文件 488 21.1.2 創(chuàng)建 DataFrame 489 21.1.3 轉(zhuǎn)換為 double 490 21.2 建立機(jī)器學(xué)習(xí)pipeline流程 492 21.3 使用dt_pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 493 21.4 使用pipelineModel 進(jìn)行預(yù)測 493 21.5 評估模型的準(zhǔn)確率 495 21.4 使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 496 21.7 結(jié)論 498 第22章 Spark ML Pipeline 機(jī)器學(xué)習(xí)流程回歸分析 499 22.1 數(shù)據(jù)準(zhǔn)備 501 22.1.1 在local 模式執(zhí)行 IPython Notebook 501 22.1.2 將數(shù)據(jù)分成 train_df 與 test_df 504 22.2 建立機(jī)器學(xué)習(xí)pipeline流程 504 22.3 使用dt_pipeline進(jìn)行數(shù)據(jù)處理與訓(xùn)練 506 22.4 使用pipelineModel 進(jìn)行預(yù)測 506 22.5 評估模型的準(zhǔn)確率 507 22.6 使用TrainValidation進(jìn)行訓(xùn)練驗(yàn)證找出*佳模型 508 22.7 使用crossValidation進(jìn)行交叉驗(yàn)證找出*佳模型 510 22.8 使用GBT Regression 511 22.9 結(jié)論 513 附錄A 本書范例程序下載與安裝說明 514 A.1 下載范例程序 515 A.2 打開本書IPython Notebook范例程序 516 A.3 打開 eclipse PythonProject 范例程序 518
展開全部

Python+Spark 2.0+Hadoop機(jī)器學(xué)習(xí)與大數(shù)據(jù)實(shí)戰(zhàn) 作者簡介

林大貴,從事IT行業(yè)多年,在系統(tǒng)設(shè)計(jì)、網(wǎng)站開發(fā)、數(shù)字營銷、商業(yè)智慧、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等領(lǐng)域具有豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)。

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 不发火防静电金属骨料_无机磨石_水泥自流平_修补砂浆厂家「圣威特」 | 天津热油泵_管道泵_天津高温热油泵-天津市金丰泰机械泵业有限公司【官方网站】 | 逗网红-抖音网红-快手网红-各大平台网红物品导航 | 工业设计,人工智能,体验式3D展示的智能技术交流服务平台-纳金网 J.S.Bach 圣巴赫_高端背景音乐系统_官网 | 智能汉显全自动量热仪_微机全自动胶质层指数测定仪-鹤壁市科达仪器仪表有限公司 | 沙盘模型公司_沙盘模型制作公司_建筑模型公司_工业机械模型制作厂家 | PCB接线端子_栅板式端子_线路板连接器_端子排生产厂家-置恒电气 喷码机,激光喷码打码机,鸡蛋打码机,手持打码机,自动喷码机,一物一码防伪溯源-恒欣瑞达有限公司 假肢-假肢价格-假肢厂家-河南假肢-郑州市力康假肢矫形器有限公司 | 【法利莱住人集装箱厂家】—活动集装箱房,集装箱租赁_大品牌,更放心 | 天津试验仪器-电液伺服万能材料试验机,恒温恒湿标准养护箱,水泥恒应力压力试验机-天津鑫高伟业科技有限公司 | 2025世界机器人大会_IC China_半导体展_集成电路博览会_智能制造展览网 | 五轴加工中心_数控加工中心_铝型材加工中心-罗威斯 | 净化车间_洁净厂房_净化公司_净化厂房_无尘室工程_洁净工程装修|改造|施工-深圳净化公司 | 天津拓展_天津团建_天津趣味运动会_天津活动策划公司-天津华天拓展培训中心 | 卓能JOINTLEAN端子连接器厂家-专业提供PCB接线端子|轨道式端子|重载连接器|欧式连接器等电气连接产品和服务 | 三板富 | 专注于新三板的第一垂直服务平台 | 水厂自动化|污水处理中控系统|水利信息化|智慧水务|智慧农业-山东德艾自动化科技有限公司 | 反渗透阻垢剂-缓蚀阻垢剂厂家-循环水处理药剂-山东鲁东环保科技有限公司 | 硫酸亚铁-聚合硫酸铁-除氟除磷剂-复合碳源-污水处理药剂厂家—长隆科技 | 定时排水阀/排气阀-仪表三通旋塞阀-直角式脉冲电磁阀-永嘉良科阀门有限公司 | 烘箱-工业烘箱-工业电炉-实验室干燥箱 - 苏州华洁烘箱制造有限公司 | 电磁辐射仪-电磁辐射检测仪-pm2.5检测仪-多功能射线检测仪-上海何亦仪器仪表有限公司 | 氨水-液氨-工业氨水-氨水生产厂家-辽宁顺程化工 | 南京欧陆电气股份有限公司-风力发电机官网 | 综合管廊模具_生态,阶梯护坡模具_检查井模具制造-致宏模具厂家 | 板式换网器_柱式换网器_自动换网器-郑州海科熔体泵有限公司 | 消泡剂_水处理消泡剂_切削液消泡剂_涂料消泡剂_有机硅消泡剂_广州中万新材料生产厂家 | 哈尔滨治「失眠/抑郁/焦虑症/精神心理」专科医院排行榜-京科脑康免费咨询 一对一诊疗 | 上海洗地机-洗地机厂家-全自动洗地机-手推式洗地机-上海滢皓洗地机 | 塑木弯曲试验机_铜带拉伸强度试验机_拉压力测试台-倾技百科 | 尾轮组_头轮组_矿用刮板_厢式刮板机_铸石刮板机厂家-双驰机械 | 冷却塔厂家_冷却塔维修_冷却塔改造_凉水塔配件填料公司- 广东康明节能空调有限公司 | 能耗监测系统-节能监测系统-能源管理系统-三水智能化 | 长春网站建设,五合一网站设计制作,免费优化推广-长春网站建设 | 辊道窑炉,辊道窑炉厂家-山东艾希尔| 铜镍-康铜-锰铜-电阻合金-NC003 - 杭州兴宇合金有限公司 | 上海公众号开发-公众号代运营公司-做公众号的公司企业服务商-咏熠软件 | 滚珠丝杆升降机_螺旋升降机_丝杠升降机-德迈传动 | 体坛网_体坛+_体坛周报新闻客户端| 密封圈_泛塞封_格莱圈-[东莞市国昊密封圈科技有限公司]专注密封圈定制生产厂家 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 电缆接头-防爆电缆接头-格兰头-金属电缆接头-防爆填料函 |