-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
基于鯤鵬的大數據挖掘算法實戰(計算機企業核心技術叢書·鯤鵬計算應用技術系列) 版權信息
- ISBN:9787111713180
- 條形碼:9787111713180 ; 978-7-111-71318-0
- 裝幀:一般純質紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
基于鯤鵬的大數據挖掘算法實戰(計算機企業核心技術叢書·鯤鵬計算應用技術系列) 本書特色
適讀人群 :大數據挖掘算法開發者 高校和科研機構數據分析師 鯤鵬開發者適讀人群:大數據挖掘算法開發者、高校和科研機構數據分析師、鯤鵬開發者 清華大學袁春教授、華為計算算法開發部 傾力出品 ·深入介紹大數據挖掘的算法原理 ·詳解面向分布式計算框架的算法優化流程 ·全面分析基于鯤鵬芯片釋放底層算力的實現步驟 ·詳述企業級大數據算法的性能優化方法 ·解析鯤鵬大數據機器學習算法庫的實戰應用案例
基于鯤鵬的大數據挖掘算法實戰(計算機企業核心技術叢書·鯤鵬計算應用技術系列) 內容簡介
在大數據應用中,如何高效地挖掘數據價值是企業要解決的核心問題。為了應對這一挑戰,華為推出了鯤鵬BoostKit大數據機器學習算法庫,通過算法原理優化和鯤鵬芯片親和性優化,充分釋放了華為鯤鵬芯片的強勁算力,大幅提升海量數據的計算性能,是大數據挖掘強有力的工具。 《基于鯤鵬的大數據挖掘算法實戰》主要面向大數據挖掘算法開發者,圍繞鯤鵬BoostKit大數據機器學習算法庫,深入介紹算法原理以及基于鯤鵬的優化實踐。開發者可以通過本書實現數據挖掘入門,掌握用算法解決實際業務問題的方法和流程,了解分布式大數據挖掘算法的實現步驟,進而在鯤鵬集群中進行算法調優、二次開發或者開發新的高性能算法。
基于鯤鵬的大數據挖掘算法實戰(計算機企業核心技術叢書·鯤鵬計算應用技術系列) 目錄
前言
第1章 大數據挖掘技術概述
1.1 大數據技術重要性
1.2 大數據概念和類型
1.3 大數據挖掘技術
1.3.1 大數據采集技術
1.3.2 大數據預處理技術
1.3.3 大數據分析和挖掘技術
1.3.4 大數據可視化技術
1.3.5 大數據應用
1.4 大數據挖掘系統架構
1.4.1 大數據存儲系統
1.4.2 大數據處理系統
1.4.3 大數據可視化和應用系統
1.5 大數據挖掘技術的特性
1.6 新技術浪潮下的大數據挖掘技術
參考文獻
第2章 分布式開發框架
2.1 分布式并行策略
2.1.1 數據并行
2.1.2 模型并行
2.2 分布式協調
2.2.1 ZooKeeper簡介
2.2.2 數據模型
2.2.3 ZooKeeper體系結構
2.2.4 分布式鎖
2.3 分布式通信
2.3.1 分布式通信機制
2.3.2 分布式通信拓撲
2.4 分布式一致性算法
2.4.1 一致性哈希
2.4.2 Paxos算法
2.4.3 Raft算法
2.5 分布式計算框架
2.5.1 Hadoop
2.5.2 Spark
2.5.3 Flink
2.5.4 Ray
參考文獻
第3章 經典挖掘算法
3.1 主成分分析
3.1.1 算法介紹
3.1.2 算法推導
3.2 線性回歸
3.2.1 線性回歸的損失函數
3.2.2 優化求解方法
3.2.3 正則化
3.3 邏輯回歸
3.3.1 Logistic函數
3.3.2 邏輯回歸的損失函數
3.3.3 多分類問題
3.4 線性支持向量機
3.4.1 支持向量機的基本概念
3.4.2 線性支持向量機的損失函數
3.5 決策樹
3.5.1 決策樹算法概述
3.5.2 ID3決策樹算法
3.5.3 C4.5算法
3.5.4 分類回歸樹(CART)
3.6 隨機森林
3.7 梯度提升決策樹
3.7.1 負梯度與殘差
3.7.2 GBDT的計算原理
3.7.3 GBDT常用的損失函數
3.8 XGBoost
3.8.1 XGBoost預測模型
3.8.2 目標函數
3.8.3 XGBoost算法分析
3.9 交替小二乘法
3.9.1 顯式反饋
3.9.2 隱式反饋
參考文獻
第4章 鯤鵬BoostKit大數據挖掘
4.1 鯤鵬芯片
4.1.1 鯤鵬芯片的發展
4.1.2 鯤鵬920處理器
4.1.3 鯤鵬920處理器的特點
4.2 鯤鵬BoostKit使能大數據場景
4.2.1 鯤鵬應用使能套件BoostKit
4.2.2 鯤鵬BoostKit大數據使能套件
4.3 鯤鵬BoostKit大數據機器學習算法庫
4.3.1 算法介紹
4.3.2 機器學習算法庫的使用方法
第5章 數據挖掘算法在鯤鵬的優化實踐
5.1 主成分分析
5.1.1 Covariance方法實現
5.1.2 SVD方法實現
5.1.3 鯤鵬BoostKit算法API介紹
5.2 邏輯回歸
5.2.1 概念回顧
5.2.2 優化求解
5.2.3 分布式實現
5.2.4 鯤鵬BoostKit算法API介紹
5.3 隨機森林
5.3.1 隨機森林基礎回顧
5.3.2 隨機森林分布式實現與優化
5.3.3 鯤鵬BoostKit算法API介紹
5.4 XGBoost
5.4.1 XGBoost的基礎回顧
5.4.2 XGBoost4J-Spark實現詳解
5.4.3 XGBoost單輪分布式訓練實現詳解
5.4.4 鯤鵬BoostKit算法API介紹
5.5 交替小二乘法
5.5.1 分布式實現流程
5.5.2 分布式實現詳解
5.5.3 鯤鵬BoostKit算法API介紹
參考文獻
第6章 數據挖掘算法應用案例
6.1 商品推薦案例
6.1.1 場景介紹
6.1.2 整體方案
6.1.3 關鍵步驟
6.1.4 小結
6.2 房價預測案例
6.2.1 場景介紹
6.2.2 整體方案
6.2.3 關鍵步驟
6.2.4 小結
6.3 客戶細分案例
6.3.1 場景介紹
6.3.2 整體方案
6.3.3 關鍵步驟
6.3.4 小結
基于鯤鵬的大數據挖掘算法實戰(計算機企業核心技術叢書·鯤鵬計算應用技術系列) 作者簡介
袁春,清華大學深圳國際研究生院教授、博士生導師、CCF 杰出會員、IEEE高級會員。1999年和2002年在清華大學計算機科學與技術系人機交互及媒體集成研究所,分別獲得碩士和工學博士學位,2003年至2004年在法國國家信息與自動化研究所(INRIA-Rocquencour) 任博士后研究員。講授的“大數據機器學習”課程于2020年被評為教育部“一流本科課程”。主要研究方向為大數據機器學習和計算機視覺等。 劉婧,泰山學院信息科學技術學院教師,主要研究方向為機器學習、計算機視覺與圖像處理。2018年至2019年在清華大學深圳國際研究生院做訪問學者,合作導師為袁春教授和肖熹副教授;2019年至今,在中國科學院大學沈陽計算技術研究所攻讀博士學位。曾主持或參與了省部級教學科研項目、泰安市科技創新項目等多個項目,申請了兩項軟件著作權。 王工藝,長期從事機器學習/AI、數據挖掘、數據存儲等相關理論和算法的研究,對行業有深入理解,在算法設計、優化和實現上有豐富經驗;曾在存儲領域實現多個算法的技術突破,并將其廣泛應用到產品上。現任華為計算產品線機器學習算法專家,擁有超過50項的國內外專利。
- >
自卑與超越
- >
史學評論
- >
推拿
- >
上帝之肋:男人的真實旅程
- >
月亮虎
- >
我從未如此眷戀人間
- >
經典常談
- >
羅曼·羅蘭讀書隨筆-精裝