-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
圖解大數據分析 版權信息
- ISBN:9787122431943
- 條形碼:9787122431943 ; 978-7-122-43194-3
- 裝幀:平裝
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
圖解大數據分析 本書特色
本書圖文并茂,提供的插圖可以形象地展現文字描述的內容,書中也沒有數學公式,因此開拓了一個對任何背景、任何年齡的讀者都能接受并且津津樂道的科技領域畫面,即使是大數據分析的入門讀者也能夠看懂。
圖解大數據分析 內容簡介
本書通過大量的繪圖和詳細的說明,從技術層面以簡單易懂的形式講述大數據分析。這是一本從系統結構搭建到實際開發逐步推進的教科書。 書中的知識點包括大數據分析時所需的分布式處理、機器學習,以及分布式存儲、分布式計算、開發時可能遇到的瓶頸,還包括大數據的收集、積累、活用以及元數據的使用與管理等。 本書適合大數據領域的廣大愛好者、商務人士和工程技術人員用于了解、學習、掌握、運用大數據技術進行大數據分析,也適合作為該領域的職業院校和高校本科相關專業的教材及研究生輔助教材。
圖解大數據分析 目錄
1.1 大數據和分布式處理
網絡的普及導致了大量數據的增加 002
1.2 非結構化數據的增加和機器學習
分析文本、聲音、圖像等數據 006
1.3 大數據分析系統
在分布式處理與機器學習驅動下將數據利潤化 010
1.4 企業中大數據活用的各個階段
大數據分析要從一小步開始 014
1.5 活用大數據分析時所需的三個角色
數據業務員、科學分析員、工程技術員 020
1.6 工程技術員的價值在哪里
為什么完成了驗證實驗后仍然無法實現真正的系統化 026
第2章 大數據分析系統的結構
2.1 整體結構概述
數據的收集、積累、活用 032
2.2 數據的生成和收集
利用業務系統生成數據,利用分析系統收集數據 036
2.3 數據的積累
數據池與數據倉庫 040
2.4 數據的活用
應用于企業決策和增加利潤 044
第3章 分布式處理的基礎知識
3.1 對瓶頸問題的分析
系統性能上的一些問題 048
3.2 上述三種瓶頸以外的與性能相關的問題
內存枯竭,以及沒有瓶頸但性能仍然很差的原因 052
3.3 分布式存儲
消除磁盤瓶頸的技術 056
3.4 分布式計算
消除處理器瓶頸的技術 060
3.5 分布式系統的網絡
消除網絡的瓶頸 064
3.6 資源管理器
支撐分布式處理的資源管理 068
3.7 分布式處理的開發方式
Hadoop、自行開發、云服務 070
第4章 機器學習的基礎知識
4.1 機器學習
對變換成向量的數據進行處理的函數 076
4.2 數據的準備和預處理
機器學習的開發過程(前篇) 082
4.3 模型預估與系統化
機器學習的開發過程(中篇) 086
4.4 正式發布與性能提升
機器學習的開發過程(后篇) 090
4.5 深度學習
引發機器學習熱潮的火種 094
4.6 機器學習工具
工程師的幾個重要工具 098
4.7 科學分析員與工程技術員的不同角色
系統化與數據準備等大量的工作 104
第5章 大數據的收集
5.1 批數據收集和流數據收集
數據收集的種類 108
5.2 文件數據的收集與文件格式
文件形式數據的收集 112
5.3 基于SQL的數據收集
從數據庫中收集數據(前篇) 116
5.4 基于數據輸出和同步更新日志的數據收集
從數據庫中收集數據(后篇) 120
5.5 API數據收集與刮擦收集
其他的批數據收集方式 124
5.6 批數據收集的開發方法
可以利用ETL軟件制品也可以自行開發 128
5.7 分布式隊列與流處理
流數據收集概述 132
5.8 流數據收集中的分布式隊列
了解分布式隊列的特性 136
5.9 生產者、分布式隊列和消費者
流數據收集的開發方法 140
5.10 應對數據結構的變化
數據結構會隨著業務的發展而變化 143
第6章 大數據的積累
6.1 數據池與數據倉庫
要分別準備好原始數據和用于分析的數據 148
6.2 分析型數據庫
操作型數據庫與分析型數據庫的不同之處 152
6.3 面向列的數據格式化
在列方向上壓縮數據后實現分析處理的高速化 156
6.4 SQL on Hadoop
分析型DB的選擇方法(前篇) 160
6.5 DWH制品
分析型DB的選擇方法(后篇) 166
第7章 大數據的活用
7.1 數據市場
根據不同目的來加工數據 172
7.2 即席分析
可以自主地分析數據并進行決策 178
7.3 構筑即席分析環境
支持數據利用者和進行資源管理的必要性 182
7.4 數據可視化
任何人都可以基于數據做出決策 186
7.5 數據應用程序
互聯網企業的活用案例 190
第8章 元數據的管理
8.1 整體概念和靜態元數據
元數據管理(前篇) 194
8.2 動態元數據和元數據管理的實現方法
元數據管理(后篇) 198
8.3 數據結構管理
如何定義數據 202
8.4 數據沿襲管理
數據從何而來,又去往何處 208
8.5 數據新鮮度的管理
表明這是什么時候的數據 212
后記 216
圖解大數據分析 作者簡介
渡部徹太郎,在東京工業大學研究生院情報理工學科數據工學專業開展研究。在野村綜合研究所從事向著名證券公司提供系統基盤支持的工作,之后到開源技術部門負責開源中間件的技術支持和系統開發。然后轉職到Recruit公司,負責全公司各種數據的分析,同時成為東京大學的兼職講師和大數據基盤咨詢師。設立了日本AWS用戶協會的大數據支部。現在是Japan Taxi公司的數據平臺負責人。代表作是《面向RDB技術人員的NoSQL手冊》。
- >
回憶愛瑪儂
- >
羅曼·羅蘭讀書隨筆-精裝
- >
巴金-再思錄
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
姑媽的寶刀
- >
中國歷史的瞬間
- >
詩經-先民的歌唱
- >
莉莉和章魚