實時分析:流數據的分析與可視化技術 版權信息
- ISBN:9787111532163
- 條形碼:9787111532163 ; 978-7-111-53216-3
- 裝幀:暫無
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
實時分析:流數據的分析與可視化技術 本書特色
本書共11章。第1章介紹常見的流數據的來源、應用以及三個重要特性:持續交付、結構松散和高基數,并闡釋對流數據使用基礎架構和算法的重要性。第2~6章介紹實時流架構的各組件涉及的軟件、框架和方法。第2章概述實時流架構設計涉及的組件、特性、編程語言等。第3章介紹實時流架構的服務配置和協調,重點介紹協調服務器zookeeper。第4章闡述實時流架構中數據流程的管理,涉及用來管理數據流程的兩個軟件包kafka和flume。第5章分析流數據的處理,涉及如何用storm或samza來處理數據。第6章介紹流數據的存儲問題。第7~11章重點關注流數據架構的應用構建問題。第7章討論從流環境向*終用戶的數據交付問題。這是構建儀表板以及其他監控應用所使用的核心機制。第8章涵蓋流環境下的聚集計算問題,特別是對多分辨率時間序列數據的聚集計算問題。第9章簡要介紹統計學和概率論的基礎知識。第10章討論略圖,略圖通常具有更快的更新速度和更小的內存占用空間,特別適合流環境。第11章討論聚集計算之外能夠應用于流數據的一些更深入的話題。
實時分析:流數據的分析與可視化技術 內容簡介
本書共11章。第1章介紹常見的流數據的來源、應用以及三個重要特性:持續交付、結構松散和高基數,并闡釋對流數據使用基礎架構和算法的重要性。第2~6章介紹實時流架構的各組件涉及的軟件、框架和方法。第2章概述實時流架構設計涉及的組件、特性、編程語言等。第3章介紹實時流架構的服務配置和協調,重點介紹協調服務器ZooKeeper。第4章闡述實時流架構中數據流程的管理,涉及用來管理數據流程的兩個軟件包Kafka和Flume。第5章分析流數據的處理,涉及如何用Storm或Samza來處理數據。第6章介紹流數據的存儲問題。第7~11章重點關注流數據架構的應用構建問題。第7章討論從流環境向*終用戶的數據交付問題。這是構建儀表板以及其他監控應用所使用的核心機制。第8章涵蓋流環境下的聚集計算問題,特別是對多分辨率時間序列數據的聚集計算問題。第9章簡要介紹統計學和概率論的基礎知識。第10章討論略圖,略圖通常具有更快的更新速度和更小的內存占用空間,特別適合流環境。第11章討論聚集計算之外能夠應用于流數據的一些更深入的話題。
實時分析:流數據的分析與可視化技術 目錄
目 錄譯者序前言致謝作者簡介技術編輯簡介第1章 流數據簡介11.1流數據的來源21.1.1運行監控21.1.2web分析21.1.3在線廣告31.1.4社交媒體31.1.5移動數據和物聯網41.2流數據的特別之處51.2.1始終在線,持續流動51.2.2松散結構51.2.3高基數的存儲61.3基礎架構和算法61.4總結7**部分 流分析架構第2章 實時流架構設計102.1實時架構的組件102.1.1數據采集112.1.2數據流程112.1.3數據處理132.1.4數據存儲132.1.5數據交付142.2實時架構的特性162.2.1高可用性162.2.2低延遲172.2.3水平可擴展性172.3實時編程語言182.3.1java182.3.2scala和clojure192.3.3javascript192.3.4go語言202.4實時架構概覽202.4.1數據采集202.4.2數據流程212.4.3數據處理212.4.4數據存儲212.4.5數據交付222.5總結22第3章 服務配置和協調243.1 配置和協調系統的研發動機243.2 維護分布式狀態253.2.1不可靠的網絡連接253.2.2時鐘同步253.2.3不可靠環境下的一致性253.3apache zookeeper263.3.1znode273.3.2監視和通知283.3.3保持一致性283.3.4創建zookeeper集群283.3.5zookeeper本地java客戶端333.3.6curator客戶端393.3.7curator recipes組件453.4總結50第4章 流分析中的數據流程管理524.1分布式數據流程524.1.1至少交付一次524.1.2“n+1”問題534.2apache kafka:高吞吐量分布式消息機制544.2.1設計與實現544.2.2配置kafka環境574.2.3與kafka代理交互654.3apache flume:分布式日志采集系統 664.3.1flume agent674.3.2配置agent684.3.3flume數據模型684.3.4channel選擇器694.3.5flume source714.3.6flume sink784.3.7sink processor804.3.8flume channel804.3.9flume interceptor814.3.10集成定制flume組件834.3.11運行flume agent834.4總結83第5章 流數據的處理855.1分布式流數據處理855.1.1協調865.1.2分區和融合865.1.3事務865.2用storm處理數據865.2.1storm集群的組件875.2.2配置storm集群885.2.3分布式集群895.2.4本地集群925.2.5storm拓撲925.2.6實現bolt955.2.7實現并使用spout995.2.8分布式遠程過程調用1045.2.9trident:storm的dsl1055.3用samza處理數據1115.3.1apache yarn1115.3.2從yarn和samza開始1125.3.3將samza集成進數據流程1155.3.4samza作業1165.4總結122第6章 流數據的存儲1236.1一致性哈希1236.2“nosql”存儲系統1246.2.1redis1256.2.2mongodb1326.2.3cassandra1506.3其他存儲技術1596.3.1關系數據庫1606.3.2分布式內存數據網格1606.4存儲技術的選擇1606.4.1鍵-值存儲1606.4.2文檔存儲1606.4.3分布式哈希表存儲1616.4.4內存網格1616.4.5關系數據庫1616.5數據倉庫1616.5.1將hadoop作為etl和數據倉庫1626.5.2lambda架構1666.6總結166第二部分 流分析與可視化第7章 流度量的交付1687.1流web應用1687.1.1使用node1697.1.2用npm管理node項目1717.1.3基于node開發web應用1747.1.4 基本的流儀表板1767.1.5 向web應用加入流1807.2 數據可視化1907.2.1 html5 canvas和內聯svg1907.2.2 數據驅動文檔:d3.js1967.2.3 高層工具2047.3 移動流應用2087.4 總結209第8章 精確的聚集計算和交付2118.1 定時計數與求和2148.1.1 基于bolt的計數2148.1.2 基于trident的計數2168.1.3 基于samza的計數2178.2 多分辨率時間序列的聚集計算2188.3 隨機優化2228.4 時間序列數據的交付2238.4.1 用d3.js繪制帶狀圖2248.4.2 高速canvas圖2258.4.3 地平線圖2268.5 總結227第9章 流數據的統計近似2299.1 數值計算庫2299.2 概率和分布2309.2.1 期望和方差2319.2.2 統計分布2329.2.3 離散分布2329.2.4 連續分布2339.2.5 聯合分布2359.3 參數估計2369.3.1 參數推斷2369.3.2 delta方法2379.3.3 分布不等式2389.4 隨機數產生器2389.5 抽樣過程2429.5.1 從固定數據集中抽樣2429.5.2 從流數據中抽樣2439.5.3 有偏流抽樣2449.6 總結245第10章 使用略圖近似流數據24610.1 寄存器和哈希函數24610.1.1 寄存器24710.1.2 哈希函數24710.2 集合24910.3 bloom filter25110.3.1 算法25110.3.2 bloom filter大小的選擇25310.3.3 并集和交集25310.3.4 基數估計25410.3.5 有趣的變體25510.4 distinct value略圖25810.4.1 min-count算法25810.4.2 hyperloglog算法26010.5 count-min略圖26410.5.1 點查詢26510.5.2 count-min略圖的實現26510.5.3 top-k和“heavy hitters”26610.5.4 范圍查詢和分位數查詢26810.6 其他應用27010.7 總結271第11章 流數據的應用27211.1 實時數據模型27311.1.1 簡單時間序列模型27311.1.2 線性模型27611.1.3 邏輯回歸28011.1.4 神經網絡模型28111.2 用模型預測28911.2.1 指數平滑法28911.2.2 回歸法29111.2.3 神經網絡法29311.3 監控29411.3.1 離群點檢測29411.3.2 變化檢測29611.4 實時優化29711.5 總結298
展開全部
實時分析:流數據的分析與可視化技術 作者簡介
作 者 簡 介Byron Ellis是Spongecell公司的CTO,該公司是一個總部位于紐約的廣告技術公司,在舊金山、芝加哥和倫敦設有辦事處。他負責公司的研發和計算基礎設施的維護工作,在加盟Spongecell之前,他是在線交互技術“領頭羊”企業Liveperson公司的首席數據科學家。他還在當時世界最大的廣告交換公司之一adBrite擔任過多項職務。他擁有哈佛大學統計學博士學位,攻讀博士學位期間主要研究高吞吐量生物學實驗數據中網絡結構的學習方法。
技術編輯簡介Jose
Quinteiro有20年技術經驗,參與過許多終端用戶、企業、Web軟件系統和應用的設計與開發工作。他對于包括前后端的設計和實現在內的全套Web技術有著豐富經驗。Jose在威廉瑪麗學院獲得化學學士學位。
Luke Hornof擁有計算機科學博士學位,曾參與創建了多個成功的高科技初創企業。他在編程語言方面發表了十多篇同行評審的論文,曾為微處理器、廣告和音樂行業開發過商用軟件。他目前的興趣之一是使用數據分析技術來改善Web和移動應用。
Ben Peirce在Spongecell廣告技術公司負責研究工作和基礎設施的管理。加盟Spongecell之前,他在醫療健康技術初創企業擔任過多項職務,他還是SET
Media公司的聯合創始人之一,該公司是一個視頻廣告技術公司。他在哈佛大學工程與應用科學學院獲得博士學位,研究方向是控制系統和機器人。