-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
社交媒體數據挖掘與分析 版權信息
- ISBN:9787111643685
- 條形碼:9787111643685 ; 978-7-111-64368-5
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
社交媒體數據挖掘與分析 本書特色
本書圍繞著如何探索和理解社交媒體系統的基本組成部分進行組織,簡單地說來就是誰(who)、如何(how)、何時(when)和什么(what)構成了社交媒體過程。本書的目標是“授人以漁”。在涵蓋了社交媒體分析的主要方面之后,本書還以大量篇幅介紹了大數據環境下處理社交媒體數據所需的工具、算法的原理和實際案例,讀者可以以此為基礎,快速介入生產環境下的社交媒體數據處理任務。
社交媒體數據挖掘與分析 內容簡介
社交媒體是大數據的豐富來源,財富500強公司中的90%都在投資大數據方面的計劃來幫助預測用戶的行為。了解社交媒體數據*有效的挖掘方法能夠幫助你獲得產生驚人業績的信息。
社交媒體是非結構化、動態、面向未來的。高效而有洞察力的數據挖掘需要新的分析工具和技術。由任職社交網絡公司的業界專家所撰寫的本書提供了一個實踐教程,教授你如何使用*新的工具和專門針對社交媒體的復雜數據挖掘技術。本書深入剖析了收集和應用社交媒體數據的機制,以理解用戶、定義趨勢并做出預測,從而改善對增長和銷售的分析。
你將了解如何充分利用從社交媒體及其他相關的豐富數據源所收集的數據,也將學習如何識別在線用戶的共性行為模式,以便獨立構建和應用基于這些模式的預測算法。
通過閱讀本書,你將學到:
在線服務的4個關鍵特征:用戶、社交網絡、行為和內容
數據發現的生命周期:數據抽取、分析和可視化
使用社交媒體進行客戶預測和推薦的技術
如何使用分布式計算高效處理大規模社交媒體數據
使用Python、R和Scala編寫的代碼級的示例解決方案
社交媒體數據挖掘與分析 目錄
前言
致謝
作者簡介
技術編輯簡介
第1章 用戶:誰參與社交媒體 1
1.1 測量Wikipedia中用戶行為的變化 1
1.1.1 用戶活動的多樣性 2
1.1.2 人類活動中的長尾效應 18
1.2 隨處可見的長尾效應:80/20定律 20
1.3 Twitter上的在線行為 23
1.3.1 檢索用戶的Tweet 24
1.3.2 對數分區 26
1.3.3 Twitter上的用戶活動 27
1.4 總結 28
第2章 網絡:社交媒體如何運行 29
2.1 社交網絡的類型和屬性 30
2.1.1 用戶何時創建連接:顯式網絡 30
2.1.2 有向圖與無向圖 31
2.1.3 節點和邊的屬性 31
2.1.4 加權圖 32
2.1.5 由活動構建圖:隱式網絡 33
2.2 網絡可視化 35
2.3 度:贏家通吃 38
2.3.1 連接計數 40
2.3.2 用戶連接的長尾分布 41
2.3.3 超越理想網絡模型 43
2.4 捕獲相關:三角結構、簇和同配性 45
2.4.1 局部三角結構和簇 45
2.4.2 同配性 49
2.5 總結 53
第3章 時序過程:用戶何時使用社交媒體 54
3.1 傳統模型如何描述事件發生的時間 54
3.2 事件間隔時間 57
3.2.1 與無記憶過程的對比 60
3.2.2 自相關 63
3.2.3 與無記憶過程的偏離 64
3.2.4 用戶活動中的時間周期 66
3.3 個體行為的爆發 70
3.4 預測長期指標 78
3.4.1 發現趨勢 80
3.4.2 發現季節性 82
3.4.3 利用ARIMA預測時間序列 84
3.5 總結 86
第4章 內容:社交媒體中有什么 88
4.1 定義內容:聚焦于文本和非結構數據 88
4.1.1 從文本生成特征:自然語言處理基礎 89
4.1.2 文本中詞條的基本統計 91
4.2 使用內容特征識別主題 92
4.2.1 話題的流行度 98
4.2.2 用戶個體興趣有多么多樣化 100
4.3 從高維文本中抽取低維信息 102
4.4 總結 120
第5章 處理大型數據集 122
5.1 MapReduce:組織并行和串行操作 122
5.1.1 單詞計數 124
5.1.2 偏斜:*后一個Reducer的詛咒 127
5.2 多階段MapReduce流 127
5.2.1 扇出 129
5.2.2 歸并數據流 129
5.2.3 連接兩個數據源 131
5.2.4 連接小數據集 134
5.2.5 大規模MapReduce模型 134
5.3 MapReduc程序設計模式 135
5.3.1 靜態MapReduce作業 135
5.3.2 迭代MapReduce作業 140
5.3.3 增量MapReduce作業 146
5.3.4 時間相關的MapReduce作業 146
5.3.5 處理長尾分布社交媒體數據的挑戰 153
5.4 抽樣和近似:以較少計算得到結果 154
5.4.1 HyperLogLog 156
5.4.2 Bloom過濾器 161
5.4.3 Count-Min Sketch 166
5.5 在Hadoop集群上運行 171
5.5.1 在Amazon EC2上安裝CHD集群 171
5.5.2 為合作者提供IAM存取 174
5.5.3 根據需要增加集群處理能力 175
5.6 總結 175
第6章 學習、映射和推薦 177
6.1 在線社交媒體服務 177
6.1.1 搜索引擎 177
6.1.2 內容參與 178
6.1.3 與現實世界的互動 179
6.1.4 與人的互動 180
6.2 問題闡述 180
6.3 學習和映射 182
6.3.1 矩陣分解 183
6.3.2 學習和訓練 184
6.3.3 電影評分示范 187
6.4 預測與推薦 197
6.4.1 評估 199
6.4.2 方法概述 200
6.5 總結 209
第7章 結論 210
7.1 人類互動模式出乎意料的穩定性 210
7.2 均值、標準差和抽樣 211
7.3 移除異常值 216
社交媒體數據挖掘與分析 作者簡介
Gabor Szabo博士,是Tesla的高級軟件工程師,曾作為數據科學家任職于Twitter,期間專注于預測眾包在線服務中的用戶行為和內容流行度,以及對大規模內容的動力學進行建模。他還開發了PyCascading數據處理庫。
Gungor Polatkan博士,是一名技術主管和工程經理,他為LinkedIn學習相關的后端設計并實現了端到端的機器學習和人工智能離線及在線管道。之前曾在Twitter任職機器學習科學家,從事如廣告定向投放和用戶建模等專題的工作。
P. Oscar Boykin博士,是Stripe的軟件工程師,從事機器學習基礎設施的建設工作。他曾在Twitter任職高級工程師,解決數據基礎設施的問題。他參與了Scala大數據庫Algebird、Scalding和Summingbird的開發。
Antonios Chalkiopoulos碩士,是分布式系統專家。一位曾在媒體、博彩和金融領域交付過快速和大型數據項目的系統工程師。他現在作為共同創始人領導Lenses數據流平臺的工作,同時擔任https://senses.stream網站的CEO。
- >
山海經
- >
推拿
- >
月亮與六便士
- >
小考拉的故事-套裝共3冊
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
自卑與超越
- >
史學評論
- >
大紅狗在馬戲團-大紅狗克里弗-助人