-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
ODPS權威指南-阿里大數據平臺應用開發實踐 版權信息
- ISBN:9787115372413
- 條形碼:9787115372413 ; 978-7-115-37241-3
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
ODPS權威指南-阿里大數據平臺應用開發實踐 本書特色
odps(open data processing service)是阿里巴巴自主研發的海量數據處理和分析的服務平臺,主要應用于數據分析、海量數據統計、數據挖掘、機器學習和商業智能等領域。目前,odps不僅在阿里內部得到廣泛應用,享有很好的口碑,正逐步走向第三方開放市場。 《odps權威指南 阿里大數據平臺應用開發實踐》是學習和掌握odps的權威指南,作者來自阿里odps團隊。全書共13章,主要內容包括:odps入門、整體架構、數據通道、mapreduce編程、sql查詢分析、安全,以及基于真實數據的各種場景分析實戰。本書基于很多范例解析,通過在各種應用場景下的示例來說明如何通過odps完成各種需求,以期引導讀者從零開始輕松掌握和使用odps。同時,本書不局限于示例分析,也致力于提供更多關于大數據處理的編程思想和經驗分享。書中所有示例代碼都可以在作者提供的網站上免費下載。 《odps權威指南 阿里大數據平臺應用開發實踐》適合想要了解和使用odps的讀者閱讀學習,對于從事大數據存儲和應用以及分布式計算的專業人士來說,也是很好的參考資料。
ODPS權威指南-阿里大數據平臺應用開發實踐 內容簡介
2014年天貓雙11購物狂歡節成交額創下了571.12億元的紀錄! 交易創建峰值能力達到每秒鐘8萬筆,支付寶的支付峰值突破了每分鐘285萬筆。 成功創下這項紀錄背后,有odps很大的功勞! 阿里巴巴集團副總裁劉振飛表示,云計算在今年雙11起到了非常重要的基礎性作用。天貓、淘寶、支付寶的大數據處理,都是基于阿里云計算的大數據處理平臺odps完成,odps為天貓雙十一的商品個性化推薦提供了技術支持,這是自主研發能力的一個很大提升。 odps(opendataprocessingservice)是阿里巴巴自主研發的海量數據處理和分析的服務平臺,主要應用于數據分析、海量數據統計、數據挖掘、機器學習和商業智能等領域。目前,odps不僅在阿里內部得到廣泛應用,享有很好的口碑,正逐步走向第三方開放市場? 本書是學習和掌握odps的權威指南,作者來自阿里odps團隊。 本書包括以下重要內容: odps概覽及其基本知識; 如何高效地使用odpssql; mapreduce編程和進階應用; odps機器學習算法; odps權限、資源和數據管理; 深入了解odps體系結構和高級機制。
ODPS權威指南-阿里大數據平臺應用開發實踐 目錄
前言
第1章odps概述
1.1引言
1.2初識odps
1.2.1背景和挑戰
1.2.2為什么做odps
1.2.3odps是什么
1.2.4odps做什么
1.3基本概念
1.3.1賬號(account)
1.3.2項目空間(project)
1.3.3表(table)
1.3.4分區(partition)
1.3.5任務(task)、作業(job)和作業實例(instance)
1.3.6資源(resource)
1.4應用開發模式
1.4.1restfulapi
1.4.2odpssdk
1.4.3odpsclt
1.4.4管理控制臺
1.4.5ide
1.5一些典型場景
1.5.1阿里金融數據倉庫
1.5.2cnzz數據倉庫
1.5.3支付寶賬號影響力圈
1.5.4阿里金融水文衍生算法
1.5.5阿里媽媽廣告ctr預估
1.6現狀和前景
1.7小結
第2章odps入門
2.1準備工作
2.1.1創建云賬號
2.1.2開通odps服務
2.2使用管理控制臺
2.3配置odps客戶端
2.3.1下載和配置clt
2.3.2準備dual表
2.3.3clt運行模式
2.3.4下載和配置dship
2.3.5通過dship上傳下載數據
2.4網站日志分析實例
2.4.1場景和數據說明
2.4.2需求分析
2.4.3數據準備
2.4.4創建表并添加分區
2.4.5數據解析和導入
2.4.6數據加工
2.4.7數據分析
2.4.8自動化運行
2.4.9應用數據集市
2.4.10結果導出
2.4.11結果展現
2.4.12刪除數據
2.5小結
第3章收集海量數據
3.1dship工具
3.2收集web日志
3.2.1場景和需求說明
3.2.2問題分析和設計
3.2.3實現說明
3.2.4進一步探討
3.2.5為什么這么難
3.3mysql數據同步到odps
3.3.1場景和需求說明
3.3.2問題分析和實現
3.3.3進一步探討
3.4下載結果表
3.5小結
第4章使用sql處理海量數據
4.1odpssql是什么
4.2入門示例
4.2.1場景說明
4.2.2簡單的ddl操作
4.2.3生成數據
4.2.4單表查詢
4.2.5多表連接join
4.2.6高級查詢
4.2.7多表關聯unionall
4.2.8多路輸出(multi-insert)
4.3網站日志分析
4.3.1準備數據和表
4.3.2維度表
4.3.3訪問路徑分析
4.3.4topk查詢
4.3.5ip黑名單
4.4天貓品牌預測
4.4.1主題說明和前期準備
4.4.2理解數據
4.4.3兩個簡單的實踐
4.4.4問題分析和算法設計
4.4.5生成特征
4.4.6抽取正負樣本
4.4.7生成模型
4.4.8驗證模型
4.4.9預測結果
4.4.10進一步探討
4.5小結
第5章sql進階
5.1udf是什么
5.2入門示例
5.3實際應用案例
5.3.1url解碼
5.3.2簡單的lbs應用
5.3.3網站訪問日志useragent解析
5.4sql實現原理
5.4.1詞法分析
5.4.2語法分析
5.4.3邏輯分析
5.4.4物理分析
5.5sql調優
5.5.1數據傾斜
5.5.2一些優化建議
5.5.3一些注意事項
5.6小結
第6章通過tunnel遷移數據
6.1odpstunnel是什么
6.2入門示例
6.2.1下載和配置
6.2.2準備數據
6.2.3上傳數據
6.2.4下載數據
6.3tunnel原理
6.3.1數據如何傳輸
6.3.2客戶端和服務端如何交互
6.3.3如何實現高并發
6.4從hadoop遷移到odps
6.4.1問題分析
6.4.2客戶端實現和分析
6.4.3mapper實現和分析
6.4.4編譯和運行
6.4.5進一步探討
6.5一些注意點
6.6小結
第7章使用mapreduce處理數據
7.1mapreduce編程模型
7.2mapreduce應用場景
7.3初識odpsmapreduce
7.4入門示例
7.4.1準備工作
7.4.2問題分析
7.4.3代碼實現和分析
7.4.4運行和輸出分析
7.4.5擴展:使用combiner?
7.5topk查詢
7.5.1場景和數據說明
7.5.2問題分析
7.5.3具體實現分析
7.5.4運行和結果輸出
7.5.5擴展:忽略stopwords
7.5.6擴展:數據和任務統計
7.5.7擴展:mr2模型
7.6sql和mapreduce,用哪個?
7.7小結
第8章mapreduce進階
8.1再談shuffle&sort
8.2好友推薦
8.2.1場景和數據說明
8.2.2問題定義和分析
8.2.3代碼實現
8.3lbs應用探討:周邊定位
8.3.1場景和數據說明
8.3.2問題定義和分析
8.3.3代碼實現和分析
8.3.4運行和測試
8.4mapreduce調試
8.4.1帶bug的代碼
8.4.2通過本地模式調試
8.4.3通過counter調試
8.4.4通過log調試
8.5一些注意點
8.6小結
第9章機器學習算法
9.1初識odps算法
9.2入門示例
9.2.1通過clt統計分析
9.2.2通過xlab統計分析
9.3幾個經典的算法
9.3.1邏輯回歸
9.3.2隨機森林
9.4天貓品牌預測
9.4.1邏輯回歸
9.4.2隨機森林
9.4.3腳本實現和自動化
9.4.4進一步探討
9.5小結
第10章使用sdk訪問odps服務
10.1主要的package和接口
10.1.1主要的package
10.1.2核心接口
10.2入門示例
10.3基于eclipse插件開發
10.4小結
第11章odps賬號、資源和數據管理
11.1權限管理
11.1.1賬號授權
11.1.2角色(role)授權
11.1.3acl授權特點
11.1.4簡單的policy授權
11.1.5rolepolicy
11.1.6acl授權和policy授權小結
11.2資源管理
11.2.1project內的資源管理
11.2.2跨project的資源共享
11.3數據管理
11.3.1表生命周期
11.3.2數據歸并(merge)
11.3.3數據保護(projectprotection)
11.4小結
第12章深入了解odps
12.1體系架構
12.1.1客戶端
12.1.2接入層
12.1.3邏輯層
12.1.4存儲/計算層
12.2執行流程
12.2.1提交作業
12.2.2運行作業
12.2.3查詢作業狀態
12.2.4執行邏輯 目錄
前言
第1章odps概述
1.1引言
1.2初識odps
1.2.1背景和挑戰
1.2.2為什么做odps
1.2.3odps是什么
1.2.4odps做什么
1.3基本概念
1.3.1賬號(account)
1.3.2項目空間(project)
1.3.3表(table)
1.3.4分區(partition)
1.3.5任務(task)、作業(job)和作業實例(instance)
1.3.6資源(resource)
1.4應用開發模式
1.4.1restfulapi
1.4.2odpssdk
1.4.3odpsclt
1.4.4管理控制臺
1.4.5ide
1.5一些典型場景
1.5.1阿里金融數據倉庫
1.5.2cnzz數據倉庫
1.5.3支付寶賬號影響力圈
1.5.4阿里金融水文衍生算法
1.5.5阿里媽媽廣告ctr預估
1.6現狀和前景
1.7小結
第2章odps入門
2.1準備工作
2.1.1創建云賬號
2.1.2開通odps服務
2.2使用管理控制臺
2.3配置odps客戶端
2.3.1下載和配置clt
2.3.2準備dual表
2.3.3clt運行模式
2.3.4下載和配置dship
2.3.5通過dship上傳下載數據
2.4網站日志分析實例
2.4.1場景和數據說明
2.4.2需求分析
2.4.3數據準備
2.4.4創建表并添加分區
2.4.5數據解析和導入
2.4.6數據加工
2.4.7數據分析
2.4.8自動化運行
2.4.9應用數據集市
2.4.10結果導出
2.4.11結果展現
2.4.12刪除數據
2.5小結
第3章收集海量數據
3.1dship工具
3.2收集web日志
3.2.1場景和需求說明
3.2.2問題分析和設計
3.2.3實現說明
3.2.4進一步探討
3.2.5為什么這么難
3.3mysql數據同步到odps
3.3.1場景和需求說明
3.3.2問題分析和實現
3.3.3進一步探討
3.4下載結果表
3.5小結
第4章使用sql處理海量數據
4.1odpssql是什么
4.2入門示例
4.2.1場景說明
4.2.2簡單的ddl操作
4.2.3生成數據
4.2.4單表查詢
4.2.5多表連接join
4.2.6高級查詢
4.2.7多表關聯unionall
4.2.8多路輸出(multi-insert)
4.3網站日志分析
4.3.1準備數據和表
4.3.2維度表
4.3.3訪問路徑分析
4.3.4topk查詢
4.3.5ip黑名單
4.4天貓品牌預測
4.4.1主題說明和前期準備
4.4.2理解數據
4.4.3兩個簡單的實踐
4.4.4問題分析和算法設計
4.4.5生成特征
4.4.6抽取正負樣本
4.4.7生成模型
4.4.8驗證模型
4.4.9預測結果
4.4.10進一步探討
4.5小結
第5章sql進階
5.1udf是什么
5.2入門示例
5.3實際應用案例
5.3.1url解碼
5.3.2簡單的lbs應用
5.3.3網站訪問日志useragent解析
5.4sql實現原理
5.4.1詞法分析
5.4.2語法分析
5.4.3邏輯分析
5.4.4物理分析
5.5sql調優
5.5.1數據傾斜
5.5.2一些優化建議
5.5.3一些注意事項
5.6小結
第6章通過tunnel遷移數據
6.1odpstunnel是什么
6.2入門示例
6.2.1下載和配置
6.2.2準備數據
6.2.3上傳數據
6.2.4下載數據
6.3tunnel原理
6.3.1數據如何傳輸
6.3.2客戶端和服務端如何交互
6.3.3如何實現高并發
6.4從hadoop遷移到odps
6.4.1問題分析
6.4.2客戶端實現和分析
6.4.3mapper實現和分析
6.4.4編譯和運行
6.4.5進一步探討
6.5一些注意點
6.6小結
第7章使用mapreduce處理數據
7.1mapreduce編程模型
7.2mapreduce應用場景
7.3初識odpsmapreduce
7.4入門示例
7.4.1準備工作
7.4.2問題分析
7.4.3代碼實現和分析
7.4.4運行和輸出分析
7.4.5擴展:使用combiner?
7.5topk查詢
7.5.1場景和數據說明
7.5.2問題分析
7.5.3具體實現分析
7.5.4運行和結果輸出
7.5.5擴展:忽略stopwords
7.5.6擴展:數據和任務統計
7.5.7擴展:mr2模型
7.6sql和mapreduce,用哪個?
7.7小結
第8章mapreduce進階
8.1再談shuffle&sort
8.2好友推薦
8.2.1場景和數據說明
8.2.2問題定義和分析
8.2.3代碼實現
8.3lbs應用探討:周邊定位
8.3.1場景和數據說明
8.3.2問題定義和分析
8.3.3代碼實現和分析
8.3.4運行和測試
8.4mapreduce調試
8.4.1帶bug的代碼
8.4.2通過本地模式調試
8.4.3通過counter調試
8.4.4通過log調試
8.5一些注意點
8.6小結
第9章機器學習算法
9.1初識odps算法
9.2入門示例
9.2.1通過clt統計分析
9.2.2通過xlab統計分析
9.3幾個經典的算法
9.3.1邏輯回歸
9.3.2隨機森林
9.4天貓品牌預測
9.4.1邏輯回歸
9.4.2隨機森林
9.4.3腳本實現和自動化
9.4.4進一步探討
9.5小結
第10章使用sdk訪問odps服務
10.1主要的package和接口
10.1.1主要的package
10.1.2核心接口
10.2入門示例
10.3基于eclipse插件開發
10.4小結
第11章odps賬號、資源和數據管理
11.1權限管理
11.1.1賬號授權
11.1.2角色(role)授權
11.1.3acl授權特點
11.1.4簡單的policy授權
11.1.5rolepolicy
11.1.6acl授權和policy授權小結
11.2資源管理
11.2.1project內的資源管理
11.2.2跨project的資源共享
11.3數據管理
11.3.1表生命周期
11.3.2數據歸并(merge)
11.3.3數據保護(projectprotection)
11.4小結
第12章深入了解odps
12.1體系架構
12.1.1客戶端
12.1.2接入層
12.1.3邏輯層
12.1.4存儲/計算層
12.2執行流程
12.2.1提交作業
12.2.2運行作業
12.2.3查詢作業狀態
12.2.4執行邏輯圖
12.3底層數據存儲
ODPS權威指南-阿里大數據平臺應用開發實踐 作者簡介
李妹芳,阿里數據平臺事業部工程師,曾譯有《Linux系統編程》、《數據之美》、《數據可視化之美》等書,她喜歡兒童文學,她的微博是
- >
龍榆生:詞曲概論/大家小書
- >
唐代進士錄
- >
名家帶你讀魯迅:故事新編
- >
推拿
- >
隨園食單
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
姑媽的寶刀