中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
漫畫算法與數據結構(大規模數據集)

包郵 漫畫算法與數據結構(大規模數據集)

出版社:清華大學出版社出版時間:2024-02-01
開本: 其他 頁數: 318
中 圖 價:¥55.9(7.0折) 定價  ¥79.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

漫畫算法與數據結構(大規模數據集) 版權信息

漫畫算法與數據結構(大規模數據集) 本書特色

《漫畫算法與數據結構(大規模數據集)》的重點并不是介紹通用的數據結構與算法分析。在大數據和人工智能的時代背景下,傳統的經典算法往往性能不佳,甚至可能不起作用。本書以分布式數據集、流式數據結構與算法設計為主線,對流式數據采集、數據庫中的數據結構設計、外部存儲器算法進行介紹。目前,實際生產中已經形成了流式數據采集、存儲、分析和計算的產品且成果顯著。針對流式數據的采集和存儲的產品主要有 Apache Kafka、Apache Pulsar 和 Pravega。流式數據的計算與分析主要經歷了兩代產品,**代為 Apache Storm、Spark Streaming,目前流行的是第二代產品 Apache Flink。此外,還出現了 MPP(Shared Nothing 架構)的分布式并行架構數據庫集群,主要有 Greenplum、HAWQ、HashData 等分布式數據庫系統。通過在 MPP 架構基礎上對流式數據的存儲和計算支持,單節點每秒可處理多達 100 億行數據,支持大規模數據實時寫入且保證秒級實時性,主要的產品有Apache Doris、StarRocks 和 MatrixDB。這些優秀的產品無不把流式數據的數據結構和算法體現得淋漓盡致。本書針對流式數據場景,對常見的大規模數據集算法和數據結構進行了梳理和講解。這些流式數據產品的出現有效解決了海量流式數據的采集、存儲和極速全場景分析計算等問題。本書可作為從事算法設計與分析、大數據平臺分析、模式識別與人工智能和數據庫等領域研究工作的工程師、計算機科學家的參考書。

漫畫算法與數據結構(大規模數據集) 內容簡介

當應用于大型分布式數據集時,標準算法和數據結構可能會變慢或接近失效。選擇專為大數據設計的算法可以節省時間、提高準確性并降低處理成本。《漫畫算法與數據結構(大規模數據集)》將*前沿的研究論文提煉為實用的技術,用于繪制、流式傳輸并組織磁盤和云中的大規模數據集,十分獨特。 大規模數據集的算法與數據結構為大型分布式數據引入了處理和分析技術。《漫畫算法與數據結構(大規模數據集)》作為指南,包含了行業故事和有趣的插圖,使復雜的概念也易于理解。在學習如何將強大的算法(如Bloom 過濾器、計數*小草圖、HyperLogLog和LSM樹)映射到你自己的用例時,將對真實世界的示例進行探索。 主要內容: ● 概率草圖數據結構 ● 選擇正確的數據庫引擎 ● 設計高效的磁盤數據結構和算法 ● 大規模系統中的算法權衡 ● 有限空間資源下的百分位數計算 Python、R和偽代碼中的示例。

漫畫算法與數據結構(大規模數據集) 目錄

第Ⅰ部分基于哈希的草圖
第1 章 導論 3
1.1 示例 5
1.1.1 示例解決方法 6
1.1.2 本書給出的解決方法 8
1.2 本書的結構 11
1.3 本書的不同之處及目標讀者 12
1.4 為什么大規模數據對當今的系統如此具有挑戰性 13
1.4.1 CPU 內存性能差距 13
1.4.2 內存層次結構 14
1.4.3 延遲與帶寬 15
1.4.4 分布式系統的情況 15
1.5 基于硬件來設計算法 16
1.6 本章小結 17
第2 章 哈希表和現代哈希回顧 19
2.1 無處不在的哈希 20
2.2 數據結構概述 22
2.3 現代系統中的使用場景 25
2.3.1 備份/存儲解決方案中的重復數據刪除 25
2.3.2 使用MOSS 和Rabin-Karp 指紋識別進行剽竊檢測 26
2.4 有關O(1) 29
2.5 解決沖突:理論與實踐 30
2.6 使用場景:Python 的dict是如何實現的 33
2.7 MurmurHash 35
2.8 分布式系統的哈希表:一致性哈希 36
2.8.1 一個典型的哈希問題 37
2.8.2 哈希環 38
2.8.3 查找 41
2.8.4 添加新節點/資源 41
2.8.5 刪除節點 44
2.8.6 一致性哈希場景:Chord 48
2.8.7 一致性哈希:編程練習 50
2.9 本章小結 50
第3 章 近似成員關系:Bloom 過濾器和商
過濾器 53
3.1 工作原理 56
3.1.1 插入 56
3.1.2 查找 57
3.2 用例 58
3.2.1 網絡中的Bloom 過濾器:Squid 58
3.2.2 Bitcoin 移動應用 59
3.3 一個簡單的實現 60
3.4 設置Bloom過濾器 61
3.5 一點理論 66
3.6 Bloom 過濾器的調整和替代方案 69
3.7 商過濾器 70
3.7.1 商-余數法 71
3.7.2 了解元數據位 73
3.7.3 示例:插入商過濾器中 73
3.7.4 用于查找的Python代碼 76
3.7.5 調整大小與合并 79
3.7.6 誤報率和空間考慮 80
3.8 Bloom 過濾器和商過濾器的比較 80
3.9 本章小結 82
第4 章 頻率估計和count-minsketch 85
4.1 多數元素 87
4.2 count-min sketch 的工作原理 90
4.2.1 update 90
4.2.2 estimate 91
4.3 用例 92
4.3.1 前k 個睡眠不安者 92
4.3.2 縮放單詞的分布相似度 96
4.4 count-min sketch 中的誤差與空間 99
4.5 count-min sketch 的簡單實現 100
4.5.1 練習 101
4.5.2 公式所蘊含的原理 102
4.6 使用count-min sketch進行范圍查詢 103
4.6.1 二元區間 104
4.6.2 更新階段 105
4.6.3 估計階段 107
4.6.4 計算二元區間 108
4.7 本章小結 110
第5 章 基數估計和HyperLogLog 113
5.1 對數據庫中的不同項計數 114
5.2 HyperLogLog 增量設計 116
5.2.1 **步:概率計數 117
5.2.2 隨機平均 119
5.2.3 LogLog 121
5.2.4 HyperLogLog:使用調和平均值進行隨機平均 123
5.3 用例:使用HLL 捕捉蠕蟲 126
5.4 一個小實驗 128
5.5 用例:使用Hyper-LogLog 進行聚合 132
5.6 本章小結 135
第Ⅱ部分實時分析第6 章 流式數據 139
6.1 流式數據系統:元示例 144
6.1.1 Bloom 連接 144
6.1.2 重復數據刪除 147
6.1.3 負載平衡和跟蹤網絡流量 149
6.2 數據流中的實際約束和概念 151
6.2.1 實時 151
6.2.2 小時間和小空間 152
6.2.3 概念轉變和概念漂移 152
6.2.4 滑動窗口模型 153
6.3 抽樣和估計 155
6.3.1 有偏差抽樣策略 157
6.3.2 代表性樣本的估計 160
6.4 本章小結 162
第7 章 從數據流中抽樣 165
7.1 從地標流中抽樣 166
7.1.1 伯努利抽樣 166
7.1.2 蓄水池抽樣 170
7.1.3 有偏差的蓄水池抽樣 176
7.2 從滑動窗口抽樣 182
7.2.1 鏈式抽樣 182
7.2.2 優先級抽樣 187
7.3 抽樣算法比較 191
7.4 本章小結 195
第8 章 數據流上的近似分位數 197
8.1 精確分位數 198
8.2 近似分位數 201
8.2.1 加法誤差 201
8.2.2 相對誤差 203
8.2.3 數據域中的相對誤差 204
8.3 t-digest:工作
原理 204
8.3.1 digest 205
8.3.2 比例函數 207
8.3.3 合并t-digest 211
8.3.4 t-digest 的空間范圍 215
8.4 q-digest 215
8.4.1 從頭開始構建q-digest 216
8.4.2 合并q-digest 218
8.4.3 q-digest 中的誤差和空間注意事項 219
8.4.4 使用q-digest 進行分位數查詢 220
8.5 模擬代碼和結果 221
8.6 本章小結 226
第Ⅲ部分數據庫的數據結構和外部存儲器算法 第9 章 外部存儲器模型 231
9.1 外部存儲器模型初探 233
9.2 示例1:尋找*小值 235
9.3 示例2:二進制搜索 239
9.3.1 生物信息學用例 239
9.3.2 運行時間分析 241
9.4 *優搜索 243
9.5 示例3:合并K 個排序列表 246
9.5.1 合并時間/日期日志 246
9.5.2 外部存儲器模型是否過于簡單 250
9.6 下一章內容 251
9.7 本章小結 251
第10 章 數據庫的數據結構:B 樹、Bε 樹和LSM 樹 253
10.1 索引的工作原理 254
10.2 本章中的數據結構 256
10.3 B 樹 258
10.3.1 B 樹平衡 259
10.3.2 查找 260
10.3.3 插入 261
10.3.4 刪除 263
10.3.5 B 樹 266
10.3.6 B 樹上的操作有何不同 268
10.3.7 用例:MySQL 等中的B 樹 268
10.4 為什么B 樹查找在外部存儲器中是*佳的 269
10.5 Bε 樹 272
10.5.1 Bε 樹:工作原理 273
10.5.2 緩沖區機制· 273
10.5.3 插入和刪除 275
10.5.4 查找 276
10.5.5 成本分析 277
10.5.6 Bε 樹:數據結構的范圍 278
10.5.7 用例:TokuDB 中的Bε 樹 279
10.5.8 輸入/輸出之道:欲速則不達 280
10.6 日志結構合并樹(LSM 樹) 281
10.6.1 LSM 樹:工作原理 283
10.6.2 LSM 樹成本分析 285
10.6.3 用例:Cassandra 中的LSM 樹 286
10.7 本章小結 287
第11 章 外部存儲器排序 289
11.1 排序用例 290
11.1.1 機器人運動規劃 290
11.1.2 癌癥基因組學 291
11.2 外部存儲器排序的挑戰:示例 293
11.3 外部存儲器合并排序 297
11.4 外部快速排序 300
11.4.1 外部存儲器雙向快速排序 301
11.4.2 外部存儲器多向快速排序 302
11.4.3 找到足夠的樞軸 303
11.4.4 找到足夠好的樞軸 304
11.4.5 將它們重新組合在一起 305
11.5 為什么外部存儲器合并排序是*優的 306
11.6 結尾 308
11.7 本章小結 309
參考文獻 310
展開全部

漫畫算法與數據結構(大規模數據集) 作者簡介

Dzejla Medjedovic在紐約石溪大學應用算法實驗室獲得博士學位。
Emin Tahirovic在賓夕法尼亞大學獲得了生物統計學博士學位。
插圖畫家
Ines Dedovic在德國亞琛RWTH大學成像和計算機視覺研究所獲得博士學位。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 偏心半球阀-电动偏心半球阀-调流调压阀-旋球阀-上欧阀门有限公司 | 河南卓美创业科技有限公司-河南卓美防雷公司-防雷接地-防雷工程-重庆避雷针-避雷器-防雷检测-避雷带-避雷针-避雷塔、机房防雷、古建筑防雷等-山西防雷公司 | 电竞馆加盟,沈阳网吧加盟费用选择嘉棋电竞_售后服务一体化 | 中药超微粉碎机(中药细胞级微粉碎)-百科| 骨密度仪-骨密度测定仪-超声骨密度仪-骨龄测定仪-天津开发区圣鸿医疗器械有限公司 | 玉米深加工设备-玉米深加工机械-新型玉米工机械生产厂家-河南粮院机械制造有限公司 | 深圳市简易检测技术有限公司 | 深圳市宏康仪器科技有限公司-模拟高空低压试验箱-高温防爆试验箱-温控短路试验箱【官网】 | 钢托盘,钢制托盘,立库钢托盘,金属托盘制造商_南京飞天金属制品实业有限公司 | 学习虾-免费的学习资料下载平台| 不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰]-不锈钢法兰-碳钢法兰-法兰盘生产加工厂家-[鼎捷峰] | 不锈钢水箱厂家,不锈钢保温水箱-山东桑特供水设备 | 番茄畅听邀请码怎么输入 - Dianw8.com | SMC-SMC电磁阀-日本SMC气缸-SMC气动元件展示网 | 污水/卧式/潜水/钻井/矿用/大型/小型/泥浆泵,价格,参数,型号,厂家 - 安平县鼎千泵业制造厂 | 过滤器_自清洗过滤器_气体过滤器_苏州华凯过滤技术有限公司 | 浙江富广阀门有限公司| 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 模型公司_模型制作_沙盘模型报价-中国模型网 | 仪器仪表网 - 永久免费的b2b电子商务平台| 自动配料系统_称重配料控制系统厂家 | 企业微信scrm管理系统_客户关系管理平台_私域流量运营工具_CRM、ERP、OA软件-腾辉网络 | 广州云仓代发-昊哥云仓专业电商仓储托管外包代发货服务 | 冷却塔改造厂家_不锈钢冷却塔_玻璃钢冷却塔改造维修-广东特菱节能空调设备有限公司 | 同步带轮_同步带_同步轮_iHF合发齿轮厂家-深圳市合发齿轮机械有限公司 | 减速机三参数组合探头|TSM803|壁挂式氧化锆分析仪探头-安徽鹏宸电气有限公司 | 洛阳防爆合格证办理-洛阳防爆认证机构-洛阳申请国家防爆合格证-洛阳本安防爆认证代办-洛阳沪南抚防爆电气技术服务有限公司 | 蔡司三坐标-影像测量机-3D扫描仪-蔡司显微镜-扫描电镜-工业CT-ZEISS授权代理商三本工业测量 | 生物制药洁净车间-GMP车间净化工程-食品净化厂房-杭州波涛净化设备工程有限公司 | 工业洗衣机_工业洗涤设备_上海力净工业洗衣机厂家-洗涤设备首页 bkzzy在职研究生网 - 在职研究生招生信息咨询平台 | 电动葫芦-河北悍象起重机械有限公司 | 铝板冲孔网,不锈钢冲孔网,圆孔冲孔网板,鳄鱼嘴-鱼眼防滑板,盾构走道板-江拓数控冲孔网厂-河北江拓丝网有限公司 | 诺冠气动元件,诺冠电磁阀,海隆防爆阀,norgren气缸-山东锦隆自动化科技有限公司 | 双齿辊破碎机-大型狼牙破碎机视频-对辊破碎机价格/型号图片-金联机械设备生产厂家 | 气动隔膜泵-电动隔膜泵-循环热水泵-液下排污/螺杆/管道/化工泵「厂家」浙江绿邦 | 理化生实验室设备,吊装实验室设备,顶装实验室设备,实验室成套设备厂家,校园功能室设备,智慧书法教室方案 - 东莞市惠森教学设备有限公司 | 驾驶人在线_专业学车门户网站 | 换链神器官网-友情链接交换、购买交易于一体的站长平台 | 海德莱电力(HYDELEY)-无功补偿元器件生产厂家-二十年专业从事电力电容器 | 上海软件开发-上海软件公司-软件外包-企业软件定制开发公司-咏熠科技 | 生物除臭剂-除味剂-植物-污水除臭剂厂家-携葵环保有限公司 |