中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
> >>
大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版)

包郵 大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版)

出版社:人民郵電出版社出版時(shí)間:2015-07-01
開本: 16開 頁(yè)數(shù): 371
中 圖 價(jià):¥44.4(5.6折) 定價(jià)  ¥79.0 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車 收藏
開年大促, 全場(chǎng)包郵
?新疆、西藏除外
本類五星書更多>

大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版) 版權(quán)信息

大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版) 本書特色

本書由斯坦福大學(xué)“web挖掘”課程的內(nèi)容總結(jié)而成,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。其中相關(guān)章節(jié)有對(duì)應(yīng)的習(xí)題,以鞏固所講解的內(nèi)容。讀者更可以從網(wǎng)上獲取相關(guān)拓展材料。

大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版) 內(nèi)容簡(jiǎn)介

本書源自作者在斯坦福大學(xué)教授的“海量數(shù)據(jù)挖掘”(cs246: mining massive datasets)課程,第1版上市以來(lái)受到讀者廣泛歡迎和認(rèn)可。這個(gè)新版本在上一版基礎(chǔ)上新增三章內(nèi)容,分別涵蓋社會(huì)網(wǎng)絡(luò)圖挖掘、降維和大規(guī)模機(jī)器學(xué)習(xí),同時(shí)也更新了第1版的部分內(nèi)容。   眾所周知,移動(dòng)互聯(lián)網(wǎng)、社交媒體、電子商務(wù)和各種傳感器的運(yùn)用產(chǎn)生了超大數(shù)據(jù)集,挖掘這些數(shù)據(jù)可以提煉出有用的信息。本書以大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)為重點(diǎn),全面介紹了實(shí)踐中行之有效的數(shù)據(jù)處理算法,是在校學(xué)生和相關(guān)從業(yè)人員的**讀物。主要內(nèi)容包括:   分布式文件系統(tǒng)以及mapreduce工具;   相似性搜索;   數(shù)據(jù)流處理以及針對(duì)易丟失數(shù)據(jù)等特殊情況的專用處理算法;   搜索引擎技術(shù),如谷歌的pagerank;   頻繁項(xiàng)集挖掘;   大規(guī)模高維數(shù)據(jù)集的聚類算法;   web應(yīng)用中的關(guān)鍵問(wèn)題——廣告管理和推薦系統(tǒng);   社會(huì)網(wǎng)絡(luò)圖挖掘;   降維處理,如svd分解和cur分解;   大規(guī)模機(jī)器學(xué)習(xí)。  

大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版) 目錄


第1 章 數(shù)據(jù)挖掘基本概念
 1.1 數(shù)據(jù)挖掘的定義
  1.1.1 統(tǒng)計(jì)建模
  1.1.2 機(jī)器學(xué)習(xí)
  1.1.3 建模的計(jì)算方法
  1.1.4 數(shù)據(jù)匯總
  1.1.5 特征抽取
 1.2 數(shù)據(jù)挖掘的統(tǒng)計(jì)限制
  1.2.1 整體情報(bào)預(yù)警
  1.2.2 邦弗朗尼原理
  1.2.3 邦弗朗尼原理的一個(gè)例子
  1.2.4 習(xí)題
 1.3 相關(guān)知識(shí)
  1.3.1 詞語(yǔ)在文檔中的重要性
  1.3.2 哈希函數(shù)
  1.3.3 索引
  1.3.4 二級(jí)存儲(chǔ)器
  1.3.5 自然對(duì)數(shù)的底e
  1.3.6 冪定律
  1.3.7 習(xí)題
 1.4 本書概要
 1.5 小結(jié)
 1.6 參考文獻(xiàn)
第2 章 mapreduce及新軟件棧
 2.1 分布式文件系統(tǒng)
  2.1.1 計(jì)算節(jié)點(diǎn)的物理結(jié)構(gòu)
  2.1.2 大規(guī)模文件系統(tǒng)的結(jié)構(gòu)
 2.2 mapreduce
  2.2.1 map 任務(wù)
  2.2.2 按鍵分組
  2.2.3 reduce 任務(wù)
  2.2.4 組合器
  2.2.5 mapreduce 的執(zhí)行細(xì)節(jié)
  2.2.6 節(jié)點(diǎn)失效的處理
  2.2.7 習(xí)題
 2.3 使用mapreduce 的算法
  2.3.1 基于mapreduce 的矩陣-向量乘法實(shí)現(xiàn)
  2.3.2 向量v 無(wú)法放入內(nèi)存時(shí)的處理
  2.3.3 關(guān)系代數(shù)運(yùn)算
  2.3.4 基于mapreduce 的選擇運(yùn)算
  2.3.5 基于mapreduce 的投影運(yùn)算
  2.3.6 基于mapreduce 的并、交和差運(yùn)算
  2.3.7 基于mapreduce 的自然連接運(yùn)算
  2.3.8 基于mapreduce 的分組和聚合運(yùn)算
  2.3.9 矩陣乘法
  2.3.10 基于單步mapreduce 的矩陣乘法
  2.3.11 習(xí)題
 2.4 mapreduce 的擴(kuò)展
  2.4.1 工作流系統(tǒng)
  2.4.2 mapreduce 的遞歸擴(kuò)展版本
  2.4.3 pregel 系統(tǒng)
  2.4.4 習(xí)題
  2.5 通信開銷模型
  2.5.1 任務(wù)網(wǎng)絡(luò)的通信開銷
  2.5.2 時(shí)鐘時(shí)間
  2.5.3 多路連接
  2.5.4 習(xí)題
 2.6 mapreduce 復(fù)雜性理論
  2.6.1 reducer 規(guī)模及復(fù)制率
  2.6.2 一個(gè)例子:相似性連接
  2.6.3 mapreduce 問(wèn)題的一個(gè)圖模型
  2.6.4 映射模式
  2.6.5 并非所有輸入都存在時(shí)的處理
  2.6.6 復(fù)制率的下界
  2.6.7 案例分析:矩陣乘法
  2.6.8 習(xí)題
 2.7 小結(jié)
 2.8 參考文獻(xiàn)
第3 章 相似項(xiàng)發(fā)現(xiàn)
 3.1 近鄰搜索的應(yīng)用
  3.1.1 集合的jaccard 相似度
  3.1.2 文檔的相似度
  3.1.3 協(xié)同過(guò)濾--一個(gè)集合相似問(wèn)題
  3.1.4 習(xí)題
 3.2 文檔的shingling
  3.2.1 k-shingle
  3.2.2 shingle 大小的選擇
  3.2.3 對(duì)shingle 進(jìn)行哈希
  3.2.4 基于詞的shingle
  3.2.5 習(xí)題
 3.3 保持相似度的集合摘要表示
  3.3.1 集合的矩陣表示
  3.3.2 *小哈希
  3.3.3 *小哈希及jaccard 相似度
  3.3.4 *小哈希簽名
  3.3.5 *小哈希簽名的計(jì)算
  3.3.6 習(xí)題
  3.4 文檔的局部敏感哈希算法
  3.4.1 面向*小哈希簽名的lsh
  3.4.2 行條化策略的分析
  3.4.3 上述技術(shù)的綜合
  3.4.4 習(xí)題
 3.5 距離測(cè)度
  3.5.1 距離測(cè)度的定義
  3.5.2 歐氏距離
  3.5.3 jaccard 距離
  3.5.4 余弦距離
  3.5.5 編輯距離
  3.5.6 海明距離
  3.5.7 習(xí)題
 3.6 局部敏感函數(shù)理論
  3.6.1 局部敏感函數(shù)
  3.6.2 面向jaccard 距離的局部敏感函數(shù)族
  3.6.3 局部敏感函數(shù)族的放大處理
  3.6.4 習(xí)題
 3.7 面向其他距離測(cè)度的lsh 函數(shù)族
  3.7.1 面向海明距離的lsh 函數(shù)族
  3.7.2 隨機(jī)超平面和余弦距離
  3.7.3 梗概
  3.7.4 面向歐氏距離的lsh 函數(shù)族
  3.7.5 面向歐氏空間的更多l(xiāng)sh函數(shù)族
  3.7.6 習(xí)題
 3.8 lsh 函數(shù)的應(yīng)用
  3.8.1 實(shí)體關(guān)聯(lián)
  3.8.2 一個(gè)實(shí)體關(guān)聯(lián)的例子
  3.8.3 記錄匹配的驗(yàn)證
  3.8.4 指紋匹配
  3.8.5 適用于指紋匹配的lsh函數(shù)族
  3.8.6 相似新聞報(bào)道檢測(cè)
  3.8.7 習(xí)題
 3.9 面向高相似度的方法
  3.9.1 相等項(xiàng)發(fā)現(xiàn)
  3.9.2 集合的字符串表示方法
  3.9.3 基于長(zhǎng)度的過(guò)濾
  3.9.4 前綴索引
  3.9.5 位置信息的使用
  3.9.6 使用位置和長(zhǎng)度信息的索引
  3.9.7 習(xí)題
 3.10 小結(jié)
 3.11 參考文獻(xiàn)
第4 章 數(shù)據(jù)流挖掘
 4.1 流數(shù)據(jù)模型
  4.1.1 一個(gè)數(shù)據(jù)流管理系統(tǒng)
  4.1.2 流數(shù)據(jù)源的例子
  4.1.3 流查詢
  4.1.4 流處理中的若干問(wèn)題
 4.2 流當(dāng)中的數(shù)據(jù)抽樣
  4.2.1 一個(gè)富于啟發(fā)性的例子
  4.2.2 代表性樣本的獲取
  4.2.3 一般的抽樣問(wèn)題
  4.2.4 樣本規(guī)模的變化
  4.2.5 習(xí)題
 4.3 流過(guò)濾
  4.3.1 一個(gè)例子
  4.3.2 布隆過(guò)濾器
  4.3.3 布隆過(guò)濾方法的分析
  4.3.4 習(xí)題
  4.4 流中獨(dú)立元素的數(shù)目統(tǒng)計(jì)
  4.4.1 獨(dú)立元素計(jì)數(shù)問(wèn)題
  4.4.2 fm 算法
  4.4.3 組合估計(jì)
  4.4.4 空間需求
  4.4.5 習(xí)題
 4.5 矩估計(jì)
  4.5.1 矩定義
  4.5.2 二階矩估計(jì)的ams 算法
  4.5.3 ams 算法有效的原因
  4.5.4 更高階矩的估計(jì)
  4.5.5 無(wú)限流的處理
  4.5.6 習(xí)題
 4.6 窗口內(nèi)的計(jì)數(shù)問(wèn)題
  4.6.1 精確計(jì)數(shù)的開銷
  4.6.2 dgim 算法
  4.6.3 dgim 算法的存儲(chǔ)需求
  4.6.4 dgim 算法中的查詢應(yīng)答
  4.6.5 dgim 條件的保持
  4.6.6 降低錯(cuò)誤率
  4.6.7 窗口內(nèi)計(jì)數(shù)問(wèn)題的擴(kuò)展
  4.6.8 習(xí)題
 4.7 衰減窗口
  4.7.1 *常見(jiàn)元素問(wèn)題
  4.7.2 衰減窗口的定義
  4.7.3 *流行元素的發(fā)現(xiàn)
 4.8 小結(jié)
 4.9 參考文獻(xiàn)
第5 章 鏈接分析
 5.1 pagerank
  5.1.1 早期的搜索引擎及詞項(xiàng)作弊
  5.1.2 pagerank 的定義
  5.1.3 web 結(jié)構(gòu)
  5.1.4 避免終止點(diǎn)
  5.1.5 采集器陷阱及"抽稅"法
  5.1.6 pagerank 在搜索引擎中的使用
  5.1.7 習(xí)題
 5.2 pagerank 的快速計(jì)算
  5.2.1 轉(zhuǎn)移矩陣的表示
  5.2.2 基于mapreduce 的pagerank迭代計(jì)算
  5.2.3 結(jié)果向量合并時(shí)的組合器使用
  5.2.4 轉(zhuǎn)移矩陣中塊的表示
  5.2.5 其他高效的pagerank 迭代方法
  5.2.6 習(xí)題
 5.3 面向主題的pagerank
  5.3.1 動(dòng)機(jī)
  5.3.2 有偏
 ……
第6章頻繁項(xiàng)集
第7章聚類
第8章web廣告
第9章推薦系統(tǒng)
第10章社會(huì)網(wǎng)絡(luò)圖挖掘
第11章降維處理
第12章大規(guī)模機(jī)器學(xué)習(xí)
展開全部

大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版) 相關(guān)資料

這本書已經(jīng)在大數(shù)據(jù)處理行業(yè)獲得很好的口碑,書籍偏向理論方向,但是沒(méi)有枯燥晦澀的數(shù)學(xué)公式與冗長(zhǎng)的計(jì)算過(guò)程,反而另辟蹊徑地從實(shí)例出發(fā)來(lái)介紹相關(guān)挖掘技術(shù)的理論基礎(chǔ)以及發(fā)展愿景,可以說(shuō)是數(shù)據(jù)分析師必備的參考書。
  書的內(nèi)容源于作者在斯坦福大學(xué)執(zhí)教的課程材料,對(duì)算法研討得很深入,非常有價(jià)值!
  結(jié)構(gòu)編排清晰,是我想要的具體講述數(shù)據(jù)挖掘?qū)嵱眉夹g(shù)和算法的經(jīng)典書!

大數(shù)據(jù)-互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理-(第2版) 作者簡(jiǎn)介

Jure Leskovec 斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授,研究方向是大型社交和信息網(wǎng)絡(luò)的數(shù)據(jù)挖掘。他的研究成果獲得了很多獎(jiǎng)項(xiàng),如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship,還獲得了很多最佳論文獎(jiǎng),同時(shí)也被《紐約時(shí)報(bào)》《華爾街日?qǐng)?bào)》《華盛頓郵報(bào)》《麻省理工科技評(píng)論》《連線》、NBC、BBC等流行的社會(huì)媒體刊載。他還創(chuàng)建了斯坦福網(wǎng)絡(luò)分析平臺(tái)。   Anand Rajaraman 數(shù)據(jù)庫(kù)和Web技術(shù)領(lǐng)域權(quán)威,創(chuàng)業(yè)投資基金Cambrian聯(lián)合創(chuàng)始人,斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授。Rajaraman的職業(yè)生涯非常成功:1996年創(chuàng)辦Junglee公司,兩年后被亞馬遜以2.5億美元收購(gòu),Rajaraman被聘為亞馬遜技術(shù)總監(jiān),推動(dòng)亞馬遜從一個(gè)零售商轉(zhuǎn)型為零售平臺(tái);2000年與人合創(chuàng)Cambrian,孵化出幾個(gè)后來(lái)被谷歌收購(gòu)的公司;2005年創(chuàng)辦Kosmix公司并任CEO,該公司于2011年被沃爾瑪集團(tuán)收購(gòu),Rajaraman被聘為沃爾瑪負(fù)責(zé)全球電子商務(wù)業(yè)務(wù)的高級(jí)副總裁。Rajaraman生于印度,在斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)碩士和博士學(xué)位。求學(xué)期間與人合著的一篇論文榮列近20年來(lái)被引用次數(shù)最多的論文之一。Twitter賬號(hào)是@anand_raj。   Jeffrey David Ullman 美國(guó)國(guó)家工程院院士,計(jì)算機(jī)科學(xué)家。早年在貝爾實(shí)驗(yàn)室工作,之后任教于普林斯頓大學(xué),十年后加入斯坦福大學(xué)直至退休,一生的科研、著書和育人成果卓著。他是ACM會(huì)員,曾獲SIGMOD創(chuàng)新獎(jiǎng)、高德納獎(jiǎng)、馮諾依曼獎(jiǎng)等多項(xiàng)科研大獎(jiǎng);他是“龍書”《編譯原理》、數(shù)據(jù)庫(kù)名著《數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)》等多部經(jīng)典著作的合著者;麾下多名學(xué)生成為了數(shù)據(jù)庫(kù)領(lǐng)域的專家,其中最有名的當(dāng)屬谷歌創(chuàng)始人Sergey Brin;本書第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。

商品評(píng)論(0條)
暫無(wú)評(píng)論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 天津拓展_天津团建_天津趣味运动会_天津活动策划公司-天津华天拓展培训中心 | 丹佛斯变频器-丹佛斯压力开关-变送器-广州市风华机电设备有限公司 | 连栋温室大棚建造厂家-智能玻璃温室-薄膜温室_青州市亿诚农业科技 | 低合金板|安阳低合金板|河南低合金板|高强度板|桥梁板_安阳润兴 北京租车牌|京牌指标租赁|小客车指标出租 | 医疗仪器模块 健康一体机 多参数监护仪 智慧医疗仪器方案定制 血氧监护 心电监护 -朗锐慧康 | 定量包装机,颗粒定量包装机,粉剂定量包装机,背封颗粒包装机,定量灌装机-上海铸衡电子科技有限公司 | 贵阳用友软件,贵州财务软件,贵阳ERP软件_贵州优智信息技术有限公司 | 国产液相色谱仪-超高效液相色谱仪厂家-上海伍丰科学仪器有限公司 | 2025福建平潭岛旅游攻略|蓝眼泪,景点,住宿攻略-趣平潭网 | 岸电电源-60HZ变频电源-大功率变频电源-济南诚雅电子科技有限公司 | 南昌旅行社_南昌国际旅行社_南昌国旅在线 | 钛板_钛管_钛棒_钛盘管-无锡市盛钛科技有限公司 | 传动滚筒,改向滚筒-淄博建凯机械科技有限公司| 杭州成人高考_浙江省成人高考网上报名 | 河北码上网络科技|邯郸小程序开发|邯郸微信开发|邯郸网站建设 | 南京蜂窝纸箱_南京木托盘_南京纸托盘-南京博恒包装有限公司 | 无锡门窗-系统门窗-阳光房-封阳台-断桥铝门窗厂[窗致美] | 液压油缸-液压缸厂家价格,液压站系统-山东国立液压制造有限公司 液压油缸生产厂家-山东液压站-济南捷兴液压机电设备有限公司 | 百度关键词优化_网站优化_SEO价格 - 云无限好排名 | 不干胶标签-不干胶贴纸-不干胶标签定制-不干胶标签印刷厂-弗雷曼纸业(苏州)有限公司 | 全自动五线打端沾锡机,全自动裁线剥皮双头沾锡机,全自动尼龙扎带机-东莞市海文能机械设备有限公司 | 视频直播 -摄影摄像-视频拍摄-直播分发 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 金属切削液-脱水防锈油-电火花机油-抗磨液压油-深圳市雨辰宏业科技发展有限公司 | 泰安塞纳春天装饰公司【网站】| 河南档案架,档案密集架,手动密集架,河南密集架批发/报价 | 艺术生文化课培训|艺术生文化课辅导冲刺-济南启迪学校 | 依维柯自动挡房车,自行式国产改装房车,小型房车价格,中国十大房车品牌_南京拓锐斯特房车 - 南京拓锐斯特房车 | 牛皮纸|牛卡纸|进口牛皮纸|食品级牛皮纸|牛皮纸厂家-伽立实业 | 济南ISO9000认证咨询代理公司,ISO9001认证,CMA实验室认证,ISO/TS16949认证,服务体系认证,资产管理体系认证,SC食品生产许可证- 济南创远企业管理咨询有限公司 郑州电线电缆厂家-防火|低压|低烟无卤电缆-河南明星电缆 | 高尔夫球杆_高尔夫果岭_高尔夫用品-深圳市新高品体育用品有限公司 | 鼓风干燥箱_真空烘箱_高温干燥箱_恒温培养箱-上海笃特科学仪器 | 聚氨酯保温钢管_聚氨酯直埋保温管道_聚氨酯发泡保温管厂家-沧州万荣防腐保温管道有限公司 | 工业废水处理|污水处理厂|废水治理设备工程技术公司-苏州瑞美迪 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 数年网路-免费在线工具您的在线工具箱-shuyear.com | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 工业铝型材-铝合金电机壳-铝排-气动执行器-山东永恒能源集团有限公司 | 千淘酒店差旅平台-中国第一家针对TMC行业的酒店资源供应平台 | 江苏农村商业银行招聘网_2024江苏农商行考试指南_江苏农商行校园招聘 | 耐酸碱泵-自吸耐酸碱泵型号「品牌厂家」立式耐酸碱泵价格-昆山国宝过滤机有限公司首页 | 板材品牌-中国胶合板行业十大品牌-环保板材-上海声达板材 |