中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >>
斯坦福數據挖掘教程

包郵 斯坦福數據挖掘教程

出版社:人民郵電出版社出版時間:2021-04-01
開本: 24cm 頁數: 16,436頁
中 圖 價:¥81.3(6.3折) 定價  ¥129.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

斯坦福數據挖掘教程 版權信息

斯坦福數據挖掘教程 本書特色

適讀人群 :本書適合作為本科生、研究生數據挖掘課程的教材,也適合對數據挖掘感興趣的技術人員閱讀。1.本書作者Jeffrey Ullman是2020圖靈獎獲得者; 2.本書譯者是國內知名NLP專家王斌老師; 3.本書內容源自斯坦福大學網紅課程“CS246:海量數據挖掘”、“CS224W:圖機器學習”和“CS341:項目實戰課”; 4.書中以海量數據挖掘和機器學習為重點,全面分析并實現了各種常用的數據挖掘算法,同時介紹了目前Web應用的許多重要話題; 5.在第2版《大數據 互聯網大規模數據挖掘與分布式處理(第2版)》基礎上,第3版內容新增一章,專門探討神經網絡和深度學習并擴充了社會網絡分析和決策樹的相關內容。 本書源自斯坦福大學“CS246:海量數據挖掘”“CS224W:圖機器學習”和“CS341:項目實戰課”三門課程的內容。書中以海量數據挖掘和機器學習為重點,全面分析并實現了各種常用的數據挖掘算法,同時介紹了目前Web應用的許多重要話題。 這一版不僅新增一章,專門探討神經網絡和深度學習這一主題,還在上一版基礎上擴充了社會網絡分析和決策樹的相關內容,同時更新了其他一些內容。 - 分布式文件系統以及MapReduce; - 相似性搜索; - 數據流處理以及特殊情況專用處理算法; - 搜索引擎技術,如谷歌的PageRank; - 頻繁項集挖掘; - 大規模高維數據集的聚類算法; - 廣告管理系統和推薦系統; - 社會網絡圖挖掘; - 降維處理,如SVD和CUR分解; - 大規模機器學習; - 深度神經網絡。 【亞馬遜讀者好評】 “作為斯坦福大學‘大規模數據挖掘’在線課程的教材,這本書介紹了各種數據挖掘算法以及一些大數據應用。” “這本書中包含許多熱門的算法,特別是與挖掘圖數據相關的算法,并且算法的理論和實現并重。書中的大量例子相當直觀,易于理解。各章*后還提煉了章節要點,以幫助讀者鞏固和消化知識要點,讓人很驚喜!” “這本書涵蓋了很多話題,從MapReduce和局部敏感哈希,到圖的算法和大規模機器學習,內容全面、實用!

斯坦福數據挖掘教程 內容簡介

本書由斯坦福大學“Web挖掘”課程的內容總結而成,主要關注極大規模數據的挖掘。書中包括分布式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統、社會網絡圖挖掘和大規模機器學習等主要內容。第3 版新增了決策樹、神經網絡和深度學習等內容。幾乎每節都有對應的習題,以此來鞏固所講解的內容。讀者還可以從網上獲取相關拓展資料。

斯坦福數據挖掘教程 目錄

第 1章 數據挖掘基本概念  1


1.1 數據挖掘的定義 1


1.1.1 建模 1


1.1.2 統計建!2


1.1.3 機器學習 2


1.1.4 建模的計算方法 3


1.1.5 數據概括 3


1.1.6 特征抽取 4


1.2 數據挖掘的統計限制 5


1.2.1 整體情報預警 5


1.2.2 邦弗朗尼原理 5


1.2.3 邦弗朗尼原理的一個例子 6


1.2.4 習題 7


1.3 相關知識 7


1.3.1 詞語在文檔中的重要性 7


1.3.2 哈希函數 8


1.3.3 索引 9


1.3.4 二級存儲器 10


1.3.5 自然對數的底e 11


1.3.6 冪定律 12


1.3.7 習題 13


1.4 本書概要 14


1.5 小結 15


1.6 參考文獻 16


第 2章 MapReduce和新軟件!17


2.1 分布式文件系統 18


2.1.1 計算節點的物理結構 18


2.1.2 大規模文件系統的結構 19


2.2 MapReduce 20


2.2.1 Map任務 21


2.2.2 按鍵分組 21


2.2.3 Reduce任務 22


2.2.4 組合器 22


2.2.5 MapReduce的執行細節 23


2.2.6 節點故障的處理 24


2.2.7 習題 24


2.3 使用MapReduce的算法 24


2.3.1 基于MapReduce的矩陣—向量乘法實現 25


2.3.2 向量v無法放入內存時的處理 26


2.3.4 基于MapReduce的選擇運算 28


2.3.5 基于MapReduce的投影運算 28


2.3.6 基于MapReduce的并、交和差運算 29


2.3.7 基于MapReduce的自然連接運算 29


2.3.8 基于MapReduce的分組和聚合運算 30


2.3.9 矩陣乘法 30


2.3.10 基于單步MapReduce的矩陣乘法 31


2.3.11 習題 32


2.4 MapReduce的擴展 32


2.4.1 工作流系統 33


2.4.2 Spark 34


2.4.3 Spark實現 36


2.4.4 TensorFlow 37


2.4.5 MapReduce的遞歸擴展版本 38


2.4.6 整體同步系統 40


2.4.7 習題 41


2.5 通信開銷模型 41


2.5.1 任務網絡的通信開銷 42


2.5.2 時鐘時間 43


2.5.3 多路連接 43


2.5.4 習題 46


2.6 MapReduce復雜性理論 47


2.6.1 Reducer規模及復制率 47


2.6.2 一個例子:相似性連接 48


2.6.3 MapReduce問題的一個圖模型 51


2.6.5 并非所有輸入都存在時的處理 52


2.6.7 案例分析:矩陣乘法 54


2.6.8 習題 57


2.7 小結 58


2.8 參考文獻 59


第3章 相似項發現 61


3.1 集合相似度的應用 62


3.1.1 集合的Jaccard相似度 62


3.1.2 文檔的相似度 62


3.1.3 協同過濾——一個集合相似問題 63


3.1.4 習題 64


3.2 文檔的shingling 65


3.2.1 k-shingle 65


3.2.2 shingle大小的選擇 65


3.2.3 對shingle進行哈!66


3.2.4 基于詞的shingle 66


3.2.5 習題 67


3.3 保持相似度的集合摘要表示 67


3.3.1 集合的矩陣表示 67


3.3.2 *小哈!68


3.3.3 *小哈希和Jaccard相似度 69


3.3.4 *小哈希簽名 69


3.3.5 *小哈希簽名的計算 70


3.3.6 對*小哈希加速 72


3.3.7 使用哈希加速 73


3.3.8 習題 75


3.4 文檔的局部敏感哈希算法 76


3.4.1 面向*小哈希簽名的LSH 76


3.4.2 行條化策略的分析 77


3.4.3 上述技術的綜合 79


3.4.4 習題 79


3.5 距離測度 80


3.5.1 距離測度的定義 80


3.5.2 歐氏距離 80


3.5.3 Jaccard 距離 81


3.5.4 余弦距離 81


3.5.5 編輯距離 82


3.5.6 海明距離 83


3.5.7 習題 83


3.6 局部敏感函數理論 85


3.6.1 局部敏感函數 85


3.6.2 面向Jaccard距離的局部敏感函數族 86


3.6.3 局部敏感函數族的放大處理 87


3.6.4 習題 89


3.7 面向其他距離測度的LSH函數族 89


3.7.1 面向海明距離的LSH函數族 89


3.7.2 隨機超平面和余弦距離 90


3.7.3 梗概 91


3.7.4 面向歐氏距離的LSH函數族 91


3.7.5 面向歐氏空間的更多LSH函數族 92


3.7.6 習題 93


3.8 LSH函數的應用 93


3.8.1 實體關聯 94


3.8.2 一個實體關聯的例子 94


3.8.3 記錄匹配的驗證 95


3.8.4 指紋匹配 96


3.8.5 適用于指紋匹配的LSH函數族 98


3.8.7 習題 99


3.9 面向高相似度的方法 99


3.9.1 相等項發現 99


3.9.2 集合的字符串表示方法 100


3.9.3 基于長度的過濾 100


3.9.4 前綴索引 101


3.9.5 位置信息的使用 102


3.9.6 使用位置和長度信息的索引 103


3.9.7 習題 105


3.10 小結 106


3.11 參考文獻 108


第4章 數據流挖掘 109


4.1 流數據模型 109


4.1.1 一個數據流管理系統 109


4.1.2 流數據源的例子 110


4.1.3 流查詢 111


4.1.4 流處理中的若干問題 112


4.2 流當中的數據抽樣 112


4.2.1 一個富有啟發性的例子 112


4.2.2 代表性樣本的獲取 113


4.2.3 一般的抽樣問題 114


4.2.4 樣本規模的變化 114


4.2.5 習題 115


4.3 流過濾 115


4.3.1 一個例子 115


4.3.2 布隆過濾器 116


4.3.3 布隆過濾方法的分析 116


4.3.4 習題 117


4.4 流中獨立元素的數目統計 118


4.4.1 獨立元素計數問題 118


4.4.2 FM算法 118


4.4.3 組合估計 119


4.4.4 空間需求 120


4.4.5 習題 120


4.5 矩估計 120


4.5.1 矩定義 120


4.5.2 二階矩估計的AMS算法 121


4.5.3 AMS算法有效的原因 122


4.5.4 更高階矩的估計 122


4.5.5 無限流的處理 123


4.5.6 習題 124


4.6 窗口內的計數問題 124


4.6.1 精確計數的開銷 125


4.6.2 DGIM算法 125


4.6.3 DGIM算法的存儲需求 127


4.6.4 DGIM算法中的查詢應答 127


4.6.5 DGIM條件的保持 127


4.6.6 降低錯誤率 128


4.6.7 窗口內計數問題的擴展 129


4.6.8 習題 130


4.7 衰減窗口 130


4.7.1 *常見元素問題 130


4.7.2 衰減窗口的定義 130


4.7.3 *流行元素的發現 131


4.8 小結 132


4.9 參考文獻 133


第5章 鏈接分析 134


5.1 PageRank 134


5.1.1 早期的搜索引擎及詞項作弊 134


5.1.2 PageRank的定義 136


5.1.3 Web結構 138


5.1.4 避免終止點 140


5.1.5 采集器陷阱和“抽稅”法 142


5.1.6 PageRank在搜索引擎中的使用 144


5.1.7 習題 144


5.2 PageRank的快速計算 145


5.2.1 轉移矩陣的表示 146


5.2.2 基于MapReduce的PageRank迭代計算 146


5.2.3 結果向量合并時的組合器使用 147


5.2.4 轉移矩陣中塊的表示 148


5.2.5 其他高效的PageRank迭代方法 149


5.2.6 習題 150


5.3 面向主題的PageRank 150


5.3.1 動機 150


5.3.2 有偏的隨機游走模型 151


5.3.3 面向主題的PageRank的使用 153


5.3.5 習題 153


5.4 鏈接作弊 153


5.4.1 垃圾農場的架構 154


5.4.2 垃圾農場的分析 155


5.4.3 與鏈接作弊的斗爭 156


5.4.4 TrustRank 156


5.4.5 垃圾質量 156


5.4.6 習題 157


5.5 導航頁和權威頁 157


5.5.1 HITS的直觀意義 158


5.5.2 導航度和權威度的形式化 158


5.5.3 習題 161


5.6 小結 161


5.7 參考文獻 164


第6章 頻繁項集 165


6.1 購物籃模型 165


6.2 購物籃和A-Priori算法 171


6.3 更大數據集在內存中的處理 178


6.4 有限掃描算法 185


6.5 流中的頻繁項計數 190


6.6 小結 192


6.7 參考文獻 194


第7章 聚類 195


7.1 聚類技術介紹 195


7.2 層次聚類 198


7.3 k-均值算法 206


7.4 CURE算法 212


7.5 非歐空間下的聚類 215


7.6 流聚類及并行化 218


7.7 小結 222


7.8 參考文獻 224


第8章 Web廣告 226


8.1 在線廣告相關問題 226


8.2 在線算法 228


8.3 廣告匹配問題 231


8.4 adwords問題 233


8.5 adwords的實現 240


8.6 小結 243


8.7 參考文獻 245


第9章 推薦系統 246


9.1 推薦系統的模型 246


9.2 基于內容的推薦 249


9.3 協同過濾 257


9.4 降維處理 262


9.5 Netflix競賽 270


9.6 小結 271


9.7 參考文獻 272


第 10章 社會網絡圖挖掘 273


10.1 將社會網絡看成圖 273


10.2 社會網絡圖的聚類 277


10.3 社區的直接發現 283


10.4 圖劃分 287


10.5 重疊社區的發現 293


10.6 Simrank 299


10.7 三角形計數問題. 306


10.8 圖的鄰居性質 311


10.9 小結 324


10.10 參考文獻 326


第 11章 降維處理 328


11.1 特征值和特征向量 328


11.2 主成分分析 334


11.3 奇異值分解 339


11.4 CUR分解 347


11.5 小結 352


11.6 參考文獻 353


第 12章 大規模機器學習 354


12.1 機器學習模型 354


12.2 感知機 360


12.3 支持向量機 371


12.4 近鄰學習 381


12.5 決策樹 387


12.6 各種學習方法的比較 397


12.7 小結 397


12.8 參考文獻 399


第 13章 神經網絡與深度學習 400


13.1 神經網絡簡介 400


13.2 密集型前饋網絡 405


13.3 反向傳播與梯度下降 413


13.4 卷積神經網絡 420


13.5 循環神經網絡 427


13.6 正則化 433


13.7 小結 435


13.8 參考文獻 436


展開全部

斯坦福數據挖掘教程 作者簡介

【作者簡介】 尤雷.萊斯科夫(Jure Leskovec) Pinterest公司首席科學家,斯坦福大學計算機科學系副教授,研究方向為大型社交和信息網絡的數據挖掘。他的研究成果獲得了很多獎項,如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship,還獲得了很多最佳論文獎,同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《連線》、NBC、BBC和CBC等流行的社會媒體刊載。他還創建了斯坦福網絡分析平臺(SNAP)。 阿南德.拉賈拉曼(Anand Rajaraman) 數據庫和Web技術領域領軍者,硅谷連續創業者和風險投資人,斯坦福大學計算機科學系助理教授。自1996年起創立過多家公司,這些公司先后被亞馬遜、谷歌和沃爾瑪集團收購,而他本人歷任亞馬遜技術總監、沃爾瑪負責全球電子商務業務的副總裁。之后創立了風投公司Milliways Ventures和Rocketship VC,投資過Facebook、Lyft等眾多公司。作為學者,他主要研究數據庫系統、Web和社交媒體,他的研究論文在學術會議上獲得了多個獎項,他在2012年被Fast Company雜志列入“商界Z具創造力100人”。 杰弗里.大衛.厄爾曼(Jeffrey David Ullman) 計算機科學家,美國國家工程院院士,2020年圖靈獎得主。早年在貝爾實驗室工作,之后任教于普林斯頓大學,十年后加入斯坦福大學直至退休,一生的科研、著書和育人成果卓著。他是ACM會員,曾獲SIGMOD創新獎、高德納獎、馮諾依曼獎等多項科研大獎;合著有“龍書”《編譯原理》、數據庫名著《數據庫系統實現》等多部經典著作;培養的多名學生已成為數據庫領域的專家,其中包括谷歌聯合創始人Sergey Brin,本書第二作者也是他的得意弟子。目前擔任Gradiance公司CEO。 【譯者簡介】 王斌博士 小米AI實驗室主任,NLP首席科學家。中國中文信息學會理事,《中文信息學報》編委。加入小米公司之前,是中科院研究員、博導及中科院大學教授。譯有《信息檢索導論》《大數據:互聯網大規模數據挖掘與分布式處理》和《機器學習實戰》等書。 王達侃 優刻得AI部門負責人,曾任WeWork Research & Applied Science中國區負責人,并曾在LinkedIn、Twitter和微軟亞洲研究院負責AI以及大數據方向的研發工作。碩士畢業于美國斯坦福大學計算機系,本科畢業于上海交通大學ACM班。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 杰福伦_磁致伸缩位移传感器_线性位移传感器-意大利GEFRAN杰福伦-河南赉威液压科技有限公司 | 家用净水器代理批发加盟_净水机招商代理_全屋净水器定制品牌_【劳伦斯官网】 | 深圳成考网-深圳成人高考报名网 深圳工程师职称评定条件及流程_深圳职称评审_职称评审-职称网 | 东莞猎头公司_深圳猎头公司_广州猎头公司-广东万诚猎头提供企业中高端人才招聘服务 | 宿舍管理系统_智慧园区系统_房屋/房产管理系统_公寓管理系统 | 北京模型公司-军事模型-工业模型制作-北京百艺模型沙盘公司 | 英国公司注册-新加坡公司注册-香港公司开户-离岸公司账户-杭州商标注册-杭州优创企业 | 高压分散机(高压细胞破碎仪)百科-北京天恩瀚拓 | 嘉兴恒升声级计-湖南衡仪声级计-杭州爱华多功能声级计-上海邦沃仪器设备有限公司 | 贵州自考_贵州自学考试网| 节流截止放空阀-不锈钢阀门-气动|电动截止阀-鸿华阀门有限公司 | 科研ELISA试剂盒,酶联免疫检测试剂盒,昆虫_植物ELISA酶免试剂盒-上海仁捷生物科技有限公司 | 【德信自动化】点胶机_全自动点胶机_自动点胶机厂家_塑料热压机_自动螺丝机-深圳市德信自动化设备有限公司 | 水平筛厂家-三轴椭圆水平振动筛-泥沙震动筛设备_山东奥凯诺矿机 包装设计公司,产品包装设计|包装制作,包装盒定制厂家-汇包装【官方网站】 | 柔性输送线|柔性链板|齿形链-上海赫勒输送设备有限公司首页[输送机] | 变频器维修公司_plc维修_伺服驱动器维修_工控机维修 - 夫唯科技 变位机,焊接变位机,焊接变位器,小型变位机,小型焊接变位机-济南上弘机电设备有限公司 | 杜康白酒加盟_杜康酒代理_杜康酒招商加盟官网_杜康酒厂加盟总代理—杜康酒神全国运营中心 | 学生作文网_中小学生作文大全与写作指导 | 东莞精密模具加工,精密连接器模具零件,自動機零件,冶工具加工-益久精密 | 自动螺旋上料机厂家价格-斗式提升机定制-螺杆绞龙输送机-杰凯上料机 | 筒瓦厂家-仿古瓦-寺庙-古建琉璃瓦-宜兴市古典园林建筑陶瓷厂有限公司 | 温州富欧金属封头-不锈钢封头厂家 | 执业药师报名时间,报考条件,考试时间-首页入口 | 深圳天际源广告-形象堆头,企业文化墙,喷绘,门头招牌设计制作专家 | 冷藏车-东风吸污车-纯电动环卫车-污水净化车-应急特勤保障车-程力专汽厂家-程力专用汽车股份有限公司销售二十一分公司 | 震动筛选机|震动分筛机|筛粉机|振筛机|振荡筛-振动筛分设备专业生产厂家高服机械 | 脱硝喷枪-氨水喷枪-尿素喷枪-河北思凯淋环保科技有限公司 | 精密五金加工厂-CNC数控车床加工_冲压件|蜗杆|螺杆加工「新锦泰」 | 东莞画册设计_logo/vi设计_品牌包装设计 - 华略品牌设计公司 | 环保袋,无纺布袋,无纺布打孔袋,保温袋,环保袋定制,环保袋厂家,环雅包装-十七年环保袋定制厂家 | 空心明胶胶囊|植物胶囊|清真胶囊|浙江绿键胶囊有限公司欢迎您! | 蒸压釜_蒸养釜_蒸压釜厂家-山东鑫泰鑫智能装备有限公司 | 微信聊天记录恢复_手机短信删除怎么恢复_通讯录恢复软件下载-快易数据恢复 | ★店家乐|服装销售管理软件|服装店收银系统|内衣店鞋店进销存软件|连锁店管理软件|收银软件手机版|会员管理系统-手机版,云版,App | 江苏南京多语种翻译-专业翻译公司报价-正规商务翻译机构-南京华彦翻译服务有限公司 | 胶原检测试剂盒,弹性蛋白检测试剂盒,类克ELISA试剂盒,阿达木单抗ELISA试剂盒-北京群晓科苑生物技术有限公司 | 同学聚会纪念册制作_毕业相册制作-成都顺时针宣传画册设计公司 | 爆炸冲击传感器-无线遥测传感器-航天星百科| 辐射色度计-字符亮度测试-反射式膜厚仪-苏州瑞格谱光电科技有限公司 | 郑州墨香品牌设计公司|品牌全案VI设计公司 | 高温链条油|高温润滑脂|轴承润滑脂|机器人保养用油|干膜润滑剂-东莞卓越化学 |