PYTHON數(shù)據(jù)挖掘實戰(zhàn)——數(shù)據(jù)陷阱與異常檢測 版權信息
- ISBN:9787113177058
- 條形碼:9787113177058 ; 978-7-113-17705-8
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
PYTHON數(shù)據(jù)挖掘實戰(zhàn)——數(shù)據(jù)陷阱與異常檢測 本書特色
以數(shù)據(jù)視角,發(fā)現(xiàn)謊言、造假、陷阱和異常,讓您練就一雙洞悉真相的慧眼。理論與實踐結合:以統(tǒng)計學常用理論,以及本福特定律、規(guī)模法則、諾貝爾經(jīng)濟學獎、AP聚類等理論為基礎,結合Python編程,進行數(shù)據(jù)挖掘。案例實用:以需求為導向,精選與日常工作生活息息相關的公司年報、公司財務、經(jīng)濟、電商等方向案例。案例易復現(xiàn):圖、文、代碼、表格并茂,代碼注釋完整、講解詳細,結果可輕易復現(xiàn)。
PYTHON數(shù)據(jù)挖掘實戰(zhàn)——數(shù)據(jù)陷阱與異常檢測 內容簡介
全書以識別數(shù)據(jù)謊言、造假和欺詐為目標,以數(shù)據(jù)挖掘為技術手段,以Python編程語言為實現(xiàn)工具,完整展現(xiàn)了數(shù)據(jù)挖掘的全過程。在業(yè)務層面,涉及互聯(lián)網(wǎng)、財務、稅務、審計、銀行、電商、社保等行業(yè)具體應用場景。在技術層面,涉及統(tǒng)計分析、機器學習、深度學習等建模方法。本書具有“龐雜數(shù)據(jù)可視化,復雜模型簡單化,技術語言通俗化”的特點。每個章節(jié)開始,綜合運用各類圖表進行可視化展示,幫助讀者對龐雜的數(shù)據(jù)集有直觀認識。在算法層面,將使用到的數(shù)學模型進行簡化,用形象的比喻、簡化的公式、簡潔的圖表等揭示復雜的算法原理。
PYTHON數(shù)據(jù)挖掘實戰(zhàn)——數(shù)據(jù)陷阱與異常檢測 目錄
第 1章 Python編程基礎知識 …………………………………………………………… 11. 1 Python編程快速入門 ……………………………………………………………… 31. 1. 1 快速入門的幾個問題 ……………………………………………………… 31. 1. 2 安裝 Anaconda ……………………………………………………………… 31. 1. 3 **個案例 ………………………………………………………………… 61. 2 常見類型數(shù)據(jù)載入 ………………………………………………………………… 81. 2. 1 讀取 Excel文件 ……………………………………………………………… 81. 2. 2 讀取 txt文件 ………………………………………………………………… 81. 2. 3 讀取 pdf文件 ………………………………………………………………… 91. 2. 4 網(wǎng)頁文本數(shù)據(jù)獲取 ………………………………………………………… 111. 2. 5 圖片數(shù)據(jù)讀取 ……………………………………………………………… 121. 2. 6 視頻數(shù)據(jù)讀取 ……………………………………………………………… 121. 3 pandas數(shù)據(jù)處理 …………………………………………………………………… 131. 3. 1 pandas中的數(shù)據(jù)結構 ……………………………………………………… 131. 3. 2 創(chuàng)建 DateFrame數(shù)據(jù)表 …………………………………………………… 141. 3. 3 查看數(shù)據(jù)集基本信息 ……………………………………………………… 151. 3. 4 增加行、列 ………………………………………………………………… 171. 3. 5 刪除行、列 ………………………………………………………………… 191. 3. 6 篩選 ……………………………………………………………………… 201. 3. 7 選擇指定數(shù)據(jù) ……………………………………………………………… 221. 3. 8 修改列名 …………………………………………………………………… 251. 3. 9 索引的處理 ………………………………………………………………… 261. 3. 10 缺失值處理 ………………………………………………………………… 291. 3. 11 重復值處理 ………………………………………………………………… 331. 3. 12 替換 ………………………………………………………………………… 341. 3. 13 排序 ………………………………………………………………………… 361. 3. 14 連接與合并 ………………………………………………………………… 381. 3. 15 分列 ………………………………………………………………………… 401. 3. 16 分組 ………………………………………………………………………… 411. 3. 17 日期處理 …………………………………………………………………… 411. 3. 18 數(shù)據(jù)統(tǒng)計 …………………………………………………………………… 421. 3. 19 數(shù)據(jù)計算 …………………………………………………………………… 431. 3. 20 遍歷 ………………………………………………………………………… 441. 3. 21 應用函數(shù) …………………………………………………………………… 451. 4 數(shù)據(jù)呈現(xiàn) …………………………………………………………………………… 461. 4. 1 折線圖 ……………………………………………………………………… 461. 4. 2 柱狀圖 ……………………………………………………………………… 471. 4. 3 餅圖 ………………………………………………………………………… 471. 4. 4 箱型圖 ……………………………………………………………………… 481. 4. 5 小提琴圖 …………………………………………………………………… 511. 4. 6 散點圖 ……………………………………………………………………… 511. 4. 7 矩陣熱力圖 ………………………………………………………………… 531. 4. 8 詞云圖 ……………………………………………………………………… 541. 4. 9 動漫風格圖表 ……………………………………………………………… 55本章小結 …………………………………………………………………………………… 62第 2章 不同階段常見的數(shù)據(jù)陷阱 …………………………………………………… 632. 1 數(shù)據(jù)采集階段 ……………………………………………………………………… 652. 1. 1 數(shù)據(jù)量不足 ………………………………………………………………… 652. 1. 2 選擇偏差 …………………………………………………………………… 672. 1. 3 幸存者偏差 ………………………………………………………………… 672. 1. 4 中心極限定理 ……………………………………………………………… 672. 2 數(shù)據(jù)分析階段 ……………………………………………………………………… 692. 2. 1 大數(shù)定律 …………………………………………………………………… 692. 2. 2 蒙地卡羅謬誤 ……………………………………………………………… 702. 2. 3 誤判相關因果 ……………………………………………………………… 752. 2. 4 忽略均值回歸 ……………………………………………………………… 772. 2. 5 誰在偷懶 …………………………………………………………………… 782. 2. 6 蒙提 ·霍爾悖論 …………………………………………………………… 812. 2. 7 黑天鵝事件 ………………………………………………………………… 832. 3 數(shù)據(jù)呈現(xiàn)階段 ……………………………………………………………………… 832. 3. 1 選擇性呈現(xiàn) ………………………………………………………………… 832. 3. 2 辛普森悖論 ………………………………………………………………… 852. 3. 3 用圖表改變數(shù)據(jù) …………………………………………………………… 892. 4 數(shù)據(jù)建模中的常見問題 ………………………………………………………… 912. 4. 1 忽略異常值 ………………………………………………………………… 912. 4. 2 過擬合與欠擬合 …………………………………………………………… 922. 4. 3 如何應對數(shù)據(jù)量不足 ……………………………………………………… 952. 4. 4 非均衡數(shù)據(jù)處理 …………………………………………………………… 96本章小結 …………………………………………………………………………………… 97目 錄第 3章 利用本福特定律分析公司年報 ……………………………………………… 993. 1 準備工作 …………………………………………………………………………… 1013. 1. 1 財報造假識別理論 ———本福特定律 ……………………………………… 1013. 1. 2 建模思路 …………………………………………………………………… 1023. 1. 3 編程環(huán)境 …………………………………………………………………… 1023. 2 利用本福特定律判斷 Meta公司年報可信度 ………………………………… 1033. 2. 1 獲取 Meta公司年報數(shù)據(jù) ………………………………………………… 1043.2.2 “全選、復制 ”網(wǎng)頁文本 …………………………………………………… 1053.2.3 “正則表達式 ”提取網(wǎng)頁中的數(shù)字 ……………………………………… 1063. 2. 4 提取首位數(shù)字 ……………………………………………………………… 1083. 2. 5 利用本福特定律建模 ……………………………………………………… 1103. 2. 6 可信度判斷 ………………………………………………………………… 1113. 2. 7 形成結論 …………………………………………………………………… 1143. 3 利用本福特定律分析 A股上市公司的年報 ………………………………… 1143. 3. 1 載入 pdf格式的公司年報 ………………………………………………… 1143. 3. 2 中文年報文本數(shù)據(jù)分析 …………………………………………………… 1153. 3. 3 年份數(shù)字對本福特定律的影響 …………………………………………… 1183. 3. 4 提取表格內數(shù)字并分析 …………………………………………………… 1203. 3. 5 結論 ………………………………………………………………………… 1233. 4 本福特定律的延伸 ……………………………………………………………… 1243. 4. 1 還有哪些數(shù)據(jù)可能符合本福特定律 ……………………………………… 1243. 4. 2 本福特定律應用場景 ……………………………………………………… 124本章小結 ………………………………………………………………………………… 125第 4章 利用規(guī)模法則發(fā)現(xiàn)財務數(shù)據(jù)異常 ………………………………………… 1274. 1 規(guī)模法則 …………………………………………………………………………… 1294. 1. 1 認識規(guī)模法則 ……………………………………………………………… 1294. 1. 2 如何將規(guī)模法則用于監(jiān)測公司財務數(shù)據(jù)異常 …………………………… 1294. 2 探索性數(shù)據(jù)分析 ………………………………………………………………… 1314. 2. 1 獲取 A股上市公司財務數(shù)據(jù) …………………………………………… 1314. 2. 2 缺失數(shù)據(jù)可視化 …………………………………………………………… 1334. 2. 3 統(tǒng)一收入單位 ……………………………………………………………… 1344. 2. 4 數(shù)據(jù)集分布形態(tài) …………………………………………………………… 1354. 2. 5 數(shù)據(jù)集關系分析 …………………………………………………………… 1364. 2. 6 對數(shù)變換 …………………………………………………………………… 1374. 3 利用規(guī)模法則進行數(shù)據(jù)建模 …………………………………………………… 1394. 3. 1 變量選取 …………………………………………………………………… 1394. 3. 2 線性回歸 …………………………………………………………………… 1404. 3. 3 財務數(shù)據(jù)異常的公司名單 ………………………………………………… 142Python數(shù)據(jù)挖掘實戰(zhàn) ———數(shù)據(jù)陷阱與異常檢測本章小結 ………………………………………………………………………………… 145第 5章 利用決策樹進行信貸數(shù)據(jù)異常檢測 ……………………………………… 1475. 1 數(shù)據(jù)可視化與異常數(shù)據(jù)處理 …………………………………………………… 1495. 1. 1 數(shù)據(jù)集概覽 ………………………………………………………………… 1495. 1. 2 數(shù)據(jù)缺失情況統(tǒng)計 ………………………………………………………… 1515. 1. 3 利用直方圖查看數(shù)據(jù)分布 ………………………………………………… 1535. 1. 4 利用箱型圖查看異常數(shù)據(jù) ………………………………………………… 1565. 1. 5 異常值處理 ………………………………………………………………… 1585. 1. 6 利用小提琴圖展示異常值處理后的數(shù)據(jù) ………………………………… 1595. 2 利用決策樹進行逾期風險預判 ………………………………………………… 1615. 2. 1 決策樹建模流程 …………………………………………………………… 1615. 2. 2 決策樹原理簡介 …………………………………………………………… 1615. 2. 3 模型實現(xiàn) …………………………………………………………………… 1665. 2. 4 模型優(yōu)化 …………………………………………………………………… 172本章小結 ………………………………………………………………………………… 177第 6章 利用 AP聚類算法識別電商平臺刷單行為 ……………………………… 1796. 1 數(shù)據(jù)建模 …………………………………………………………………………… 1816. 1. 1 問題轉換思路 ……………………………………………………………… 1816. 1. 2 數(shù)據(jù)獲取 …………………………………………………………………… 1816. 1. 3 建模工具 …………………………………………………………………… 1836. 2 探索性數(shù)據(jù)分析 ………………………………………………………………… 1846. 2. 1 商品顏色分析 ……………………………………………………………… 1846. 2. 2 商品尺碼分析 ……………………………………………………………… 1876. 2. 3 評論時間異常分析 ………………………………………………………… 1886. 2. 4 利用詞袋模型分析 ………………………………………………………… 1906. 3 利用 AP聚類識別刷評論行為 ………………………………………………… 1946.3.1 AP聚類基本概念 ………………………………………………………… 1946. 3. 2 模型設計 …………………………………………………………………… 1956. 3. 3 程序實現(xiàn) …………………………………………………………………… 1966. 3. 4 聚類算法 …………………………………………………………………… 204本章小結 ………………………………………………………………………………… 204
展開全部
PYTHON數(shù)據(jù)挖掘實戰(zhàn)——數(shù)據(jù)陷阱與異常檢測 作者簡介
劉寧,深圳大學信號與信息處理專業(yè)碩士研究生畢業(yè),目前主要從事智慧城市、數(shù)字政府建設等工作。曾出版《Python大數(shù)據(jù)分析與應用實戰(zhàn)》、《高維信息幾何與幾何不變量》等書籍,發(fā)表SCI論文“Content-based image retrieval using high-dimensional information geometry”,獲開源軟件設計大賽大獎等。