圖解數據科學 版權信息
- ISBN:9787522129372
- 條形碼:9787522129372 ; 978-7-5221-2937-2
- 裝幀:平裝
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
圖解數據科學 本書特色
數據的重要性與日俱增,我們在做出預測和決定之前,需要以過往的數據為支撐,數據甚至逐漸成為社會甚至國家的一種戰略資源。
作為數據科學的入門書,本書循序漸進地講解了數據的基本知識、分析方法,以及數據分析不可或缺的統計學知識,并且結合人工智能的發展介紹了數據處理的新的可能性。
將難懂的知識點用插圖直觀地表現出來,圖文結合,清晰易懂,初學者也能迅速上手!
每小節都是獨立知識點,可以按順序閱讀,成體系地掌握數據科學知識;也可以根據目錄找到自己的興趣點,是一本實用性滿分的學習指南。
圖解數據科學 內容簡介
從數據分析方法到數據科學基礎知識,你需要了解的知識全部在這本圖解書中!
當下,利用數據為自己的業務和服務提供支持是大勢所趨。但是,分析數據需要廣泛的知識,自己很難成體系地學習。
本書介紹了數據科學的基礎知識及周邊知識,包括數據、圖表的類型以及統計學、人工智能的基本知識等,網羅信息社會中數據活用的問題點,結合生動插圖,讓初學者也能迅速理解。
除了按順序閱讀,獲取系統的知識,讀者還可以從目錄中挑選感興趣的主題和關鍵詞,按照自己的需求閱讀,是一本實用性滿分的數據科學學習指南。
圖解數據科學 目錄
**章 數據科學的支撐技術
- 應對未來需求高漲的必修課 -
1-1 21 世紀的石油
數據、信息 ..........................................................................................002
1-2 數據為何越來越多
信息化社會、物聯網、信息社會、傳感器 .....................................004
1-3 綜合各種知識進行分析
數據科學、數據挖掘..........................................................................006
1-4 從數據中發現價值的職業
數據科學家、數據工程師、數據分析師..........................................008
1-5 數據不能直接拿來使用
結構化數據、非結構化數據..............................................................010
1-6 大量的數據是寶藏
數據、3 個 V........................................................................................012
1-7 人與計算機易于處理的數據不同
雜亂數據、整齊數據..........................................................................014
1-8 把握供數據使用的數據
主數據、元數據..................................................................................016
1-9 將數據整理到一處
數據基礎設施、商業智能儀表盤、數據管道 .................................018
1-10 對高效處理流程進行思考
算法、數據結構..................................................................................020
1-11 導出規則的實用化
模型、建模 ..........................................................................................022
1-12 用于處理數據的編程語言
R 語言、Python 語言、Julia 語言 ......................................................024
1-13 任何人都可以免費使用的數據
開放數據、e-Stat、WebAPI ..............................................................026
1-14 一邊娛樂,一邊學習分析方法
Kaggle、編程比賽、CTF ....................................................................028
1-15 圍繞 IT 進行思考
數字化轉型、數碼化、數字化 ..........................................................030
1-16 已經分析的數據的運用事例
聊天機器人、推薦 ..............................................................................032
1-17 購買了這款商品的顧客還同時購買了這樣的商品
購物籃分析、關聯分析、RFM 分析 .................................................034
1-18 根據數據進行不同的定價
動態定價、金融科技 ..........................................................................036
1-19 從小規模出發進行嘗試
概念驗證、小規模啟動 ......................................................................038
1-20 持續不斷地謀求改善
PDCA 循環、OODA 循環、反饋循環 ...............................................040
1-21 先行確定目標,之后有策略地進行實施
KPI、KGI、KSF .................................................................................042
1-22 把握與數據相關的人
用例、利益相關者 ..............................................................................044
試一試 嘗試一下對使用數據的事例進行調查吧 ........................... 046
第二章 數據的基礎
- 表示方法與讀取方法 -
2-1 數據的分類
名義尺度、定序尺度、定距尺度、比例尺度、定性變量、
定量變量 ..............................................................................................048
2-2 從范圍的角度對數據加以區分
頻數分布表、組、頻數、組距、直方圖..........................................050
2-3 區別使用各種圖形
棒狀圖、折線圖..................................................................................052
2-4 表示比例的圖形
餅狀圖、帶狀圖..................................................................................054
2-5 將各種數據展示于一張圖中
雷達圖、箱形圖..................................................................................056
2-6 構成數據基準的數值
代表性數值、平均值、中位數、魯棒性、眾數 .............................058
2-7 掌握數據離散程度
方差、標準偏差..................................................................................060
2-8 用一個標準判斷
變異系數、標準化、偏差值..............................................................062
2-9 處理不恰當的數據
異常值、缺失值..................................................................................064
2-10 為什么銷售額的八成來自兩成的商品 ?
帕累托定律、帕累托分析、帕累托圖、長尾效應 .........................066
2-11 對數量實施視覺展示
數據可視化、層級區分圖、文字云圖..............................................068
2-12 任何人都可以使用的便捷的數據分析工具
BI 工具、OLAP ....................................................................................070
2-13 集中管理數據
數據倉庫、數據湖、數據集市 ..........................................................072
2-14 對數據協作進行思考
ETL、EAI、ESB ..................................................................................074
2-15 對數據結構進行可視化
ER 圖、DFD 圖、CRUD 表、CRUD 圖 ............................................076
2-16 設計數據庫
正規化、非正規化 ..............................................................................078
2-17 對紙上打印的數據進行提取處理
OCR、OMR ..........................................................................................080
2-18 高精度、高速度地導入數據
條形碼、二維碼、NFC .......................................................................082
試一試 嘗試一下對使用數據的事例進行調查吧 ............................ 084
第三章 數據處理與充分利用
- 對數據進行分類和預測 -
3-1 根據獲取時間而變化的數據
時間序列數據、趨勢、噪聲、周期 ..................................................086
3-2 程序自動輸出的數據
日志、轉儲文件 ..................................................................................088
3-3 捕捉長期變化
移動平均法、移動平均線、加權移動平均法 .................................090
3-4 掌握兩個數軸之間的關系
散點圖、協方差、相關系數 ..............................................................092
3-5 不被表面的關系所欺騙
相關關系、因果關系、偽相關 ..........................................................094
3-6 立足于多個數軸進行匯總
交叉匯總、聯合分析、直交表 ..........................................................096
3-7 通過減少數軸的數量來把握特征
維度、主成分分析 ..............................................................................098
3-8 了解人們對兩點之間距離的看法
歐幾里得距離、曼哈頓距離 ..............................................................100
3-9 調查相似的角度
余弦相似度、Word2Vec .....................................................................102
3-10 數據分析不只有帥氣的一面
預處理、數據準備、數據清洗、數據分析識別 .............................104
3-11 明確多個數軸之間的關系
回歸分析、*小二乘法 ......................................................................106
3-12 了解高級回歸分析
多重回歸分析、邏輯回歸分析 ..........................................................108
3-13 對分類進行預測
判別分析、馬哈拉諾比斯距離 ..........................................................110
3-14 基于已掌握的知識進行數值推算
費米估算 ..............................................................................................112
3-15 實現對擲骰子結果的操控
隨機數、偽隨機數、隨機種子、蒙特卡羅法 .................................114
3-16 通過反復預測提高精度
德爾菲法、指數平滑法 .....................................................................116
3-17 了解各種分析方法
多變量分析、數量化一類、數量化二類、數量化三類 .................118
試一試 嘗試一下統計問卷調查的結果吧 ........................................ 120
第四章 需要了解的統計學知識
- 立足于數據推測答案 -
4-1 統計學的分類
描述統計學、推斷統計學..................................................................122
4-2 抽取數據
總體、樣本、隨機抽樣......................................................................124
4-3 用數值表示易發性
統計概率、數學概率、概率、期望值 .............................................126
4-4 針對幾個獨立事件同時發生的概率進行思考
同時概率、獨立性、互斥性、條件概率、概率的乘法定理.........128
4-5 基于結果對原因進行思考
先驗概率、后驗概率、貝葉斯定理、似然 .....................................130
4-6 把握數據的分布
概率分布、均勻分布、二項分布、正態分布、標準正態分布.....132
4-7 如果收集眾多數據,就能接近真實值
中心極限定理、大數定律..................................................................134
4-8 用函數來表示分布
概率密度函數、累積分布函數..........................................................136
4-9 根據抽取的數據推測原始的總體
無偏估計量、點估計、區間估計、置信區間 .................................138
4-10 在不知道方差的情況下進行推算
標準誤差、無偏方差、自由度、t 分布 ...........................................140
4-11 從統計學的角度進行驗證
檢驗、原假設、備譯假設、拒絕......................................................142
4-12 確定做出正確判斷的基準
檢驗統計量、拒絕域、顯著性水平、雙側檢驗、單側檢驗.........144
4-13 對檢驗結果做出判斷
p 值、顯著性差異、錯誤、**類錯誤、第二類錯誤 ..................146
4-14 檢驗平均值
Z 檢驗、t 檢驗 ....................................................................................148
4-15 檢驗方差
χ 2 分布、χ 2 檢驗、F 檢驗 ...................................................................150
試一試 嘗試檢驗一下身邊的食品吧 ................................................ 152
第五章 需要了解的有關人工智能的知識
- 常用的手法及其機制 -
5-1 打造與人類具有同等智慧的計算機
人工智能、圖靈測試 .........................................................................154
5-2 實現人工智能的手法
機器學習、監督學習、無監督學習、強化學習 .............................156
5-3 用于評價人工智能的指標
混淆矩陣、準確率、精確率、召回率、F 值、交叉驗證 .............158
5-4 掌握學習的進度
過擬合、欠擬合 ..................................................................................160
5-5 模仿大腦的學習方法
神經網絡、損失函數、誤差反向傳播法..........................................162
5-6 逐漸接近*優解
梯度下降法、局部解、學習率 ..........................................................164
5-7 深入各分層,利用大量數據進行學習
深度學習、CNN、RNN、LSTM.........................................................166
5-8 對誤差進行量化
偏差 - 方差分解、折中 ......................................................................168
5-9 提升精度
正則化、拉索回歸、嶺回歸 ..............................................................170
5-10 分成多個組
聚類、k 均值算法 ...............................................................................172
5-11 劃分為任意個簇
分層次聚類、Ward 法、*短距離法、*長距離法 ........................174
5-12 在樹結構中學習
決策樹、不純度、信息增益 ..............................................................176
5-13 使用多個人工智能進行多數表決
隨機森林、集成學習、引導聚集算法、提升方法 .........................178
5-14 評價規則的指標
支持度、置信度、提升度 ..................................................................180
5-15 邊界余量的*大化
支持向量機、超平面、硬余量、軟余量..........................................182
5-16 進行自動的機器學習
自動化機器學習、可解釋性人工智能 ..............................................184
5-17 結合各種方法尋找解決方法
運籌學、數理優化、數理設計法、概率設計法 .............................186
試一試 查找一下*新的論文吧 ........................................................ 188
第六章 有關安全與隱私的問題
- 數據社會將走向何方? -
6-1 處理數據時必須遵守道德
信息倫理、數據倫理 ..........................................................................190
6-2 數據可靠性堪憂
統計造假、技術人員倫理 .................................................................192
6-3 錯誤認識導致精度下降
數據偏差、算法偏差 .........................................................................194
6-4 在日本對于個人信息的處理
個人信息保護法、P 認證 ..................................................................196
6-5 在海外對于個人信息的處理
GDPR、CCPA ......................................................................................198
6-6 對個人信息的充分利用進行思考
假名化、匿名化、k- 匿名化 ............................................................200
6-7 對數據的流通、一般使用與充分利用進行思考
數據驅動型社會、超智能社會、信息銀行 ....................................202
6-8 制定處理數據時的規則
信息安全政策、隱私政策..................................................................204
6-9 公示收集數據的目的
使用目的、選擇加入、選擇退出......................................................206
6-10 了解保有數據的權利
知識產權、著作權..............................................................................208
6-11 自動獲得外部數據
抓取、爬取 ..........................................................................................210
6-12 對保有數據的讀取進行管理
訪問控制、備份..................................................................................212
6-13 防止從內部帶出數據
審計、數據泄露防護..........................................................................214
6-14 每次都能得到相同結果
冪等性 ..................................................................................................216
展開全部
圖解數據科學 作者簡介
[日]增井敏克
增井技術士事務所代表,獲得日本信息工學部門技術資格認證。
畢業于大阪府立大學研究生院。通過技術工程師(網絡、信息安全)考試和其他多項信息處理技術人員考試。
通過商務數學檢定1級,獲得公益財團法人日本數學檢定協會認定,以培訓師身份展開活動。
開創“商務×數學×IT”模式,幫助客戶正確、高效提升計算機技能,并致力于各種軟件的開發。
著作有《完全圖解網絡與信息安全》《完全圖解編程原理》《程序員的算法趣題》《用Python編程和實踐!算法入門》《IT用語圖鑒》等。