預估到手價是按參與促銷活動、以最優惠的購買方案計算出的價格(不含優惠券部分),僅供參考,未必等同于實際到手價。
-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
特征工程的藝術(通用技巧與實用案例) 版權信息
- ISBN:9787115588418
- 條形碼:9787115588418 ; 978-7-115-58841-8
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
特征工程的藝術(通用技巧與實用案例) 本書特色
為改善機器學習模型的表現,你會花多少時間修改輸入數據的特征?圖靈獎得主Yoshua Bengio曾說:“好的輸入特征是機器學習取得成功的基本條件。在產業化機器學習中,特征工程所占的工作量接近90%。”修改數據特征以更好地捕獲問題的本質,這是機器學習的重中之重。沒有高深的領域知識能否進行高質量的特征工程?本書直面這一充滿爭議的話題,在不考慮領域知識的情況下,給出了特征工程的一些通用技巧。此外,本書還展示了豐富的案例,涵蓋圖數據、時間戳數據、文本數據和圖像數據。你將在學習各種技巧和訣竅的過程中,逐漸領會特征工程的藝術。
特征工程的藝術(通用技巧與實用案例) 內容簡介
特征工程可以修改數據特征,更好地捕獲問題本質,從而改進結果。這個過程既是一種藝術,也是技巧和訣竅的一種結合。本書是一本特征工程實用指南,主要探討如何利用特征工程提升機器學習解決方案的性能。本書從特征工程的基本概念和技術開始介紹,建立了一種獨特的跨領域方法,通過充分研究案例詳細介紹了圖數據、時間戳數據、文本數據和圖像數據的處理方法,包括分箱、折外估計、特征選擇、數據降維和可變長度數據編碼等重要主題。
特征工程的藝術(通用技巧與實用案例) 目錄
第 1章 簡介 2
1.1 特征工程 4
1.2 模型評價 8
1.2.1 度量 8
1.2.2 交叉驗證 10
1.2.3 過擬合 11
1.2.4 維數災難 12
1.3 周期 12
1.3.1 ML周期 13
1.3.2 特征工程周期 15
1.4 分析 17
1.4.1 探索性數據分析 17
1.4.2 誤差分析 18
1.5 其他過程 20
1.5.1 領域建模 20
1.5.2 特征構建 22
1.6 討論 24
1.7 擴展學習 26
第 2章 特征組合:歸一化、離散化和異常值 28
2.1 歸一化特征 29
2.1.1 標準化和去相關性 31
2.1.2 平滑 33
2.1.3 特征加權 34
2.2 離散化和分箱 35
2.2.1 無監督離散化 36
2.2.2 監督離散化 38
2.3 描述性特征 41
2.3.1 直方圖 41
2.3.2 其他描述性特征 43
2.4 處理異常值 44
2.5 高級技術 46
2.6 擴展學習 47
第3章 特征擴展:可計算特征、填充與核技巧 48
3.1 可計算特征 49
3.2 填充 54
3.3 復雜特征分解 57
3.4 核操作特征擴展 59
3.5 擴展學習 62
第4章 特征縮減:特征選擇、降維和嵌入 64
4.1 特征選擇 65
4.1.1 度量 66
4.1.2 組成特征集:搜索與篩選 73
4.1.3 高級技術 75
4.2 正則化與嵌入式特征選擇 77
4.2.1 L2 正則化:嶺回歸 78
4.2.2 L1 正則化:LASSO 78
4.2.3 其他使用嵌入式特征選擇的算法 79
4.3 數據降維 80
4.3.1 特征哈希 81
4.3.2 隨機投影 82
4.3.3 奇異值分解 82
4.3.4 隱狄利克雷分配 83
4.3.5 聚類 84
4.3.6 其他數據降維技術 85
4.3.7 嵌入 86
4.4 擴展學習 90
第5章 高級主題:可變長度數據與自動特征工程 91
5.1 可變長度特征向量 91
5.1.1 集合 91
5.1.2 列表 92
5.1.3 樹 94
5.1.4 圖 96
5.1.5 時間序列 97
5.2 基于實例的特征工程 100
5.3 深度學習與特征工程 102
5.4 自動特征工程 105
5.4.1 特征學習 105
5.4.2 無監督特征工程 108
5.5 擴展學習 109
第二部分 案例研究
第6章 圖數據 113
6.0 本章概述 115
6.1 WikiCities數據集 116
6.2 探索性數據分析 117
6.3 第 一個特征集 124
6.4 第二個特征集 130
6.5 *終的特征集 131
6.6 擴展學習 133
第7章 時間戳數據 134
7.0 本章概述 135
7.1 WikiCities:歷史特征 137
7.2 時間延遲特征 139
7.2.1 填充時間戳數據 139
7.2.2 第 一次特征化:填充二階延遲數據 140
7.2.3 誤差分析 141
7.3 滑動窗口 142
7.4 第三次特征化:EMA 143
7.5 使用歷史數據進行擴展 143
7.5.1 第四次特征化:擴展的數據 144
7.6 時間序列 145
7.6.1 WikiCountries數據集 145
7.6.2 探索性數據分析 146
7.6.3 第 一次特征化:無TS特征 149
7.6.5 使用模型預測作為特征 149
7.6.6 討論 150
7.7 擴展學習 151
第8章 文本數據 153
8.0 本章概述 155
8.1 WikiCities:文本 156
8.2 探索性數據分析 156
8.3 僅數值型記號 159
8.3.1 詞類型與記號 160
8.3.2 分詞:基礎知識 160
8.3.3 第 一次特征化 161
8.4 詞袋 162
8.4.1 分詞 162
8.4.2 第二次特征化 163
8.5 停用詞和形態學特征 165
8.5.1 停用詞 165
8.5.2 分詞:詞干提取 166
8.5.3 第三次特征化 166
8.6 上下文特征 167
8.6.1 二元詞 168
8.6.2 第四次特征化 169
8.7 跳躍二元詞與特征哈希 169
8.7.1 跳躍二元詞 169
8.7.2 第五次特征化 169
8.8 數據降維與嵌入 170
8.8.1 嵌入 170
8.8.2 特征加權:TF-IDF 171
8.8.3 第六次特征化 172
8.9 結束語 172
8.9.1 內容擴展 174
8.9.2 文本中的結構 174
8.10 擴展學習 174
第9章 圖像數據 175
9.0 本章概述 176
9.1 WikiCities:衛星圖像 177
9.2 探索性數據分析 178
9.3 像素即特征 179
9.3.1 第 一次特征化 179
9.3.2 可計算特征:高斯模糊 180
9.3.3 白化 182
9.3.4 對變動的誤差分析 183
9.4 自動數據集擴展 183
9.4.1 仿射變換 184
9.4.2 第二次特征化 184
9.5 描述性特征:直方圖 184
9.6 局部特征檢測器:角點 185
9.6.1 Harris角點檢測 186
9.6.2 第四次特征化 186
9.7 數據降維:HOG 187
9.8 結束語 189
9.9 擴展學習 191
第 10章 其他領域:視頻、GIS和偏好 192
10.1 視頻 193
10.1.1 數據:屏幕錄制 194
10.1.2 關鍵幀檢測 194
10.1.3 目標跟蹤:均值漂移 195
10.1.4 擴展學習 197
10.2 地理特征 197
10.3 偏好 199
10.3.1 數據:Linux核心代碼提交 200
10.3.2 填充偏好數據 201
10.3.3 擴展學習 202
特征工程的藝術(通用技巧與實用案例) 作者簡介
巴勃羅.迪布(Pablo Duboue)NLP學者。2005年博士畢業于美國哥倫比亞大學,師從ACL前主席Kathleen McKeown教授,曾是IBM Watson DeepQA團隊成員。2016年創辦NLP技術公司Textualization。他有豐富的教學經驗,是世界多所大學的訪問教授。
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
經典常談
- >
推拿
- >
唐代進士錄
- >
名家帶你讀魯迅:故事新編
- >
李白與唐代文化
- >
月亮虎
- >
龍榆生:詞曲概論/大家小書