-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
深入淺出AI算法:基礎概覽 版權信息
- ISBN:9787121415517
- 條形碼:9787121415517 ; 978-7-121-41551-7
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
深入淺出AI算法:基礎概覽 本書特色
√ 本書深入淺出話AI,將看似高深莫測的AI技術抽絲剝繭、化繁為簡,娓娓道來。 √ 本書從理論到實踐,循序漸進地介紹了人工智能算法的基礎知識。 √ 本書每章的末尾提煉出了該章的核心關鍵詞,方便讀者查詢回顧。 √ 歸納和總結出AI基礎學習路徑,讓感興趣的“門外漢”學習人工智能是什么、做什么及怎么做。
深入淺出AI算法:基礎概覽 內容簡介
本書從理論到實踐,循序漸進地介紹人工智能算法的基礎知識,幫助讀者敲開人工智能算法之門。本書共有8 章,分別為算法入門、算法之內力、算法之招式、算法之武功秘籍、算法工程的組成部分、算法工程實戰、進階學習、思考與展望。本書主要講解算法的歷史背景與基本概念、與算法相關的數學基礎知識、信息學算法與數據結構的概念與知識點、業界常用的幾類機器學習算法模型;本書還會介紹算法工程比較完整的組成部分,以及一個典型的算法工程項目,手把手帶領讀者體驗算法的魅力;此外,本書會介紹人工智能算法的三大研究方向,幫讀者邁向進階學習之路。本書適合從事人工智能應用實踐的科研人員和工程技術人員閱讀,也適合高等院校計算機科學與技術、人工智能、大數據等相關專業的本科生和研究生閱讀。
深入淺出AI算法:基礎概覽 目錄
目錄
第1章 算法入門 / 1
1.1 打開算法之門 / 2
1.1.1 算法簡史 / 2
1.1.2 算法與人工智能 / 5
1.1.3 什么是數據分析 / 6
1.1.4 什么是數據挖掘 / 6
1.1.5 什么是機器學習 / 7
1.2 如何學習算法 / 8
1.3 本書結構 / 9
關鍵詞回顧 / 10
第2章 算法之內力 / 11
2.1 線性代數 / 12
2.1.1 名詞解釋 / 13
2.1.2 向量和矩陣 / 13
2.2 排列組合 / 19
2.3 高等數學 / 20
2.3.1 導數 / 20
2.3.2 梯度 / 23
2.4 概率與統計 / 23
2.4.1 名詞解釋 / 23
2.4.2 概率分布 / 26
2.5 *優化原理 / 33
2.6 動腦時刻 / 34
2.7 本章小結 / 35
關鍵詞回顧 / 36
第3章 算法之招式 / 37
3.1 數據結構 / 38
3.1.1 數組與鏈表 / 38
3.1.2 隊列和棧 / 40
3.1.3 樹 / 41
3.1.4 圖 / 43
3.1.5 散列表 / 45
3.2 基礎算法 / 46
3.2.1 排序 / 47
3.2.2 遞歸與分治 / 55
3.2.3 貪婪算法和動態規劃 / 57
3.2.4 搜索 / 60
3.2.5 *短路徑 / 61
3.2.6 *小生成樹 / 65
3.2.7 樹狀數組 / 67
3.2.8 線段樹 / 69
3.2.9 平衡二叉樹 / 72
3.2.10 并查集 / 75
3.2.11 匈牙利算法 / 78
3.3 在線評測系統 / 80
3.3.1 LeetCode / 81
3.3.2 POJ與ZOJ / 82
3.3.3 Tsinsen / 82
3.4 動腦時刻 / 83
3.5 本章小結 / 83
關鍵詞回顧 / 84
第4章 算法之武功秘籍 / 85
4.1 類別劃分 / 86
4.1.1 按是否有監督信號劃分 / 86
4.1.2 按學習目標劃分 / 89
4.2 線性回歸模型與邏輯回歸模型 / 90
4.2.1 線性回歸模型 / 90
4.2.2 邏輯回歸模型 / 92
4.3 人工神經網絡 / 95
4.3.1 初識人工神經網絡 / 95
4.3.2 深度神經網絡 / 97
4.3.3 卷積神經網絡 / 99
4.3.4 遞歸神經網絡 / 102
4.3.5 圖神經網絡 / 104
4.4 決策樹 / 106
4.4.1 概念與方法 / 106
4.4.2 剪枝 / 109
4.4.3 梯度提升決策樹 / 110
4.4.4 隨機森林 / 112
4.5 聚類 / 113
4.5.1 距離度量 / 114
4.5.2 劃分聚類 / 115
4.5.3 層次聚類 / 116
4.5.4 密度聚類 / 117
4.5.5 模型聚類 / 119
4.6 貝葉斯分類 / 121
4.6.1 概率基礎 / 121
4.6.2 樸素貝葉斯分類 / 124
4.7 支持向量機 / 125
4.8 動腦時刻 / 128
4.9 本章小結 / 129
關鍵詞回顧 / 129
第5章 算法工程的組成部分 / 133
5.1 數據分析 / 134
5.1.1 宏觀把握數據 / 134
5.1.2 微觀感受數據 / 137
5.1.3 分析方法 / 139
5.2 特征工程 / 141
5.2.1 數據預處理 / 141
5.2.2 特征分類 / 142
5.2.3 工程技巧 / 142
5.3 建模與調參 / 149
5.3.1 建模 / 150
5.3.2 調參 / 150
5.4 效果評估 / 151
5.4.1 數據集劃分 / 151
5.4.2 評估指標 / 152
5.4.3 直觀理解AUC / 155
5.5 模型托管 / 159
5.6 動腦時刻 / 160
5.7 本章小結 / 160
關鍵詞回顧 / 161
第6章 算法工程實戰 / 163
6.1 環境準備 / 164
6.1.1 設備配置 / 164
6.1.2 環境搭建 / 165
6.1.3 開發工具 / 167
6.1.4 基礎調試 / 168
6.2 開源算法庫 / 170
6.2.1 scikit-learn / 171
6.2.2 TensorFlow / 172
6.3 算法實踐 / 174
6.3.1 線性回歸模型 / 174
6.3.2 神經網絡模型 / 179
6.4 工程實戰 / 182
6.4.1 數據準備 / 182
6.4.2 數據分析 / 184
6.4.3 特征工程 / 188
6.4.4 模型訓練 / 189
6.4.5 模型的保存與載入 / 190
6.5 算法競賽介紹 / 191
6.5.1 Kaggle / 191
6.5.2 KDD Cup / 191
6.6 動腦時刻 / 192
6.7 本章小結 / 192
關鍵詞回顧 / 193
第7章 進階學習 / 195
7.1 深度學習 / 196
7.1.1 起源 / 196
7.1.2 難點與方法 / 197
7.1.3 經典模型:AlexNet / 201
7.2 強化學習 / 203
7.2.1 起源 / 203
7.2.2 流派與分類 / 204
7.2.3 經典案例:AlphaGo / 206
7.3 遷移學習 / 213
7.3.1 簡介 / 213
7.3.2 方法與研究方向 / 214
7.3.3 經典模型:TrAdaBoost / 215
7.4 動腦時刻 / 216
7.5 本章小結 / 217
關鍵詞回顧 / 217
第8章 思考與展望 / 219
8.1 思考 / 220
8.1.1 人工智能感悟 / 220
8.1.2 萬物數據化 / 221
8.2 展望 / 224
8.2.1 人工智能*終能做什么 / 224
8.2.2 人類*終能做什么 / 224
8.3 本章小結 / 225
深入淺出AI算法:基礎概覽 節選
在《三國演義》中,諸葛亮在調兵遣將時經常說:關羽聽令,給你三千精兵,從左路包抄曹軍;張飛聽令,給你五千精兵,從右路包抄曹軍。由此可知,諸葛亮在用兵打仗之前,必然已經掌握了己方有多少將領、精兵、殘兵、糧草、戰場地勢等情報。再如成語“量體裁衣”,是說按照身材尺寸裁剪出合適的衣服,用于比喻做事要從實際出發,因地制宜。算法工程也是同樣的道理。在算法工程中,能做到知己知彼、“量體裁衣”的關鍵步驟,非數據分析莫屬。 無論是數據挖掘、機器學習相關的算法比賽,還是工業界的推薦、排序等場景中的算法應用,如果沒有足夠的數據分析結論作為支撐,那么能夠取得的結果通常都不甚理想。為什么數據分析對機器學習算法結果的影響如此之深?有哪些實用的數據分析方法,這些方法在算法工程中又是如何起作用的呢? 5.1.1 宏觀把握數據 拿到數據,切勿著急生搬硬套模型,先統計各類指標或特征的數量,把握數據大局。這個數量包括但不限于樣本數據集的總數量、不同類別樣本的數量、各類特征或指標的數量、缺失值的數量及特征值的分布等。宏觀把握數據是數據分析的基礎,也是容易被忽視的一點,它能幫助我們避免一些基本問題。例如,在后續工作開展之前,先搞清楚所定算法目標是否合理,可以幫助我們少走彎路、不走死路,從而提高算法工程的實施效率。 舉個例子,在不考慮分布式訓練的情況下,如果需要知道算法模型從訓練任務啟動到完成需要花費多長時間,則可以用訓練樣本的總數量除以batch size①,再乘每批次訓練花費的時間,就能估算出一個epoch①花費的總時間,*后乘epoch的數量,即可得出算法模型的總體訓練時間。如果在訓練之前沒有統計樣本的總數量,那么模型訓練何時結束,就只能對著屏幕默默等待了。 一份擁有512條數據、特征維度為1000的數據集,假設batch size為128,一個epoch包含4個batch,epoch和batch之間的關系如圖5-1所示。 除此之外,如果發現驗證集或測試集中正、負例樣本的一方過少,如只有1個正例樣本的極端情況,則可以提前終止無意義的訓練過程,因為針對極端比例下的類別樣本數據集,無論是模型訓練,還是模型評估,都會完全失效。事先統計各類別樣本的數量,能提前發現樣本不均衡的問題,尤其在類別樣本比例差別較大時,一方面能幫助劃分訓練集、驗證集和測試集的大小,另一方面可以對樣本進行重采樣或降低采樣比例。樣本不均衡問題會在5.2.3節的特征工程技巧中進一步講解。 在一個動物分類數據集中,針對不同動物類別的數量統計結果如圖5-2所示。 對于數據字段的缺失問題(為空值或非法值),事先統計有助于掌握特征字段、標簽字段等關鍵字段的缺失程度。如果缺失字段占比較低(通常1%以下可以忽略不計),那么可以直接丟棄;如果缺失字段占比較高,那么可能是源頭數據出問題了,可以檢查源頭數據的收集過程是否存在問題,避免在訓練過程中再出現問題,從而提高算法工程的整體效率。 總之,在動手開始搭建算法模型前,對樣本數據集先有一個宏觀把控,可以幫助我們對算法目標有一個更清晰、具體的認識,從而做到少走彎路、有的放矢。 5.1.2 微觀感受數據 作為一門復雜學問,在機器學習算法工程中,無論采用什么模型,都不可能得到百分之百精確的結果。訓練再好的回歸模型,也不可能將預測值與真實值之間的預測誤差降為0;即使分類效果再好的分類模型,也不可能保證每次的分類結果一定是正確的。在機器學習算法工程中,我們的工作是盡可能地逼近目標和真相。除了繼續調參①優化模型,在數據層面,一方面,可以通過宏觀把握數據提前發現問題;另一方面,可以微觀感受數據,抽樣觀察單個樣本數據的行為表現并思考其合理性,對算法工程的開展也大有幫助。例如,在包含用戶行為序列的場景中,抽樣觀察具體的用戶行為序列,設身處地地理解和感受用戶行為特征,對用戶行為序列的建模大有裨益。 以電商場景為例,要真正理解用戶數據,就必須對用戶數據進行充分的觀察。總體而言,抽樣觀察用戶數據的方式主要有以下兩種。 **,抽樣觀察用戶個體維度的行為數據,換位思考,設身處地觀察具體的用戶行為序列,可以幫助我們更好地理解業務。行為數據是指用戶在時間維度上的連續動作,如頁面曝光、鍵盤輸入、頁面點擊、鼠標滑動、觸屏等行為。圖5-3所示為一段完整的用戶網上購物行為序列。筆者自從事電商行業相關算法工作以來,多次發現靠直覺得來的關于用戶行為的觀點,與用戶的實際行為表現并不相符。例如,直覺上認為用戶應該先單擊商品A,然后單擊商品B,由于運營規則、前端規則或用戶偏見等原因,用戶的實際行為表現可能會恰恰相反。 第二,抽樣觀察用戶個體維度的統計指標,可以幫助我們更好地進行業務建模。并不是所有業務場景都適合使用復雜模型,有時基于規則的方法在某些業務場景中更容易出效果。筆者曾經跟進過一個保險返利①項目,項目目標是挖掘參與保險購買活動的作弊用戶,從而減少因不正當手段獲取返利帶來的損失,凈化拉新②指標。在項目前期,我們直接使用人工標記的作弊訂單作為樣本標簽,基于邏輯回歸訓練了一個作弊分類器。但是,該作弊分類器在真實數據集上的分類效果很差。后來,我們根據對保險業務的重新理解,統計相關總體指標,提煉出幾條滿足非正常用戶的規則,并且通過規則篩選出了一批作弊訂單,然后在驗證階段通過電話逐一回訪,發現大部分用戶填寫的手機號是無法撥通的空號,因此確認這些訂單均為作弊訂單。在這個反作弊場景中,基于規則的算法不僅簡單易實現,作弊訂單命中率非常高,而且具備極強的模型可解釋性,只需根據當前作弊訂單所命中的作弊規則,給出相應的規則描述。這便是微觀感受數據帶來的價值。 ① 在算法模型訓練過程中,嘗試選擇不同的模型參數,從而達到*優預測結果,詳見5.3.2節。 ① 在體驗指定保險產品后返還紅包或實物獎品。 ② 營銷活動用詞,是指拉動與發展新用戶。 ① 每一批次同時輸入算法模型中訓練的樣本量。 ① 模型訓練的迭代單位,通常一個epoch表示遍歷一遍數據集中的所有樣本。
深入淺出AI算法:基礎概覽 作者簡介
呂 磊 微軟(中國)軟件工程師。本碩畢業于山東大學計算機科學與技術系,具有多年算法從業經驗,曾先后在京東廣告部、螞蟻金服人工智能部、亞馬遜AWS(中國)的AI產品相關部門從事算法工作,在工業界有著豐富的AI算法落地經驗。
- >
伊索寓言-世界文學名著典藏-全譯本
- >
姑媽的寶刀
- >
唐代進士錄
- >
詩經-先民的歌唱
- >
莉莉和章魚
- >
朝聞道
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
羅曼·羅蘭讀書隨筆-精裝