-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
EFFECTIVE數據科學基礎設施 版權信息
- ISBN:9787302641865
- 條形碼:9787302641865 ; 978-7-302-64186-5
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
EFFECTIVE數據科學基礎設施 本書特色
《Effective數據科學基礎設施》由Netflix工程師Ville Tuulos撰寫,以Metaflow為對象,介紹了數據科學所需要的基礎設施,囊括數據準備、特征工程、模型訓練、模型部署、服務和持續監控等環節。Metaflow專注于構建生產流程,更適合具有深厚工程和DevOps技能的大型專業數據科學團隊。本書的目標讀者為數據科學家、機器學習工程師、IT 技術人員和MLOps工程師。數據科學家在人工智能和算法方面非常精通,但軟件開發能力通常不足。他們渴望有一套方法論和工具來促進從構建到部署的迭代過程,從而落實自己的想法。數據科學家不在意在一個“孤島”。上開展數據挖掘和分析工作,他們更希望能夠在離線、實時和批處理等場景中落實項目。IT技術人員對機器學習算法理論和模型細節并不了解,他們渴望本書能夠提供一個機器學習流程的全貌,便于他們進行任務編排。此外,一些企業的中高層管理人員可通過本書獲取MLOps管理理念,為制定AI項目管理和KPI考核提供參考依據。總之,與傳統的軟件工程師技能要求相比,MLOps工程師除了需要具備現代軟件工程所要求的強大能力,還需要具備ML專業知識,具體包括ML模型訓練、模型部署、模型監控和幫助企業落實架構、系統設計和故障排除等能力。
EFFECTIVE數據科學基礎設施 內容簡介
"數據科學項目日益增多,每個項目在提出原型到生產的過程中都需要可靠的基礎設施。使用《Effective數據科學基礎設施》介紹的一些新技術和新工具,你將能建立一個適用于各類組織(無論是初創企業還是大型企業)的基礎設施堆棧。 《Effective數據科學基礎設施》可幫助你建立數據流程和項目工作流,為你開發項目帶來強大動力。《Effective數據科學基礎設施》呈現Netflix數據操作的**進工具和概念,并在此基礎上介紹一種可定制的基于云的模型開發和MLOps方法,可輕松適應公司的特定需求。當團隊把數據科學和機器學習應用于廣泛的業務問題時,這些實用的數據流程將更高效地生成更完美的結果。 主要內容 ● 在云中處理計算和編排 ● 將基于云的工具耦合到一個內聚的數據科學環境中 ● 使用Metaflow、AWS和Python數據生態系統開發可復制的數據科學項目 ● 構建需要大型數據集和模型,需要數據科學家團隊參與的復雜應用程序"
EFFECTIVE數據科學基礎設施 目錄
1.1 選擇數據科學基礎設施的原因 2
1.2 什么是數據科學基礎設施 5
1.2.1 數據科學基礎設施堆棧 6
1.2.2 支持數據科學項目的整個生命周期 8
1.2.3 不能以偏概全 9
1.3 良好基礎設施的重要性 10
1.3.1 管理復雜性 11
1.3.2 利用現有平臺 12
1.4 以人為中心的基礎設施 13
1.4.1 自由與責任 14
1.4.2 數據科學家自主性 15
1.5 本章小結 16
第2章 數據科學的工具鏈 17
2.1 建立開發環境 18
2.1.1 云賬戶 21
2.1.2 數據科學工作站 22
2.1.3 筆記 24
2.1.4 歸納 27
2.2 介紹工作流 29
2.2.1 工作流基礎 30
2.2.2 執行工作流 31
2.2.3 工作流框架 33
2.3 本章小結 35
第3章 Metaflow簡介 37
3.1 Metaflow的基本概念 38
3.1.1 安裝Metaflow 39
3.1.2 編寫基本工作流 40
3.1.3 管理工作流中的數據流 44
3.1.4 參數 50
3.2 分支和合并 55
3.2.1 有效的DAG結構 56
3.2.2 靜態分支 57
3.2.3 動態分支 61
3.2.4 控制并發 64
3.3 Metaflow實際應用 66
3.3.1 啟動新項目 67
3.3.2 使用客戶端API訪問結果 69
3.3.3 調試故障 72
3.3.4 *后潤色 76
3.4 本章小結 79
第4章 隨計算層伸縮 81
4.1 什么是可伸縮性 82
4.1.1 整個堆棧的可伸縮性 83
4.1.2 實驗文化 85
4.2 計算層 87
4.2.1 使用容器進行批處理 89
4.2.2 計算層示例 92
4.3 Metaflow中的計算層 98
4.3.1 為Metaflow配置AWS批處理 100
4.3.2 @batch和@resources裝飾器 104
4.4 處理故障 107
4.4.1 使用@retry從瞬態錯誤中恢復 109
4.4.2 使用@timeout殺死僵尸 110
4.4.3 *后一種裝飾器:@catch 111
4.5 本章小結 113
第5章 實踐可伸縮性和性能 115
5.1 從簡單開始:垂直可伸縮性 116
5.1.1 示例:聚類Yelp評論 117
5.1.2 實踐垂直可伸縮性 119
5.1.3 為什么選擇垂直可
伸縮性 124
5.2 實踐水平可伸縮性 126
5.2.1 為什么選擇水平可伸縮性 126
5.2.2 示例:超參數搜索 127
5.3 實施性能優化 130
5.3.1 示例:計算共現矩陣 131
5.3.2 加快工作流的方法 139
5.4 本章小結 140
第6章 投入生產 141
6.1 穩定的工作流調度 143
6.1.1 中心化元數據 145
6.1.2 使用AWS Step Functions和Metaflow 147
6.1.3 使用@schedule調度運行 152
6.2 魯棒的執行環境 153
6.2.1 Metaflow包如何流動 155
6.2.2 為什么依賴管理很重要 160
6.2.3 使用@conda裝飾器 162
6.3 穩定運行 167
6.3.1 原型開發期間的命名空間 169
6.3.2 生產命名空間 173
6.3.3 使用@project的并行部署 174
6.4 本章小結 177
第7章 處理數據 179
7.1 快速數據的基礎 182
7.1.1 從S3加載數據 183
7.1.2 使用表格數據 188
7.1.3 內存數據堆棧 192
7.2 與數據基礎設施的交互 194
7.2.1 現代數據基礎設施 195
7.2.2 用SQL準備數據集 199
7.2.3 分布式數據處理 205
7.3 從數據到特征 210
7.3.1 區分事實和特征 211
7.3.2 編碼特征 213
7.4 本章小結 218
第8章 使用和操作模型 221
8.1 生成預測 223
8.1.1 批處理、流式和實時預測 225
8.1.2 示例:推薦系統 227
8.1.3 批處理預測 232
8.1.4 實時預測 243
8.2 本章小結 248
第9章 全棧機器學習 249
9.1 可插拔的特征編碼器和模型 250
9.1.1 為可插拔的組件開發框架 251
9.1.2 執行特征編碼器 255
9.1.3 基準模型 259
9.2 深度回歸模型 264
9.2.1 編碼輸入張量 266
9.2.2 定義深度回歸模型 269
9.2.3 訓練深度回歸模型 272
9.3 總結所學 275
9.4 本章小結 277
附錄 安裝Conda 279
EFFECTIVE數據科學基礎設施 作者簡介
Ville Tuulos在Netflix公司設計并構建了用于數據科學的全棧框架Metaflow。目前,Ville在一家專業開發數據科學基礎設施的初創公司擔任首席執行官。
- >
中國歷史的瞬間
- >
羅曼·羅蘭讀書隨筆-精裝
- >
伯納黛特,你要去哪(2021新版)
- >
自卑與超越
- >
【精裝繪本】畫給孩子的中國神話
- >
苦雨齋序跋文-周作人自編集
- >
我與地壇
- >
伊索寓言-世界文學名著典藏-全譯本