-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
SRE生存指南:系統中斷響應與正常運行時間最大化 版權信息
- ISBN:9787121371769
- 條形碼:9787121371769 ; 978-7-121-37176-9
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
SRE生存指南:系統中斷響應與正常運行時間最大化 本書特色
站點可靠性工程(Site Reliability Engineering,簡稱SRE)是一個令人興奮的新興領域,它專注于如何確保系統穩定、可靠地運行。本書基于一個金字塔層次結構模型,深入淺出地介紹了關于SRE 的方方面面,涉及監控、事故響應與回顧、測試與發布、容量規劃、開發、用戶體驗設計,以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料;軟件架構師、軟件工程師、用戶體驗設計師也能從本書中獲取關于SRE 的相關知識。
SRE生存指南:系統中斷響應與正常運行時間最大化 內容簡介
站點可靠性工程(Site Reliability Engineering,簡稱SRE)是一個令人興奮的新興領域,它專注于如何確保系統穩定、可靠地運行。本書基于一個金字塔層次結構模型,深入淺出地介紹了關于SRE 的方方面面,涉及監控、事故響應與回顧、測試與發布、容量規劃、開發、用戶體驗設計,以及貫穿其中的溝通技巧。本書是SRE 工程師、DevOps 工程師、運維工程師和系統管理員不可或缺的參考資料;軟件架構師、軟件工程師、用戶體驗設計師也能從本書中獲取關于SRE 的相關知識。
SRE生存指南:系統中斷響應與正常運行時間最大化 目錄
1 簡介 1
SRE簡史 2
SRE是什么 3
關于這本書 7
以SRE作為新項目的框架 9
小結 12
2 監控 13
為什么要監控 13
檢測應用程序 16
度量什么 23
SLIs、SLOs和錯誤預算簡介 26
錯誤預算 27
收集和保存監控數據 29
輪詢應用程序 29
推送應用程序 32
展示監控信息 35
任意查詢 35
圖表 36
儀表板 37
聊天機器人 38
管理和維護監控數據 38
溝通 39
他們知道有監控嗎 39
小結 40
參考資料 41
3 事故響應 42
什么是事故 43
什么是事故響應 45
警報 47
什么時候發起警報 48
怎么發出警報 49
向誰發出警報 54
隨時待命 55
溝通 57
事故指揮系統 59
在哪里溝通 61
恢復系統 61
警報解除 63
小結 64
4 事后回顧 65
什么是事后回顧 65
為什么寫事后回顧報告 66
何時寫事后回顧報告 68
開展事故分析 69
如何寫事后回顧報告 71
總結 71
影響 72
時間 73
根本原因 74
行動項 75
附錄 77
停止事后指責 77
舉行事后回顧會議 79
分析以往的事后回顧報告 80
MTTR與MTBF 81
警報疲勞 81
討論過去的服務中斷 81
小結 82
參考資料 82
5 測試和發布 83
測試 84
測試內容 87
發布 100
何時發布 101
回滾 104
自動化 104
持續 105
小結 106
6 容量規劃 107
企業財務簡介 108
為什么需要規劃 110
風險管理與期望管理 111
定義一個規劃 112
當前的容量是多少 113
何時達到容量極限 115
應該如何更改容量 119
執行規劃 125
架構——性能變化的根源 126
技術作為利潤中心和采購 128
小結 128
7 構建工具 129
尋找項目 131
定義項目 133
RDD 133
設計文檔 136
項目計劃 138
例子 139
回顧會與站會 141
工作分配 142
構建項目 143
關于編寫代碼的建議 143
關注點分離 144
長期工作 145
筆記本 148
文檔與維護項目 149
小結 150
8 用戶體驗 151
設計和用戶體驗簡介 155
現實世界的交互設計 157
用戶測試 160
挑選一種體驗 161
設計測試 162
尋找要測試的人 162
開發者體驗 163
工具經驗 164
績效預算 164
安全性 166
身份認證 167
授權 168
風險概況 168
網絡釣魚 169
ACM道德準則 170
小結 171
參考資料 172
9 網絡基礎 173
互聯網 173
發送一個HTTP請求 175
DNS 175
以太網和TCP/IP 179
HTTP 186
curl與wget 189
網絡監控工具 194
netstat 194
nc 195
tcpdump 196
小結 197
參考資料 197
10 Linux和云基礎 198
Linux基礎 198
一切皆是文件 199
進程是什么 206
syscalls 207
構建自己的工具 213
云基礎 214
虛擬機 215
容器 216
負載均衡 218
自動伸縮 219
存儲 219
隊列與發布/訂閱 220
伸縮單元 221
架構面試示例 222
小結 226
參考資料 226
SRE生存指南:系統中斷響應與正常運行時間最大化 作者簡介
Nat Welch是一名美國的軟件開發人員。自2005年以來,他一直做著構建網站并保持其運行的工作。他曾先后是谷歌、HFA等各大平臺的網站可靠性工程師。多年來,他一直致力于提高網站的可靠性以幫助開發人員構建可靠的系統。
馮文輝,現任ThoughtWorks中國區資深架構咨詢師,具有11年的軟件行業經驗,曾服務于多個世界500強企業,覆蓋銀行、保險、通信、汽車、物流等行業。為客戶提供敏捷開發、DevOps、架構設計與數字化轉型等咨詢服務。熱衷于探索更好的架構設計方法,助力企業的數字化轉型。
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
李白與唐代文化
- >
推拿
- >
我從未如此眷戀人間
- >
名家帶你讀魯迅:故事新編
- >
龍榆生:詞曲概論/大家小書
- >
伊索寓言-世界文學名著典藏-全譯本
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)