-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
信息物理系統強化學習:網絡安全示例 版權信息
- ISBN:9787111676478
- 條形碼:9787111676478 ; 978-7-111-67647-8
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
信息物理系統強化學習:網絡安全示例 本書特色
適讀人群 :科學、工程、計算機科學或應用數學領域的研究生、本科生、研究人員和工程師。本書的靈感來自強化學習(RL)與信息物理系統(CPS)領域近期的發展。強化學習植根于行為心理學,是機器學習的主要分支。與監督學習和無監督學習這樣的機器學習算法不同,強化學習的主要特征是其獨一無二的學習范式——試錯法。通過與深度神經網絡結合,深度強化學習變得非常強大,使得AI智能體能夠以超人類的水平自動管理許多復雜的系統。此外,人們期望信息物理系統能夠在不久的將來給我們的社會帶來顛覆性改變,例如新興智能建筑、智能交通和電網。然而,信息物理系統領域的傳統人工編程控制器,既不能處理日益復雜的系統,也不能自動適應它以前從未遇到過的新情況。如何應用現有的深度強化學習算法或開發新的強化學習算法以實現實時適應性信息物理系統?此問題仍然懸而未決。本書通過系統介紹強化學習領域的基礎與算法,在兩個領域之間建立起聯系,并在每一部分列舉了一個或幾個*新的信息物理系統示例,以幫助讀者直觀地理解強化學習技術的實用性。本書特色介紹強化學習,包括強化學習領域的高級主題。將強化學習應用到信息物理系統和網絡安全。每章都包含新的示例和練習。用兩個案例研究介紹網絡安全問題。本書適用于科學、工程、計算機科學或應用數學領域的研究生或大三/大四本科生,以及對于網絡安全、強化學習和信息物理系統等領域感興趣的研究人員和工程師。閱讀本書的讀者需要微積分和概率論的基礎知識。
信息物理系統強化學習:網絡安全示例 內容簡介
本書研究的靈感來自于近期的強化學習(RL)和信息物理系統(CPS)領域的發展。RL植根于行為心理學,是機器學習的主要分支之一。不同于其他機器學習算法(如監督學習和非監督學習),RL的關鍵特征是其獨特的學習范式,即試錯。與深度神經網絡相結合,深度RL變得如此強大,以至于許多復雜的系統可以被人工智能智能體在超人的水平上自動管理。另一方面,CPS被設想在不久的將來給我們的社會帶來革命性的變化。這些例子包括新興的智能建筑、智能交通和電網。
信息物理系統強化學習:網絡安全示例 目錄
Reinforcement Learning for Cyber-Physical Systems: with Cybersecurity Case Studies
出版者的話
譯者序
前言
作者簡介
**部分 介紹
第1章 強化學習概述 2
1.1 強化學習綜述 2
1.1.1 引言 2
1.1.2 與其他機器學習方法的比較 4
1.1.3 強化學習示例 6
1.1.4 強化學習應用 7
1.2 強化學習的發展歷史 9
1.2.1 傳統的強化學習 9
1.2.2 深度強化學習 11
1.3 強化學習的仿真工具 12
1.4 本章小結 13
第2章 信息物理系統和網絡安全概述 14
2.1 引言 14
2.2 信息物理系統研究示例 16
2.2.1 資源分配 16
2.2.2 數據傳輸與管理 18
2.2.3 能源控制 18
2.2.4 基于模型的軟件設計 19
2.3 網絡安全威脅 20
2.3.1 網絡安全的對手 20
2.3.2 網絡安全的目標 21
2.4 本章小結 26
2.5 練習 26
第二部分 強化學習在信息物理系統中的應用
第3章 強化學習問題 30
3.1 多臂賭博機問題 30
3.1.1 ε-greedy算法 33
3.1.2 softmax算法 35
3.1.3 UCB算法 36
3.2 上下文賭博機問題 37
3.3 完整的強化學習問題 39
3.3.1 強化學習的要素 40
3.3.2 馬爾可夫決策過程介紹 41
3.3.3 值函數 42
3.4 本章小結 45
3.5 練習 45
第4章 基于模型的強化學習 49
4.1 引言 49
4.2 動態規劃 51
4.2.1 策略迭代法 52
4.2.2 價值迭代法 55
4.2.3 異步動態規劃 56
4.3 部分可觀察馬爾可夫決策過程 58
4.4 連續馬爾可夫決策過程 61
4.4.1 惰性近似 61
4.4.2 函數近似 62
4.5 本章小結 63
4.6 練習 64
第5章 無模型強化學習 66
5.1 引言 66
5.2 強化學習預測 66
5.2.1 蒙特卡羅學習 66
5.2.2 時序差分學習 69
5.3 強化學習控制 71
5.3.1 蒙特卡羅控制 71
5.3.2 基于時序差分的控制 72
5.3.3 策略梯度 77
5.3.4 actor-critic 81
5.4 高級算法 84
5.4.1 期望Sarsa 84
5.4.2 雙Q-learning 85
5.5 本章小結 85
5.6 練習 86
第6章 深度強化學習 90
6.1 引言 90
6.2 深度神經網絡 90
6.2.1 卷積神經網絡 92
6.2.2 循環神經網絡 94
6.3 深度學習在值函數上的應用 95
6.4 深度學習在策略函數上的應用 100
6.4.1 DDPG 102
6.4.2 A3C 104
6.5 深度學習在強化學習模型上的應用 107
6.6 深度強化學習計算效率 108
6.7 本章小結 109
6.8 練習 109
第三部分 案例研究
第7章 強化學習與網絡安全 112
7.1 傳統的網絡安全方法 112
7.1.1 傳統的網絡安全技術 112
7.1.2 新興網絡安全威脅 113
7.2 強化學習在網絡安全中的應用 114
7.2.1 移動群智感知中的虛假感知攻擊 114
7.2.2 認知無線電網絡中的安全強化 115
7.2.3 移動邊緣計算中的安全問題 117
7.2.4 網絡安全分析師的動態調度 118
7.3 本章小結 119
7.4 練習 119
第8章 案例研究:智能電網中的在線網絡攻擊檢測 120
8.1 引言 120
8.2 系統模型和狀態估計 122
8.2.1 系統模型 122
8.2.2 狀態估計 123
8.3 問題描述 124
8.4 解決方案 127
8.5 仿真結果 130
8.5.1 仿真設計與參數設置 130
8.5.2 性能評估 130
8.6 本章小結 134
第9章 案例研究:擊敗中間人攻擊 135
9.1 引言 135
9.2 強化學習方法 137
9.2.1 狀態空間 137
9.2.2 行動空間 139
9.2.3 獎勵 139
9.3 實驗和結果 139
9.3.1 模型訓練 140
9.3.2 在線實驗 141
9.4 討論 143
9.4.1 基于探測器的檢測系統 143
9.4.2 運用SDN/OpenFlow使模型實用 144
9.5 本章小結 144
參考文獻 145
索引 161
- >
我從未如此眷戀人間
- >
推拿
- >
月亮虎
- >
莉莉和章魚
- >
李白與唐代文化
- >
羅庸西南聯大授課錄
- >
名家帶你讀魯迅:故事新編
- >
隨園食單