-
>
全國(guó)計(jì)算機(jī)等級(jí)考試最新真考題庫(kù)模擬考場(chǎng)及詳解·二級(jí)MSOffice高級(jí)應(yīng)用
-
>
決戰(zhàn)行測(cè)5000題(言語理解與表達(dá))
-
>
軟件性能測(cè)試.分析與調(diào)優(yōu)實(shí)踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強(qiáng)教科書(完全版)(全彩印刷)
-
>
深度學(xué)習(xí)
基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量識(shí)別算法及其應(yīng)用 版權(quán)信息
- ISBN:9787030714916
- 條形碼:9787030714916 ; 978-7-03-071491-6
- 裝幀:一般膠版紙
- 冊(cè)數(shù):暫無
- 重量:暫無
- 所屬分類:>
基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量識(shí)別算法及其應(yīng)用 內(nèi)容簡(jiǎn)介
全書共9章,首先分析機(jī)器學(xué)習(xí)在流量識(shí)別中的意義和應(yīng)用,并對(duì)基于機(jī)器學(xué)習(xí)的流量識(shí)別算法進(jìn)行綜述。其次對(duì)行為特征進(jìn)行分析,提出改進(jìn)的屬性選擇算法(多測(cè)度屬性選擇算法);然后系統(tǒng)分析非對(duì)稱路由對(duì)流量識(shí)別算法的影響,系統(tǒng)介紹一系列針對(duì)不同應(yīng)用場(chǎng)景下的流量識(shí)別算法;*后對(duì)深度學(xué)習(xí)算法及模型進(jìn)行分析研究,詳細(xì)介紹基于卷積神經(jīng)網(wǎng)絡(luò)及改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)方法在流量識(shí)別中的應(yīng)用。
基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量識(shí)別算法及其應(yīng)用 目錄
“智能科學(xué)技術(shù)著作叢書”序
前言
第1章 緒論 1
1.1 研究背景、目的與意義 1
1.2 基于機(jī)器學(xué)習(xí)的流量識(shí)別算法研究現(xiàn)狀 2
1.2.1 屬性選擇算法研究 3
1.2.2 基于機(jī)器學(xué)習(xí)的流量識(shí)別算法研究 4
1.3 基于機(jī)器學(xué)習(xí)的流量識(shí)別算法存在的問題 6
1.4 本書主要內(nèi)容 7
參考文獻(xiàn) 8
第2章 多選屬性選擇算法 14
2.1 引言 14
2.2 常用機(jī)器學(xué)習(xí)算法和屬性選擇算法概述 15
2.3 基于流記錄的流量識(shí)別模型 16
2.4 多選屬性選擇算法分析與描述 18
2.4.1 多測(cè)度間相關(guān)關(guān)系分析 20
2.4.2 FCBF算法描述 22
2.4.3 MSAS算法描述 22
2.4.4 機(jī)器學(xué)習(xí)分類算法評(píng)估 25
2.5 實(shí)驗(yàn) 26
2.5.1 IPTrace數(shù)據(jù) 26
2.5.2 Moore_set數(shù)據(jù) 27
2.5.3 實(shí)驗(yàn)結(jié)果與分析 28
2.6 本章小結(jié) 35
參考文獻(xiàn) 35
第3章 非對(duì)稱路由對(duì)流量識(shí)別算法的影響 38
3.1 引言 38
3.2 網(wǎng)絡(luò)流量識(shí)別算法相關(guān)問題 39
3.3 非對(duì)稱路由 39
3.4 自適應(yīng)算法 42
3.5 實(shí)驗(yàn) 44
3.5.1 數(shù)據(jù)集 44
3.5.2 非對(duì)稱路由對(duì)流量識(shí)別的影響 46
3.5.3 Noc_set數(shù)據(jù)集的流量識(shí)別結(jié)果比較 48
3.5.4 Caida_set數(shù)據(jù)集的流量識(shí)別結(jié)果比較 49
3.5.5 Lbnl_set數(shù)據(jù)集的流量識(shí)別結(jié)果比較 49
3.5.6 ε 對(duì)流量識(shí)別結(jié)果的影響 50
3.6 本章小結(jié) 51
參考文獻(xiàn) 51
第4章 基于SVM改進(jìn)的流量識(shí)別算法 54
4.1 引言 54
4.2 已有流量識(shí)別算法 55
4.3 支持向量機(jī) 56
4.4 改進(jìn)的SVM算法 58
4.4.1 NSVM 58
4.4.2 實(shí)驗(yàn)結(jié)果與分析 62
4.5 基于主動(dòng)學(xué)習(xí)的多分類SVM算法 69
4.5.1 CSVM 73
4.5.2 性能評(píng)估 75
4.5.3 實(shí)驗(yàn)結(jié)果與分析 75
4.6 本章小結(jié) 84
參考文獻(xiàn) 84
第5章 基于多概率神經(jīng)網(wǎng)絡(luò)的流量識(shí)別算法 86
5.1 引言 86
5.2 概率神經(jīng)網(wǎng)絡(luò) 88
5.2.1 概率神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介 88
5.2.2 *小風(fēng)險(xiǎn)貝葉斯算法 89
5.2.3 PNN函數(shù) 91
5.2.4 基于概率神經(jīng)網(wǎng)絡(luò)的算法 91
5.3 MPNN應(yīng)用協(xié)議識(shí)別算法 92
5.4 實(shí)驗(yàn) 95
5.4.1 實(shí)驗(yàn)環(huán)境及備選測(cè)度 95
5.4.2 MPNN算法評(píng)價(jià)分析 97
5.4.3 訓(xùn)練集合大小對(duì)MPNN算法穩(wěn)定性的影響 99
5.4.4 MPNN算法時(shí)空復(fù)雜度分析 102
5.5 本章小結(jié) 105
參考文獻(xiàn) 105
第6章 加密SKYPE流量在線識(shí)別算法 108
6.1 引言 108
6.2 傳統(tǒng)的機(jī)器學(xué)習(xí)加密流量識(shí)別算法 109
6.3 樸素貝葉斯算法 110
6.4 貝葉斯更新網(wǎng)絡(luò)模型 111
6.4.1 貝葉斯更新 111
6.4.2 算法流程 112
6.4.3 流抽樣對(duì)網(wǎng)絡(luò)流量行為特征的影響分析 114
6.5 實(shí)驗(yàn) 117
6.5.1 實(shí)驗(yàn)性能衡量 117
6.5.2 實(shí)驗(yàn)數(shù)據(jù)集 118
6.5.3 報(bào)文抽樣對(duì)SKYPE網(wǎng)絡(luò)流量識(shí)別的影響 119
6.6 本章小結(jié) 126
參考文獻(xiàn) 126
第7章 基于聚類的流量分類識(shí)別算法 129
7.1 引言 129
7.2 聚類理論基礎(chǔ) 130
7.2.1 常見聚類算法 130
7.2.2 譜聚類概念 132
7.2.3 譜聚類原理 134
7.3 基于規(guī)范化的譜聚類分類識(shí)別算法描述 134
7.4 實(shí)驗(yàn) 137
7.4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集 137
7.4.2 算法評(píng)估 137
7.4.3 Moore_set數(shù)據(jù)集分析 138
7.5 本章小結(jié) 140
參考文獻(xiàn) 141
第8章 基于半監(jiān)督的流量識(shí)別算法 143
8.1 引言 143
8.2 半監(jiān)督流量識(shí)別算法的相關(guān)研究工作 144
8.3 半監(jiān)督流量識(shí)別算法描述 145
8.3.1 相關(guān)定義 145
8.3.2 問題描述 147
8.3.3 改進(jìn)的KNN算法 147
8.4 實(shí)驗(yàn) 149
8.5 其他半監(jiān)督流量識(shí)別算法 151
8.5.1 基于改進(jìn)K-means的半監(jiān)督流量識(shí)別算法 151
8.5.2 基于距離的多中心半監(jiān)督聚類算法 152
8.5.3 基于密度的多中心半監(jiān)督聚類算法 153
8.5.4 實(shí)驗(yàn)結(jié)果與分析 154
8.6 本章小結(jié) 155
參考文獻(xiàn) 155
第9章 基于深度學(xué)習(xí)的流量識(shí)別算法 158
9.1 引言 158
9.2 常見的深度學(xué)習(xí)模型 159
9.2.1 堆疊自動(dòng)編碼器 159
9.2.2 深度置信網(wǎng)絡(luò) 160
9.2.3 深度玻爾茲曼機(jī) 163
9.2.4 卷積神經(jīng)網(wǎng)絡(luò) 163
9.3 基于卷積神經(jīng)網(wǎng)絡(luò)的流量識(shí)別算法 165
9.4 實(shí)驗(yàn) 168
9.4.1 數(shù)據(jù)集 168
9.4.2 實(shí)驗(yàn)軟硬件平臺(tái) 169
9.4.3 實(shí)驗(yàn)訓(xùn)練集 169
9.5 本章小結(jié) 171
參考文獻(xiàn) 172
附錄 174
基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)流量識(shí)別算法及其應(yīng)用 節(jié)選
第1章 緒論 1.1 研究背景、目的與意義 隨著互聯(lián)網(wǎng)的高速發(fā)展和網(wǎng)絡(luò)用戶的不斷增加,網(wǎng)絡(luò)流量日益龐大。而伴隨各種新業(yè)務(wù)和新應(yīng)用的不斷出現(xiàn),所使用的通信協(xié)議也愈加復(fù)雜。目前,對(duì)等網(wǎng)絡(luò)(peer to peer, P2P)、流媒體、網(wǎng)絡(luò)游戲等新應(yīng)用的流量已經(jīng)占據(jù)了網(wǎng)絡(luò)流量的60%以上[1],同時(shí)網(wǎng)絡(luò)上的惡意攻擊行為也日漸增多,網(wǎng)絡(luò)安全已提升至國(guó)家戰(zhàn)略層面。流量識(shí)別作為網(wǎng)絡(luò)管理的基礎(chǔ),也是眾多網(wǎng)絡(luò)安全問題定位的基礎(chǔ)突破口。因此,如何采用有效的流量識(shí)別技術(shù)識(shí)別出不同網(wǎng)絡(luò)流量的類型是網(wǎng)絡(luò)管理和網(wǎng)絡(luò)安全領(lǐng)域的一項(xiàng)重要議題。而基于機(jī)器學(xué)習(xí)(machine learning, ML)的流量識(shí)別算法能夠克服端口號(hào)識(shí)別和深度報(bào)文檢測(cè)(deep packet inspection, DPI)等算法的查準(zhǔn)率不高且無法對(duì)加密流量進(jìn)行識(shí)別等缺點(diǎn),已經(jīng)成為目前*流行的研究算法之一。此外,一些特定的技術(shù)也會(huì)對(duì)基于機(jī)器學(xué)習(xí)的流量識(shí)別產(chǎn)生一定的影響,如報(bào)文抽樣技術(shù),它作為高速網(wǎng)絡(luò)流量測(cè)量和服務(wù)質(zhì)量(quality of service, QoS)中所使用的關(guān)鍵技術(shù),已經(jīng)廣泛應(yīng)用于網(wǎng)絡(luò)觀測(cè)和監(jiān)控設(shè)備中。如何解決在抽樣環(huán)境下由信息缺失導(dǎo)致流量識(shí)別正確率下降的問題,將是流量識(shí)別研究領(lǐng)域的一項(xiàng)重要內(nèi)容。因此,研究抽樣環(huán)境下基于機(jī)器學(xué)習(xí)的流量識(shí)別算法非常重要,它有助于網(wǎng)絡(luò)管理者正確地對(duì)各種業(yè)務(wù)流進(jìn)行實(shí)時(shí)監(jiān)控與管理,有助于互聯(lián)網(wǎng)研究人員準(zhǔn)確了解網(wǎng)絡(luò)中各種流特征及相應(yīng)的用戶行為,有助于網(wǎng)絡(luò)服務(wù)提供商在規(guī)劃和建設(shè)網(wǎng)絡(luò)時(shí)精確了解網(wǎng)絡(luò)各類業(yè)務(wù)流的狀況。 目前,所提出的基于機(jī)器學(xué)習(xí)的流量識(shí)別算法多建立在全報(bào)文采集的基礎(chǔ)上,但隨著網(wǎng)絡(luò)帶寬的飛速增長(zhǎng),流量也在不斷增加,若對(duì)所有的報(bào)文都進(jìn)行采集、存儲(chǔ)并加以計(jì)算、分析,勢(shì)必會(huì)增加系統(tǒng)壓力,難以實(shí)現(xiàn)在線流量識(shí)別。因此,為了減少資源消耗,提高處理效率,抽樣報(bào)文采集成為學(xué)術(shù)界和工業(yè)界普遍采用的算法。國(guó)際互聯(lián)網(wǎng)工程任務(wù)組(internet engineering task force, IETF)早在2002年就成立了包采樣(packet sampling, PSAMP)工作組,研究討論并制定了對(duì)網(wǎng)絡(luò)協(xié)議(internet protocol, IP)數(shù)據(jù)包的采樣和過濾算法。IETF的IP流信息輸出(IP flow information export, IPFIX)和IP性能指標(biāo)(IP performance metrics, IPPM)工作組也都建議使用報(bào)文抽樣技術(shù)進(jìn)行流量檢測(cè),并推薦了優(yōu)先使用的抽樣算法。工業(yè)界已有采用抽樣機(jī)制的商業(yè)產(chǎn)品,目前各高端路由器和網(wǎng)絡(luò)監(jiān)控管理系統(tǒng)中的流信息統(tǒng)計(jì)與發(fā)布系統(tǒng)均采用了報(bào)文抽樣技術(shù),如思科的NetFlow、華為的NetStream、瞻博網(wǎng)絡(luò)的cflowd,以及美國(guó)惠普和網(wǎng)捷等公司支持的sFlow等。因此,研究報(bào)文抽樣技術(shù)對(duì)流量識(shí)別的影響,不僅可以使網(wǎng)絡(luò)流量識(shí)別算法在可接受的誤差范圍內(nèi)處理更多網(wǎng)絡(luò)流量,進(jìn)一步提升流量識(shí)別效率,還可以將網(wǎng)絡(luò)流量識(shí)別算法直接應(yīng)用于NetFlow或其他從路由器采集的流記錄,并能與以流記錄為輸入的網(wǎng)絡(luò)管理系統(tǒng)相結(jié)合,提高流量識(shí)別的實(shí)用性。本書選擇抽樣環(huán)境下基于流記錄的流量識(shí)別作為研究對(duì)象,以抽樣機(jī)制為貫穿行為特征捕獲與分析、屬性選擇、流量識(shí)別三個(gè)環(huán)節(jié)的一條主線,*終形成一套完整、高效的流量識(shí)別算法。 1.2 基于機(jī)器學(xué)習(xí)的流量識(shí)別算法研究現(xiàn)狀 國(guó)內(nèi)外在流量識(shí)別方面已經(jīng)開展了較長(zhǎng)時(shí)間的研究,也取得了不少成果。網(wǎng)絡(luò)流量識(shí)別的研究共經(jīng)歷了三個(gè)階段[2],**階段網(wǎng)絡(luò)端口號(hào)相對(duì)固定,因此選用端口號(hào)進(jìn)行協(xié)議識(shí)別成為早期網(wǎng)絡(luò)流量識(shí)別的重要依據(jù),典型的代表為CoralReef[3],主要通過互聯(lián)網(wǎng)地址分配機(jī)構(gòu)(Internet Assigned Numbers Authority, IANA)提供的固定端口號(hào)來標(biāo)記流量類型。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,各種新型應(yīng)用(如P2P、網(wǎng)絡(luò)地址轉(zhuǎn)換等)的廣泛出現(xiàn)導(dǎo)致端口號(hào)不再成為區(qū)別協(xié)議的標(biāo)志,采用端口號(hào)識(shí)別方法誤判的概率越來越高,從而難以正確識(shí)別相應(yīng)流量的類型。第二階段的研究目標(biāo)是通過深度報(bào)文檢測(cè)算法識(shí)別網(wǎng)絡(luò)流量,主要采用快速模式匹配技術(shù)在整個(gè)應(yīng)用層數(shù)據(jù)中進(jìn)行查找,其典型代表是L7-filter[4]。但是該技術(shù)可能涉及隱私問題,且隨著加密網(wǎng)絡(luò)流量的出現(xiàn),這種方式也愈加不能滿足當(dāng)前的識(shí)別需求。第三階段的研究目標(biāo)則是通過對(duì)流量特征屬性的抽取并采用機(jī)器學(xué)習(xí)[5-16]算法進(jìn)行訓(xùn)練及分類識(shí)別,該算法克服了深度報(bào)文檢測(cè)無法識(shí)別隱私和加密流量的問題,典型的代表是由Li等[17]提出248種測(cè)度屬性(附表),并采用貝葉斯算法進(jìn)行流量識(shí)別。基于機(jī)器學(xué)習(xí)的流量識(shí)別算法[18-21]主要利用網(wǎng)絡(luò)流量統(tǒng)計(jì)特征屬性來構(gòu)建函數(shù)模型,將數(shù)據(jù)集劃分成不同類型。目前,基于機(jī)器學(xué)習(xí)的流量識(shí)別算法可以在一定程度上克服深度報(bào)文檢測(cè)技術(shù)的缺陷,能夠識(shí)別加密的網(wǎng)絡(luò)流量以及HTTP隧道(HTTP tunnel)等流量,但其抽樣環(huán)境和全報(bào)文采集不同,使得原有的與識(shí)別相關(guān)的技術(shù)已不能完全適用。因此,迫切需要構(gòu)建能夠完成抽樣環(huán)境下的流量識(shí)別框架,包括網(wǎng)絡(luò)特征數(shù)據(jù)捕獲與分析、屬性選擇算法研究,并構(gòu)建合理基于行為特征的流量識(shí)別模型。 1.2.1 屬性選擇算法研究 屬性選擇作為基于流記錄流量識(shí)別的前端,通過選取對(duì)識(shí)別*具代表性的行為特征,降低測(cè)度屬性集合的維度,減小屬性測(cè)度計(jì)算和機(jī)器學(xué)習(xí)算法的時(shí)空復(fù)雜度,對(duì)提高流量識(shí)別模型的推廣能力具有一定的意義。目前,屬性選擇算法大致分為兩種,即Filter[22]模型和Wrapper[23]模型。Filter模型主要通過評(píng)價(jià)函數(shù)來完成屬性區(qū)分,且評(píng)價(jià)函數(shù)和分類器是相互獨(dú)立的;而Wrapper模型則是將分類器的錯(cuò)誤率作為評(píng)價(jià)機(jī)制來完成屬性的區(qū)分;其相應(yīng)的算法已經(jīng)在一些高維度的數(shù)據(jù)中得到了極其廣泛的應(yīng)用[24,25]。 目前,在流量識(shí)別研究領(lǐng)域,屬性選擇算法僅限于對(duì)過多流統(tǒng)計(jì)屬性進(jìn)行屬性選擇以提高分類識(shí)別的查準(zhǔn)率和效率。Moore等[26]采用基于快速相關(guān)濾波器(fast correlation based filter, FCBF)的屬性選擇算法對(duì)248種測(cè)度屬性進(jìn)行選擇。從數(shù)據(jù)采集角度分析,為了降低采集負(fù)擔(dān),Bernaille等[27]提出只統(tǒng)計(jì)前幾個(gè)報(bào)文數(shù)據(jù)來達(dá)到流量識(shí)別的目的。文獻(xiàn)[28]針對(duì)樣本的不均衡性提出了加權(quán)對(duì)稱不確定性和ROC①曲線下面積(weighted symmetrical uncertainty and area under ROC curve, WSU_AUC)的屬性選擇算法,以克服由目標(biāo)對(duì)象變動(dòng)引起的不均衡性問題,一定程度上提高了識(shí)別正確率,然而由于其計(jì)算復(fù)雜度偏高,難以適用于目前海量網(wǎng)絡(luò)流量數(shù)據(jù)的識(shí)別。文獻(xiàn)[29]提出了三種新測(cè)度(友好性、穩(wěn)定性、相似性),并將其應(yīng)用到屬性選擇中進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,所提出的測(cè)度能提高屬性選擇的有效性,然而同樣存在計(jì)算復(fù)雜度偏高的問題。盡管上述研究在一定程度上提高了屬性選取的精度,但同時(shí)也增加了計(jì)算復(fù)雜度。在抽樣環(huán)境下,經(jīng)過報(bào)文抽樣后,隨著流內(nèi)報(bào)文數(shù)量的減少,雖然在一定程度上能降低計(jì)算復(fù)雜度,但也會(huì)給行為測(cè)度屬性帶來一定的影響。 基于行為識(shí)別應(yīng)用的流量算法依據(jù)各協(xié)議所特有的行為特征進(jìn)行抽樣,而抽樣技術(shù)會(huì)改變流量的行為特征分布,同時(shí)將直接影響流量識(shí)別的過程和結(jié)果。報(bào)文抽樣對(duì)應(yīng)用協(xié)議識(shí)別查準(zhǔn)率的影響主要反映在報(bào)文抽樣對(duì)協(xié)議行為測(cè)度分布的影響上,主要包括兩方面:①報(bào)文抽樣對(duì)時(shí)間維度上應(yīng)用流傳輸行為分布的影響;②報(bào)文抽樣間接造成流抽樣對(duì)空間維度上主機(jī)行為分布的影響。報(bào)文抽樣會(huì)導(dǎo)致樣本集中信息的缺失,使得識(shí)別算法在信息選擇時(shí)的識(shí)別正確率下降,以C4.5分類算法為例,該算法采用信息增益率來選擇屬性,抽樣后屬性信息熵增加,在進(jìn)行屬性選擇時(shí)易出現(xiàn)選取偏差,*終導(dǎo)致流量識(shí)別正確率下降。目前,已有的屬性選擇算法很少考慮抽樣對(duì)流量行為特征的影響,顯然必須設(shè)計(jì)一種新的屬性選擇算法適用于當(dāng)前抽樣環(huán)境,以提高流量識(shí)別正確率。 1.2.2 基于機(jī)器學(xué)習(xí)的流量識(shí)別算法研究 基于流記錄的流量識(shí)別算法可以分為有監(jiān)督學(xué)習(xí)的流量識(shí)別算法和無監(jiān)督學(xué)習(xí)的流量識(shí)別算法。有監(jiān)督學(xué)習(xí)的流量識(shí)別算法首先通過訓(xùn)練數(shù)據(jù)構(gòu)建識(shí)別函數(shù)模型,進(jìn)而利用該模型進(jìn)行流量數(shù)據(jù)識(shí)別。而無監(jiān)督學(xué)習(xí)的流量識(shí)別算法無須訓(xùn)練數(shù)據(jù),只需要根據(jù)數(shù)據(jù)特征屬性的相似度自動(dòng)生成聚類結(jié)果,使同一類數(shù)據(jù)集合中的特征向量相似度盡可能大,不同數(shù)據(jù)集合中的特征向量相似度盡可能小。其中,文獻(xiàn)[26]和[30]將有監(jiān)督學(xué)習(xí)的流量識(shí)別算法應(yīng)用于流量識(shí)別中。Moore等[26]*早選用樸素貝葉斯(naive Bayes, NB)算法對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別,但只關(guān)注了傳輸控制協(xié)議(transmission control protocol, TCP)流量,研究對(duì)象具有一定的局限性。李君等[30]應(yīng)用多種貝葉斯算法實(shí)現(xiàn)P2P業(yè)務(wù)識(shí)別,并比較算法的識(shí)別性能與代價(jià),得出基于K2學(xué)習(xí)算法的貝葉斯網(wǎng)絡(luò)、樹增強(qiáng)型樸素貝葉斯(tree augmented naive Bayes, TAN)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)增強(qiáng)樸素貝葉斯(Bayesian network augmented naive Bayes, BAN)算法的識(shí)別正確率相對(duì)較高且所需的識(shí)別時(shí)間較少,是比較理想的識(shí)別算法。但該算法是一種基于概率的學(xué)習(xí)算法,過于依賴樣本空間的分布,具有潛在的不穩(wěn)定性。后來Moore等[26]通過FCBF選擇策略算法并采用核估計(jì)技術(shù)樸素貝葉斯核(naive Bayes kernel, NBK)對(duì)NB算法進(jìn)行改進(jìn),識(shí)別正確率從65%提高到95%以上。李君等[30]比較了FCBF+NBK和SVM[31-36]兩種算法,結(jié)果表明,SVM算法在不使用任何屬性過濾策略的情況下,識(shí)別正確率仍略勝于FCBF+NBK,并能有效避免不穩(wěn)定因素帶來的干擾,在處理流量識(shí)別問題時(shí)具有明顯的優(yōu)勢(shì)。然而,該算法僅考慮查準(zhǔn)率問題,并未關(guān)注訓(xùn)練模型的時(shí)間開銷。Alshammari等[37]使用重復(fù)增量剪枝以減少錯(cuò)誤(repeated incremental pruning to produce error reduction, RIPPER)和C4.5兩種分類算法進(jìn)行識(shí)別,比較得知C4.5分類算法的檢測(cè)速度和錯(cuò)誤率優(yōu)于RIPPER分類算法。此外,雖然C4.5分類算法可以有效避免網(wǎng)絡(luò)流分布變化帶來的影響,但仍不能實(shí)現(xiàn)真正意義上的網(wǎng)絡(luò)流量在線識(shí)別[38]。 無監(jiān)督學(xué)習(xí)的流量識(shí)別算法無須預(yù)先訓(xùn)練分類模型,因此能識(shí)別新型的網(wǎng)絡(luò)應(yīng)用類型產(chǎn)生的流量數(shù)據(jù),從而得到了更多的關(guān)注。其中,基于劃分的K-means聚類算法[39]、基于密度的帶噪聲的空間聚類應(yīng)用(density-based spatial clustering of applications with noise, DBSCAN)算法[40]、AutoClass算法[41]等基于無監(jiān)督學(xué)習(xí)的流量識(shí)別算法先后用于網(wǎng)絡(luò)流量識(shí)別中,并取得了較好的效果。 有監(jiān)督學(xué)習(xí)的流量識(shí)別算法無法對(duì)未知流量進(jìn)行劃分,而無監(jiān)督學(xué)習(xí)的流量識(shí)別算法雖然能夠?qū)ξ粗髁窟M(jìn)行分類,但無法對(duì)其進(jìn)行識(shí)別,因此綜合兩者的優(yōu)勢(shì),文獻(xiàn)[12]提出了基于半監(jiān)督學(xué)習(xí)的流量識(shí)別算法。目前,采用多分類器融合算法對(duì)流量進(jìn)行識(shí)別的研究仍處于初級(jí)階段,相應(yīng)的文獻(xiàn)比較有限。Ichino等[42]提出了基于評(píng)分策略融合的流量識(shí)別模型,采用流中的五個(gè)流測(cè)度,對(duì)五種應(yīng)用類型進(jìn)行了分類實(shí)驗(yàn)。另外,Dainotti等[2]提出的多分類器融合算法將成為未來的研究熱點(diǎn)之一,并可以采用投票、貝葉斯概率、證據(jù)理論、行為知識(shí)空間等融合方案來解決分類器中的融合問題。盡管多分類器融合具有一定的前沿性,但面對(duì)抽樣環(huán)境如何進(jìn)行有效的工作仍是值得研究的問題。 *近,深度學(xué)習(xí)算法作為機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)新的研究熱點(diǎn),已經(jīng)被廣泛應(yīng)用于圖像處理及識(shí)別領(lǐng)域。目前,也有不少研究人員采用深度學(xué)習(xí)算
- >
李白與唐代文化
- >
伊索寓言-世界文學(xué)名著典藏-全譯本
- >
羅庸西南聯(lián)大授課錄
- >
經(jīng)典常談
- >
羅曼·羅蘭讀書隨筆-精裝
- >
唐代進(jìn)士錄
- >
隨園食單
- >
中國(guó)歷史的瞬間