基于群體智能優化算法的文本過濾關鍵技術研究 版權信息
- ISBN:9787517082286
- 條形碼:9787517082286 ; 978-7-5170-8228-6
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
基于群體智能優化算法的文本過濾關鍵技術研究 本書特色
計算機技術和互聯網技術的迅速發展,使得網絡上的網站、網頁等各種信息以爆炸性的趨勢增長,隨之而來的還有大量的冗余信息和垃圾信息,并由此帶來了信息泛濫、信息迷航以及信息疾病等一系列問題。這些冗余信息、垃圾信息不但影響著用戶對Internet的使用效率和質量,同樣影響著網絡的健康發展。因此,基于此而產生的網絡信息過濾技術相關研究具有巨大的社會效益和經濟效益。
網絡信息過濾,就是根據用戶的信息需求,利用一定的工具從大規模的動態信息流中自動篩選出滿足用戶需求的信息,同時屏蔽掉無用的信息的過程。廣義的信息過濾包括對文本、音頻、圖像、視頻等多種信息存在形式的過濾處理,狹義的信息過濾是特指對文本信息的過濾處理。本書相關研究就是針對文本信息過濾特別是中文文本信息過濾中存在的問題而提出的。
本書面向從事自然處理、網絡信息、網絡輿情分析等領域研究的高年級本科生、研究生和研究人員。
基于群體智能優化算法的文本過濾關鍵技術研究 內容簡介
計算機技術和互聯網技術的迅速發展,使得網絡上的網站、網頁等各種信息以爆炸性的趨勢增長,隨之而來的還有大量的冗余信息和垃圾信息,并由此帶來了信息泛濫、信息迷航以及信息疾病等一系列問題。這些冗余信息、垃圾信息不但影響著用戶對Internet的使用效率和質量,同樣影響著網絡的健康發展。因此,基于此而產生的網絡信息過濾技術相關研究具有巨大的社會效益和經濟效益。
網絡信息過濾,就是根據用戶的信息需求,利用一定的工具從大規模的動態信息流中自動篩選出滿足用戶需求的信息,同時屏蔽掉無用的信息的過程。廣義的信息過濾包括對文本、音頻、圖像、視頻等多種信息存在形式的過濾處理,狹義的信息過濾是特指對文本信息的過濾處理。本書相關研究就是針對文本信息過濾特別是中文文本信息過濾中存在的問題而提出的。
本書面向從事自然處理、網絡信息、網絡輿情分析等領域研究的高年級本科生、研究生和研究人員。
基于群體智能優化算法的文本過濾關鍵技術研究 目錄
前言
**章 緒論 1
**節 研究背景及意義 1
一、中國互聯網迅速發展 1
二、互聯網迅速發展帶來的負面影響 1
三、信息過濾研究的意義 3
第二節 文本信息過濾面臨的問題 5
一、國外相關研究 5
二、國內研究進展 6
三、相關研究存在的問題 7
第三節 本書主要研究內容及貢獻 9
一、研究環境 9
二、研究內容 9
三、本書貢獻 11
四、本書組織結構 11
第二章 文本信息過濾關鍵技術概述 14
**節 文本信息過濾的基本模型 14
第二節 網絡數據的獲取 15
一、數據包捕獲技術 15
二、協議解析技術 16
第三節 文本切詞技術 16
一、基于字符串匹配的切詞方法 17
二、基于理解的切詞方法 17
三、基于統計的切詞方法 17
第四節 特征選擇算法 18
一、文檔頻率 18
二、信息增益 19
三、互信息 19
四、統計量 20
第五節 權值計算方法 21
第六節 文本表示模型 21
第七節 文本分類算法 22
一、樸素貝葉斯算法 22
二、KNN算法 23
三、Rocchio分類算法 23
四、支持向量機算法 24
第八節 小結 24
第三章 基于統計與規則的特征項聯合權重文本權重計算方法 25
**節 已有權重評估函數總結 25
一、反比文檔頻數權重 25
二、信噪比 25
三、TF-IDF 26
四、權重計算與特征選擇的對比 26
第二節 改進信息增益算法 27
一、信息增益算法分析 27
二、導致信息增益算法精確度下降的原因 28
三、特征項的類間離散度 29
四、特征項的類內離散度 30
五、應用特征項分布信息的信息增益計算方法 30
六、改進的信息增益算法(IG-GDI) 31
七、實驗結果分析 31
第三節 VSM中特征項粒度選取存在的不足 34
第四節 VSM固有缺陷分析 36
第五節 當前權重計算方法的缺陷 38
第六節 基于規則的文本表示 39
一、中文組塊分析 39
二、短語的選取粒度 40
三、基本短語的識別 41
四、*大信息熵模型 43
五、短語特征的權重計算 44
六、VSM中特征項關系組織方式 44
七、實驗結果分析 45
第七節 基于統計的特征權重計算方法 48
一、聯合權重計算方法 48
二、實驗及分析 51
第八節 基于統計與規則的特征項聯合權重實驗 55
一、實驗步驟 55
二、實驗結果分析 56
第九節 小結 58
第四章 融合段落特性的文檔權重計算方法 59
**節 引言 59
第二節 預備知識 60
一、常用特征權重計算方法 60
二、基本算法比較 61
第三節 融合段落特征的文本權重計算方法 62
一、文檔的形式化表示 62
二、文檔權重的計算及其體現 63
三、對文檔中部分重要句子的權重計算 63
四、特征項的位置權重 64
五、文檔中特征項的權重確定 64
第四節 實驗分析 65
一、實驗語料 65
二、實驗環境 66
三、評價指標 66
四、評價方案 67
五、評價與結果分析 68
第五節 小結 71
第五章 基于自適應慣性權重混沌粒子群的特征子集優化方法 72
**節 粒子群算法概述 72
一、粒子群算法基本原理 72
二、粒子群算法的研究進展 73
三、目前研究中存在的問題 74
第二節 基于自適應慣性權重的混沌粒子群算法 75
一、混沌序列初始化粒子位置 75
二、慣性權重的自適應變化 76
三、早熟判斷機制及混沌擾動策略 77
四、算法流程 78
五、實驗與分析 79
六、對本節三種改進策略的測試 79
七、與其他算法的比較 80
第三節 應用混沌粒子群算法的特征子集優化模型 83
一、粒子編碼及初始種群的生成 84
二、粒子速度及位置的更新 85
三、適應度的評價 86
四、并行計算加速機制 87
五、混沌粒子群算法獲得*優特征子集的流程 88
六、實驗與分析 89
第四節 小結 91
第六章 基于模糊遺傳算法的文本信息過濾模板生成方法 92
**節 引言 92
第二節 遺傳算法的起源與歷程 93
第三節 遺傳算法的特點 94
第四節 遺傳算法的基本要素與原理 95
一、遺傳算法的基本要素 95
二、基本原理 97
第五節 基本遺傳算法 97
一、基本遺傳算法的結構與數學模型 97
二、基本遺傳算法的實現 99
第六節 基于遺傳算法的過濾模板優化方法理論可行性分析 102
一、問題描述 102
二、文本預處理 102
三、問題編碼及初始種群生成 103
四、個體適應度衡量 103
五、收斂性分析 104
第七節 基于遺傳算法的文本過濾方法實現 106
一、編碼 106
二、初始種群 106
三、適應度函數的選取 107
四、遺傳操作 109
五、相關參數的設定 109
六、訓練集 110
七、測試集 110
八、開發和運行環境 111
九、考查參數 111
十、文本分類實驗 111
第八節 模糊遺傳算法 114
一、種群規模動態調整 114
二、變異率模糊動態調整 116
三、遺傳參數的自適應調整 117
四、實驗結果比較分析 117
第九節 小結 118
第七章 基于概念的邏輯段落匹配方法 119
**節 引言 119
第二節 預備知識 119
一、概念 119
二、概念詞典 120
三、概念密度 120
四、概念映射 120
第三節 基于概念的邏輯段落劃分方法 121
一、文檔預處理 121
二、概念變換 122
三、詞義消歧 122
四、應用特征詞聚類的文本段落劃分方法 123
五、文本分類的段落化匹配實現 123
六、邏輯段落概念詞語的單一性 124
七、基于概念的概念擴充和關聯詞語擴充 124
第四節 段落化文本分類實現 126
第五節 實驗與分析 127
一、文本分類實驗 127
二、信息過濾效果測試實驗 129
第六節 小結 130
第八章 基于微粒群的協作過濾模板動態調整 131
**節 引言 131
第二節 基于種群動態遷移的改進微粒群算法 131
一、傳統微粒群算法 132
二、基于線性遞減慣性權重調整方法(linearly) 133
三、變加速度微粒群算法 133
四、引入遷移思想的微粒群算法 134
五、實驗分析 136
六、結論 137
第三節 基于微粒群的模板動態更新 139
一、協作過濾技術 139
二、混合過濾可行性分析 141
三、基本框架 141
四、基于微粒群的動態模板更新信息獲取 142
五、基于改進微粒群算法的協作過濾實現 143
第四節 實驗與分析 144
一、評價指標 144
二、實驗分析 145
第五節 小結 147
第九章 基于反饋增量學習的過濾模板更新機制 148
**節 反饋增量學習 148
第二節 過濾模板更新機制 149
一、本書反饋信息獲取方法 149
二、基于示例文檔的過濾模板增量學習 149
三、基于文本分類的過濾模板增量學習 150
第三節 基于反饋增量學習的過濾模板更新機制 151
一、GA在過濾模板更新中的應用 151
二、反饋信息中基于種群平均適應度的改進特征選擇方法 154
三、基于樸素貝葉斯分類的過濾模板反饋增量學習 156
四、基于示例文檔的過濾模板反饋增量學習算法 157
第四節 小結 158
第十章 文本信息過濾原型系統 159
**節 系統設計方案 159
一、設計目標 159
二、系統邏輯結構 160
三、系統設計思路 160
四、系統基本框架 161
第二節 系統模塊設計 164
一、文本摘要模塊 164
二、分詞模塊 164
三、特征選擇模塊 165
四、權值計算 165
五、生成用戶模板 165
六、比較過濾模塊 165
第三節 系統實現 166
一、系統界面設計 166
二、過濾效果展示 168
第四節 小結 171
第十一章 結論與展望 172
**節 總結 172
第二節 進一步的工作 174
參考文獻 175
展開全部
基于群體智能優化算法的文本過濾關鍵技術研究 作者簡介
朱振方:男,1980.8月生,山東交通學院信息科學與工程學院副教授,計算機系主任,碩士生導師。主要研究領域為網絡輿情分析、自然語言處理、網絡信息過濾、垃圾郵件過濾等,主要從事網絡信息安全方面的教學工作。
劉培玉:男,1960.07出生,山東師范大學二級教授,博士生導師。主要研究領域計算機科學與技術、網絡空間安全,主要研究方向互聯網管理、網絡輿情分析、電子數據取證等。