中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
基于集成學習的文本情感分類問題研究

包郵 基于集成學習的文本情感分類問題研究

作者:王剛
出版社:科學出版社出版時間:2023-02-01
開本: B5 頁數: 140
中 圖 價:¥64.4(7.3折) 定價  ¥88.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

基于集成學習的文本情感分類問題研究 版權信息

  • ISBN:9787030696137
  • 條形碼:9787030696137 ; 978-7-03-069613-7
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

基于集成學習的文本情感分類問題研究 本書特色

從分析文本情感分類問題中數據的特征和影響入手,系統研究了文本情感分類中存在的大量高維數據、非均衡數據和無標簽數據等問題。

基于集成學習的文本情感分類問題研究 內容簡介

針對文本情感分類中存在大量高維數據、非均衡數據和無標簽數據等問題,本研究將泛化能力和適應性較強的集成學習引入到文本情感分類問題的研究中。從分析文本情感分類問題中數據的特征和影響入手,系統研究了文本情感分類中存在的大量高維數據、非均衡數據和無標簽數據等問題。本書內容新穎,融入了近年來在學術界和工程界普遍關注的諸多熱門課題,是作者及其課題組幾年來完成多項國家自然科學基金項目的成果結晶。

基于集成學習的文本情感分類問題研究 目錄

目錄
第1章 緒論 1
1.1 研究背景 1
1.2 國內外研究現狀及發展動態分析 2
1.2.1 文本情感分類相關研究 2
1.2.2 集成學習相關研究 4
1.3 研究目標 5
1.4 研究內容 6
1.5 研究方法 7
1.6 本書結構 7
第2章 文本情感分類和機器學習理論研究 9
2.1 文本情感分類理論研究 9
2.1.1 文本情感分類概述 9
2.1.2 文本情感分類的主要任務 10
2.1.3 基于情感知識的方法 11
2.1.4 基于機器學習的方法 13
2.2 機器學習理論研究 18
2.2.1 機器學習概述 18
2.2.2 非均衡數據學習 26
2.2.3 半監督學習 31
第3章 集成學習在文本情感分類中的比較研究 39
3.1 概述 39
3.2 集成學習在情感分類中的應用 40
3.2.1 Bagging算法 40
3.2.2 Boosting算法 41
3.2.3 RS算法 42
3.3 實驗設計 43
3.3.1 數據集 43
3.3.2 評價標準 43
3.3.3 實驗過程 43
3.4 實驗結果分析與討論 44
3.4.1 實驗結果 45
3.4.2 從集成學習方法角度進行的分析和討論 58
3.4.3 從基學習器角度進行的分析和討論 64
3.4.4 從特征集角度進行的分析和討論 66
第4章 基于POS-RS的文本情感分類研究 69
4.1 概述 69
4.2 基于POS-RS的文本情感分類模型 70
4.2.1 特征選取 70
4.2.2 模型構建 72
4.2.3 POS-RS算法 73
4.3 實驗設計 74
4.4 實驗結果分析與討論 75
4.4.1 實驗結果 76
4.4.2 分析與討論 76
第5章 電子商務中面向非均衡數據的文本情感分類研究 91
5.1 概述 91
5.2 基于詞性分析和非均衡數據分類的文本情感分類方法 92
5.2.1 電子商務中基于詞性分析的文本情感分類方法 92
5.2.2 電子商務中基于非均衡數據分類的文本情感分類方法 93
5.3 實驗設計 96
5.3.1 實驗數據集和評價指標 96
5.3.2 實驗流程 97
5.4 實驗結果分析與討論 97
5.4.1 實驗結果整體分析 100
5.4.2 不同非均衡數據分類方法對比分析 100
5.4.3 留詞性和去詞性方法對比分析 103
第6章 基于IDSSL的文本情感分類研究 105
6.1 概述 105
6.2 基于IDSSL的文本情感分類模型 107
6.2.1 基于分歧的半監督學習方法的文本情感分類建模 107
6.2.2 基于分歧的半監督學習方法的理論分析 108
6.2.3 基于IDSSL的文本情感分類方法 111
6.3 實驗設計 113
6.3.1 實驗數據集和評價指標 113
6.3.2 實驗流程 113
6.4 實驗結果分析與討論 114
6.4.1 實驗結果 114
6.4.2 分析與討論 116
第7章 結論與展望 120
7.1 結論 120
7.2 展望 121
參考文獻 123
彩圖
展開全部

基于集成學習的文本情感分類問題研究 節選

第1章 緒論 1.1 研究背景 近年來,隨著互聯網的快速發展,互聯網用戶大規模增加。第48次《中國互聯網絡發展狀況統計報告》顯示,截至2021年6月,我國網民規模達10.11億人,互聯網普及率為71.6%。互聯網的廣泛普及帶動了博客、論壇和社交網絡等社交媒體的飛速發展,同時產生了大量源于用戶創造的主觀性文本。這類文本包含用戶觀點、意見和態度等情感信息,對互聯網用戶有重要的作用。例如,消費者在互聯網上購買某項產品或服務的時候,一般會參考之前購買者的評論信息,來輔助自己的購買決策行為。這些主觀性文本的數量急速增加,人工分析需要消耗大量的人力和時間。因此,如何利用信息技術來有效地收集、存儲和分析這些主觀性文本所表達的情感信息已成為當前迫切需要解決的問題。文本情感分類技術正是解決這一問題的有效工具。 文本情感分類技術可以從海量的文本數據中發現和提取有價值的信息、知識,并可以幫助企業做出科學合理的決策,已經成為企業提高競爭力的重要手段。然而,當前已經提出的大量文本情感分類方法在實踐應用中效果并不好,其中一個重要的原因是文本情感分類問題由數據驅動,數據的固有屬性直接影響文本情感分類技術在實踐中的成功應用。在實際應用中,文本情感分類除了存在大量的高維數據問題,還存在大量的非均衡數據和無標簽數據問題。這些問題帶來了特征間關系復雜、易造成過學習和數據利用不充分等問題。現有的文本情感分類方法主要用來解決高維數據問題,對其他問題考慮較少,在實際應用中效果較差。因此,文本情感分類中的高維數據、非均衡數據和無標簽數據等問題成為人工智能和數據挖掘領域的熱點問題。 與此同時,集成學習通過訓練多個學習器并將結果進行集成,從而顯著提高學習系統的泛化能力,已成為近年來機器學習領域的一個重要研究方向。國內外大量學者投入了集成學習的研究中,理論和應用成果不斷涌現。目前集成學習已經成功應用到企業實踐中,部分解決了高維數據、非均衡數據和無標簽數據問題。在企業實踐中,文本情感分類會遇到大量高維數據、非均衡數據和無標簽數據問題,單一分類方法已經不能很好地解決這些問題,同時考慮集成學習具有較強的泛化能力和適應性,本書將其引入文本情感分類中。 綜上所述,針對文本情感分類中存在大量高維數據、非均衡數據和無標簽數據的問題,本書將泛化能力和適應性較強的集成學習引入文本情感分類的研究中,從分析文本情感分類問題中數據的特征和影響入手,系統研究文本情感分類中存在的大量高維數據、非均衡數據和無標簽數據等問題,并系統比較各類集成學習方法在文本情感分析中的有效性。以此為基礎,分別構建基于POS-RS的文本情感分類模型、基于非均衡數據分類和詞性分析的文本情感分類模型,以及基于IDSSL的文本情感分類模型。通過實證研究,完善基于集成學習的文本情感分類的理論和方法,為企業提供文本情感分類中存在的高維數據、非均衡數據和無標簽數據問題的解決方案。本書為解決文本情感分類中存在的高維數據、非均衡數據和無標簽數據等問題提供了新的方式和途徑,豐富基于集成學習的文本情感分類的理論研究體系,推動文本情感分類中高維數據、非均衡數據和無標簽數據等問題的研究和應用,增強企業的數據處理和利用能力,具有重要的理論意義和實踐價值。 1.2 國內外研究現狀及發展動態分析 本書主要涉及文本情感分類和集成學習等方面的內容,下面就國內外相關研究現狀及發展動態進行分析。 1.2.1 文本情感分類相關研究 近年來,文本情感分類已經成為人工智能和數據挖掘領域的熱門話題,受到了國內外學者的廣泛關注。文本情感分類涉及文本挖掘、機器學習、自然語言處理等多個研究領域。文本情感分類是指通過分析和挖掘用戶生成內容中所表達的觀點、意見等情感信息,判別用戶生成內容中的情感傾向。文本情感分類任務按其分析的粒度可以分為特征級別、句子級別、篇章級別等子任務。特征級別的文本情感分類的研究對象是文本中實體特征,研究任務是判斷特征中包含的褒貶傾向性。句子級別的文本情感分類的研究任務是判斷主觀性句子的褒貶傾向性。篇章級別的文本情感分類的研究任務是判斷文章的褒貶傾向性。文本情感分類主要有兩種方法:基于情感知識的方法和基于機器學習的方法[1-5]。 1.基于情感知識的方法 基于情感知識的方法主要依賴情感詞典以及一些自然語言處理知識,對文本的情感傾向進行分類。例如,Ohana和Tierney[6]采用通用情感詞典SentiWordNet來識別文本中的情感詞,計算情感分值,制定規則,并對文本情感傾向進行識別。Hatzivassiloglou和McKeown[7]認為將形容詞連接起來的連詞對于形容詞的情感傾向的判別很有幫助,其中連詞主要包括and、or、but、either-or和neither-nor等。這種方法雖然取得了78.08%的正確率,但是不能處理除形容詞以外詞性的詞語。Turney[8]用點間互信息(pointwise mutual information,PMI)方法判斷文本的情感傾向。他首先抽取包含形容詞或副詞的短語作為情感詞,然后計算該情感詞與褒義詞excellent的PMI值和該情感詞與貶義詞poor的PMI值的差值,得到該情感詞的情感傾向值,*后計算文本中所有情感詞的情感傾向值的平均值并得到情感傾向。基于情感知識的方法雖然取得了一些成果,但是需要事先構建情感知識庫,這限制了基于情感知識的方法的進一步發展。因此,本書主要關注基于機器學習的方法。 2.基于機器學習的方法 基于機器學習的方法在文本情感分類中已經得到廣泛的研究。相比于基于情感知識的方法,基于機器學習的方法不依賴情感詞和自然語言處理技術,有更強的適應性[3]。基于機器學習的方法包括兩個主要步驟:①通過特征構建技術提取主觀性文本的文本信息;②使用分類技術對這些文本信息中所包含的情感信息進行挖掘[4, 5]。目前經常使用詞袋(bag-of-words,BOW)方法進行文本情感分類的特征構建,BOW方法中的文本是無序詞匯的集合。BOW方法主要使用N元語言模型(N-gram)作為詞語特征。Pang等[1]首次將機器學習方法用于篇章級別的文本情感分類,并使用一元語言模型(Unigram)特征得到了*好的分類結果。一些學者將語義、短語及被BOW方法忽視的語義之間的聯系等自然語言處理知識應用于文本情感分類的特征構建中,如使用否定詞、詞性(part-of-speech)等作為文本特征[1, 3]。但是這些方法需要經過煩瑣的自然語言預處理過程,降低了分類的速度,而且對分類效果的改善不明顯[3, 4]。基于機器學習的方法所使用的分類技術主要有樸素貝葉斯(naive Bayes,NB)、支持向量機(support vector machine,SVM)和*大熵(maximum entropy,ME)等[1-4]。 1.2.2 集成學習相關研究 集成學習是近年來機器學習領域的研究熱點之一,它針對同一問題使用多個學習器進行學習,并使用某種規則把各個學習結果進行整合,從而獲得比單個學習器更好的學習效果。集成學習中的每個學習器稱為基學習器或者基分類器[9, 10]。較早開展集成學習研究的是Dasarathy和Sheela[11]。之后,Hansen和Salamon[12]通過研究發現,訓練多個神經網絡并將其結果按照一定的規則進行組合,就能顯著提高整個學習系統的泛化能力。與此同時,Schapire[13]通過構造性方法證明了可以將弱學習算法提升成強學習算法,這個過程就是自適應提升(Boosting)算法的雛形。基于此,在以上早期研究的帶動下,集成學習的研究迅速開展起來,理論和應用成果不斷涌現,成為機器學習領域*主要的研究方向之一[9, 10]。如何設計更有效的集成學習方法,以提高集成學習的泛化能力,并將集成學習應用到實際問題中,成為集成學習研究的熱點問題。 根據構造階段,集成學習方法可以分為基學習器生成方法和基學習器組合方法。基學習器生成方法主要包括基于數據劃分的方法、基于特征劃分的方法、引入隨機性的方法等。基于數據劃分的方法通過處理訓練樣本產生多個樣本集,基學習器運行多次,每次使用一個樣本集,如自助投票(Bagging)[14]和Boosting[15]等算法;基于特征劃分的方法把輸入特征劃分成子集,用作不同基學習器的輸入向量,每次使用一個特征子集,如RS[16,17]等算法;引入隨機性的方法通過將隨機性引入學習算法來構造不同的基學習器,例如,在人工神經網絡中,可以將網絡初始權值設為不同的隨機值,經過訓練獲得完全不同的基學習器。除了上述方法,學者還提出了層疊泛化(stacked generalization)[18]、級聯歸納(cascade generalization)[19]、糾錯輸出編碼(error-correcting output codes,ECOC)[20]等基學習器生成方法。基學習器組合方法根據基學習器的輸出可以分為抽象類、排序類和度量類。抽象類中,每個基學習器僅僅輸出一個類別標簽或者類別標簽子集,如投票法和行為知識空間(behavior-knowledge space)法[21]等;排序類中,基學習器根據未知樣本所屬類別的可能性,將所有類別標簽或者類別標簽子集進行排序,**個標簽代表未知樣本*可能的類別,以此類推,如波達(Borda)計數法和邏輯(Logistic)回歸法等[10];度量類中,每個分類器對每個類別輸出一個度量值,表示未知樣本屬于該類別的程度,如平均法和證據理論[22]等。除了上述方法,學者還提出了通過使用另一個學習器來完成對結果的組合的方法,如貝葉斯集成、層疊泛化[18]和元學習(meta learning)[23]等。 集成學習領域除了對方法本身的關注,還需要關注的重要問題就是從理論上對集成學習進行分析。集成學習具有較強的泛化能力。Dietterich[24]從統計、計算、表示等三個角度解釋了集成學習獲得成功的原因。但是,Dietterich的解釋主要基于觀念,不能針對具體問題進行理論上的分析。目前集成學習的理論分析主要從基學習器生成和結論生成兩方面展開。具體來說主要有:①偏差-方差(bias-variance)分解法[10],它是機器學習中的一種重要的分析技術。給定學習目標和訓練集規模,它可以把一種學習算法的期望誤差分解為三個非負項的和,即偏差、方差和本真噪聲。以往的研究表明,Boosting算法主要降低偏差,Bagging算法主要降低方差[10]。②誤差-模糊(error-ambiguity)分解法,其源于Krogh和Vedelsby[25]推導出的重要公式,其中,為集成的泛化誤差,為集成中基學習器的平均泛化誤差,為集成中基學習器的平均模糊。③從邊際(margin)的角度分析集成學習的有效性及其對噪聲的反應[26]。廣大學者盡管已從不同角度對集成學習進行了理論分析,但對集成學習成功的本質原因還沒有達成共識[10, 27]。一般認為,有效地產生泛化能力強、多樣性大的基學習器是集成學習的關鍵。為此,學者從不同角度提出了多樣性的定義和度量公式,可分為兩兩計算(pairwise)和非兩兩計算(non-pairwise)兩類[28, 29]。兩兩計算的多樣性首先計算所有兩兩基學習器間的多樣性,然后求均值,作為整個集成學習系統的多樣性。兩兩計算的多樣性的度量有Q統計量、不一致度量(disagreement measure)、雙錯誤度量(double-fault measure)等[28]。非兩兩計算的多樣性中,所有基學習器同時參與計算,而不需要計算兩兩基學習器間的多樣性。非兩兩計算的多樣性的度量有熵度量、科哈維-沃爾珀特(Kohavi-Wolpert)方差、困難度量(difficulty measure)等[29]。 1.3 研究目標 針對文本情感分類中存在的大量高維數據、非均衡數據、無標簽數據等問

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 壹作文_中小学生优秀满分作文大全 | 富森高压水枪-柴油驱动-养殖场高压清洗机-山东龙腾环保科技有限公司 | 新能源汽车电机定转子合装机 - 电机维修设备 - 睿望达 | 保镖公司-私人保镖-深圳保镖公司【环宇兄弟保镖】 | 中红外QCL激光器-其他连续-半导体连续激光器-筱晓光子 | 快干水泥|桥梁伸缩缝止水胶|伸缩缝装置生产厂家-广东广航交通科技有限公司 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 全自动烧卖机厂家_饺子机_烧麦机价格_小笼汤包机_宁波江北阜欣食品机械有限公司 | 无负压供水设备,消防稳压供水设备-淄博创辉供水设备有限公司 | 健康管理师报考条件,考试时间,报名入口—首页 | 泰国试管婴儿_泰国第三代试管婴儿_泰国试管婴儿费用/多少钱_孕泰来 | 全自动真空上料机_粉末真空上料机_气动真空上料机-南京奥威环保科技设备有限公司 | 广西绿桂涂料--承接隔热涂料、隔音涂料、真石漆、多彩仿石漆等涂料工程双包施工 | 行星齿轮减速机,减速机厂家,山东减速机-淄博兴江机械制造 | wika威卡压力表-wika压力变送器-德国wika代理-威卡总代-北京博朗宁科技 | 贴片电容代理-三星电容-村田电容-风华电容-国巨电容-深圳市昂洋科技有限公司 | 酒糟烘干机-豆渣烘干机-薯渣烘干机-糟渣烘干设备厂家-焦作市真节能环保设备科技有限公司 | 日本SMC气缸接头-速度控制阀-日本三菱伺服电机-苏州禾力自动化科技有限公司 | 全自动翻转振荡器-浸出式水平振荡器厂家-土壤干燥箱价格-常州普天仪器 | 旗帜网络笔记-免费领取《旗帜网络笔记》电子书 | 消防泵-XBD单级卧式/立式消防泵-上海塑泉泵阀(集团)有限公司 | 浙江皓格药业有限公司| 流程管理|流程管理软件|企业流程管理|微宏科技-AlphaFlow_流程管理系统软件服务商 | 红酒招商加盟-葡萄酒加盟-进口红酒代理-青岛枞木酒业有限公司 | 钢制暖气片散热器_天津钢制暖气片_卡麦罗散热器厂家 | 多功能真空滤油机_润滑油全自动滤油机_高效真空滤油机价格-重庆润华通驰 | 卷筒电缆-拖链电缆-特种柔性扁平电缆定制厂家「上海缆胜」 | 气动隔膜泵厂家-温州永嘉定远泵阀有限公司 | 一级建造师培训_一建培训机构_中建云筑建造师培训网校 | 合肥通道闸-安徽车牌识别-人脸识别系统厂家-安徽熵控智能技术有限公司 | LINK FASHION 童装·青少年装展 河南卓美创业科技有限公司-河南卓美防雷公司-防雷接地-防雷工程-重庆避雷针-避雷器-防雷检测-避雷带-避雷针-避雷塔、机房防雷、古建筑防雷等-山西防雷公司 | 强效碱性清洗剂-实验室中性清洗剂-食品级高纯氮气发生器-上海润榕科学器材有限公司 | 法兰连接型电磁流量计-蒸汽孔板节流装置流量计-北京凯安达仪器仪表有限公司 | 工业制氮机_psa制氮机厂家-宏骁智能装备科技江苏有限公司 | 无缝方管|无缝矩形管|无缝方矩管|无锡方管厂家 | 云南标线|昆明划线|道路标线|交通标线-就选云南云路施工公司-云南云路科技有限公司 | 合肥废气治理设备_安徽除尘设备_工业废气处理设备厂家-盈凯环保 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | 杭州ROHS检测仪-XRF测试仪价格-百科 | 步进_伺服_行星减速机,微型直流电机,大功率直流电机-淄博冠意传动机械 | 众品地板网-地板品牌招商_地板装修设计_地板门户的首选网络媒体。 | 通用磨耗试验机-QUV耐候试验机|久宏实业百科 |