-
>
以利為利:財政關系與地方政府行為
-
>
立足飯碗 藏糧于地——基于中國人均耕地警戒值的耕地保護視角
-
>
營銷管理
-
>
茶葉里的全球貿易史(精裝)
-
>
近代華商股票市場制度與實踐(1872—1937)
-
>
麥肯錫圖表工作法
-
>
海龜交易法則
信息系統學報 第25輯 版權信息
- ISBN:9787030689603
- 條形碼:9787030689603 ; 978-7-03-068960-3
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
信息系統學報 第25輯 本書特色
本期《信息系統學報》為總第25輯,共收錄7篇研究論文和2篇領域綜述。
信息系統學報 第25輯 內容簡介
《信息系統學報》是我國信息系統科學研究領域內專享的專門學術出版物,被信息系統協會中國分會指定為會刊。《信息系統學報》倡導學術研究的科學精神和規范方法,鼓勵對信息系統與信息管理領域中的理論和應用問題進行原創性探討和研究,旨在發表信息系統研究領域中應用科學嚴謹的方法論、具有思想性與創新性的研究成果。本書內容包括相關的理論、方法、應用經驗等方面,涵蓋信息系統各個研究領域,注重結合我國國情進行探討,從而對我國和世界信息系統的研究與應用做出貢獻。 《信息系統學報》主要面向信息系統領域的研究人員,其作為我國信息系統領域學術研究探索與發展的重要主流平臺,為相關研究工作創造了一個友好而廣闊的交流空間,推動著我國信息系統研究、應用及學科建設不斷前進。 本期是《信息系統學報》第25輯,共收錄9篇論文。
信息系統學報 第25輯 目錄
(第25輯)
目錄
主編的話 XI
研究論文
基于HNC理論的問答社區中答案摘要生成研究/王宇,王芳 1
基于用戶評論信息抽取的電商問答研究/胡志強,錢宇,袁華,汪子牧 13
用戶知識付費參與決策的三類信息作用機制研究/苗虹,趙冰潔,王念新,葛世倫 26
共享時代地域已無足輕重?技能共享地域門檻機制研究/洪志娟,董坤祥,陳陽陽 39
母嬰論壇中備孕女性信息需求研究/姚志臻,張斌,錢宇星 56
在線健康社區中慢性病用戶知識采納行為研究/楊雪潔,顧東曉,梁昌勇,馬一鳴 67
基于命名實體識別和圖嵌入技術的腦血管疾病相似病歷研究/秦秋莉,郭煜,趙爽,姜勇 77
契合類型對善因營銷信息分享意愿的影響研究——基于相似性雙渠道加工模型/霍佳樂,顏清,蔣玉石,王鈺靈 94
學科建設
數字化轉型背景下的信息管理與信息系統類學科建設/程絮森,顏志軍,左美云 108
審稿專家 112
China Journal of Information Systems
(Issue 25)
CONTENTS
EDITORS’ NOTES XI
ARTICLES
Research on Answer Summary Generation in Q&A Community Based on the HNC Theory/WANG Yu,WANG Fang 1
Research on E-Commerce Q&A Based on User Comment Information Extraction/HU Zhiqiang,QIAN Yu,YUAN Hua,WANG Zimu 13
Study on the Action Mechanism Among the Three Types of Information for Users’ Knowledge Payment Decision/MIAO Hong,ZHAO Bingjie,WANG Nianxin,GE Shilun 26
Does Location Still Matter in the Era of Sharing Economy? Study on Location Threshold Mechanism in Skill Sharing Markets/HONG Zhijuan,DONG Kunxiang,CHEN Yangyang 39
Research on the Information Needs Expressed on Maternal-Fetal Forum by Women Who Plan for Pregnancy/YAO Zhizhen,ZHANG Bin,QIAN Yuxing 56
Exploring Factors Affecting Knowledge Adoption of Chronic Disease Users in Online Health Community/YANG Xuejie,GU Dongxiao,LIANG Changyong,MA Yiming 67
Research on Similar Medical Records of Cerebrovascular Diseases with Named Entity Recognition and Graph Embedding Technology/QIN Qiuli,GUO Yu,ZHAO Shuang,JIANG Yong 77
The Influences of Type of Fit on Information Sharing Intention in Cause-Related Marketing:Based on the Dual-Process of Similarity/HUO Jiale,YAN Qing,JIANG Yushi,WANG Yuling 94
DISCIPLINE
The Construction of Information Management and Information System and Related Discipline in the Context of Digital Transformation/CHENG Xusen,YAN Zhijun,ZUO Meiyun 108
PEER REVIEWERS 112
信息系統學報 第25輯 節選
基于HNC理論的問答社區中答案摘要生成研究 王宇,王芳 (大連理工大學經濟管理學院,遼寧大連116024) 摘要針對問答社區中意見型問題答案文本情感突出的情況,首先提出一種補全未收錄詞HNC符號的方式,然后利用HNC理論的相關規律進行情感詞的定位和情感值計算,進而利用情感值對答案句子進行聚類,生成積極、消極和中性三類情感句子類簇,*后提出基于*佳答案模板的相似度排序算法,抽取出3類情感答案摘要。實驗證明,本文提出的方法在實例中的應用與人工生成的*佳摘要更為接近,尤其在摘要可讀性、邏輯性方面比其他方法更具優勢。 關鍵詞問答社區,答案摘要,HNC理論,情感值計算,*佳答案模板 中圖分類號 G203 1 引言 隨著Web技術的推廣,普通網民成為博客、微博、論壇、問答等在線社區的用戶,以外文社區的Quora、Yahoo! Answers和中文社區的百度、知乎為代表的在線問答社區已擁有大量用戶和海量問答對,在線問答社區可以幫助用戶解決相關問題或獲取專業知識。問答社區中提問與回答的文本數據屬于用戶生成內容(user-generated content,UGC),大量的用戶自定義提問與回答導致社區中存在著文本冗余、噪聲多、可信度低等問題[1,2]。針對熱門問題,用戶給出的答案數很多,但在“短文本”時代,用戶在一個問題和答案界面的停留時間越來越短,沒有時間和耐心閱讀完所有答案。Liu等通過統計發現國外Yahoo!Answers社區中大部分類別下開放、意見型問題占比在56%以上[3]。這類問題的用戶討論熱度高,看法、評論角度多樣,用戶在有限時間內對一個意見型問題的所有答案形成全面清晰的認知十分困難,提煉出這類問題的情感摘要可以方便社區用戶查看,便捷地了解其他用戶針對某個話題的看法,同時對把握社區用戶群體的情感屬性與掌握網絡輿情也具有重要意義。 為此,學者們提出生成答案情感摘要的解決方案。Liu等提出對答案文本進行自下而上的聚類,然后利用情感詞典判斷問題和答案句子的情感極性,利用互信息獲得每個類簇中的關鍵句子并排序,*終獲得答案摘要[3]。徐振將一個問題下的多個答案文本分別生成情感為支持、反對和中立的三類答案摘要,然后構建主題詞打分函數,*后利用組合優化算法抽取高質量的句子形成摘要[4]。而S. Li和Z. Li構建詞語層次結構,建立圖模型,根據隨機游走算法獲得的頂點權重大小抽取答案中的句子構成摘要[5]。 傳統的方法主要通過大量的特征(包括情感詞典、詞性特征等)[6]進行情感分析,近年來基于深度學習的方法也被廣泛應用到情感摘要分析中。H. Nguyen和M. L. Nguyen提出了一種基于詞典的深度學習方法,通過構建語義規則,利用深度卷積網絡提取詞語的情感信息,*后通過雙向長短時記憶(Bi-LSTM)網絡學習句子的情感特征[7]。Wang等通過建立評論與特征詞間的聯系,提出利用基于注意力機制的LSTM(long short-term memory,長短時記憶)神經網絡方法進行分析,提升了情感分類的性能[8]。Tang等提出了一種基于記憶網絡的深度神經網絡,通過多層基于注意力機制的計算層強化屬性與評論之間的語義關系,為每一個詞語的上下文相關詞語學習到一個權重,極大地提升了對詞語進行情感判斷的性能[9]。但是針對問答社區沒有標準語料且未收錄詞較多的特點,基于深度學習的方法并不適合,故本文提出基于HNC知識庫對答案文本的情感傾向進行計算的方式。 問答社區的答案摘要工作除抽取摘要句子外,還要對抽取出的答案句子進行排序,以保證生成摘要的可讀性。Lapata提出一種非監督的概率排序方法[10]。Bollegala等利用有監督的機器學習方法,從已有的人工句子排序中學習特征,用貪婪算法得到*佳排序方法[11]。康世澤等通過時間、概率、主題相似性等文本特征定義摘要句子之間的連接強度,在此基礎上提出利用馬爾科夫隨機游走模型對句子進行排序的方法[12]。但以上方法沒有考慮文本句子中*重要的深層次語義及情感信息,且機器學習方法是針對不同領域的文本,訓練語料庫所需的人工工作量很大。 針對問答社區中廣泛存在的文本簡短、稀疏、語義模糊以及網絡新詞未收錄等問題,已經有許多通過引入外部語料庫的方式來解決相關問題的研究。文獻[13]從維基百科文章中選出排名*靠前的三篇文章中*中心的句子,對一個問題下的每一個答案句子進行擴充。文獻[14]借助標簽傳播算法生成HNC詞語知識庫[15]中新詞的HNC符號,進而利用HNC詞語相似度計算方法[16]和云模型構建了語義和情感的句子相似度計算方法,實現了對問答社區的答案排序,但該文在計算答案文本語義情感相似度時,所使用的標簽傳播算法只適用于一個問題下存在大量回答文本的情形,在實際問題中這一點很難保證。文獻[17]從已有的HNC知識庫和符號的生成規律入手,提出一種新詞情感值計算的方法,但該方法還未實現對新詞的自動識別和處理,新詞的加入需采用人工標注的方式。 問答社區中有許多意見型問題答案文本,這類文本的特點是用詞不規范,內含許多新興詞語未被收錄,且具有比較明顯的情感傾向。HNC理論可以利用概念符號體系對新詞進行有效的補充,并且根據概念符號迅速進行情感詞定位及情感值計算,不需要借助大量語料庫進行訓練,這是HNC理論的優勢所在。因此,為了讓用戶更迅速全面地對問答社區中意見型問題進行了解,本文針對意見型問題答案文本的特點提出一種答案摘要生成方法。首先在文獻[17]的基礎上,借助中文近義詞包,提出一種解決HNC知識庫中未收錄詞的處理方法,并利用HNC符號的生成規律進行答案句子情感詞的定位和情感值計算;然后利用情感值對答案句子進行聚類,生成積極、消極和中性三類情感句子類簇;*后根據摘要字數限制,利用*佳答案模板根據相似度大小對類簇句子進行內部的重新排序,生成三個情感傾向不同的摘要。 2 基于HNC理論的答案情感詞定位及情感值計算 為了從答案文本中準確識別出情感詞并進行情感值的計算,首先根據中文中表示句子末尾的標點符號及空格將答案文本分句,然后對答案句子進行過濾。由于問答社區中收獲關注度較高的答案大都具有格式規范、描述詳盡等特點,一般字數低于5的答案句子所含有用信息較少,且本文通過提取答案句子的方式生成摘要,為了保證答案摘要的質量及可讀性,這里將字數低于5的句子過濾掉。*后再利用ICTCLAS分詞系統對答案句子進行分詞及未收錄詞處理。 2.1 HNC庫中未收錄詞處理 HNC由中國科學院黃曾陽先生創立,是面向整個自然語言的理論體系[18]。詞匯概念是HNC理論的局部聯想脈絡體系,該體系把詞匯概念分為抽象概念和具體概念,其中抽象概念從外部特征五元組和內涵語義網絡兩方面描述[19]。HNC知識庫[15,20]從詞語本身的語義出發,對每個詞語賦予一個HNC符號。HNC符號由概念基元(即概念內涵)、概念類別符號(即語義網絡層次符號)、概念外部特征符號(即五元組符號)和組合符號等四部分組成,把詞義之間的概念關聯顯式地表達出來,為計算機提供了理解處理的基本依托。 在處理實際問題時,并不是所有的詞語都能與HNC知識庫中已收錄的詞語進行順利匹配,這是因為在當前復雜的網絡環境下,網絡新詞出現的速度遠遠高于人工進行詞典收錄的速度。 文獻[17]提出了一種人工補全未收錄詞HNC符號的方式,但是問答社區中無法直接映射到HNC字詞庫的網絡新詞數量非常多,使用人工補全方法效率較低,故本節提出一種利用中文近義詞包Synonyms自動補全未收錄詞HNC符號的方式,給定一個未收錄詞,可以利用該近義詞包輸出與未收錄詞語義相似的詞語及其對應的相似程度,目前該近義詞包已經收錄了125792個詞語及其相似詞語。下面介紹利用該近義詞包補全未收錄詞HNC符號的具體操作。 Step1:給定一個未收錄詞w,利用Synonyms輸出該詞對應的相似度排名前十的詞語及其相似度值; Step2:對于w對應的排名前十的近義詞,按照相似度由高到低的順序查找詞語是否被收錄在HNC字詞庫中,若被收錄,則返回該詞對應的HNC符號,若未被收錄,則返回空值; Step3:重復前兩個步驟,直至未收錄詞集合中的所有詞語被遍歷一次; Step4:輸出通過查找近義詞對應HNC符號對未收錄詞補全后的詞表,通過人工判定確定相似度閾值,對于大于閾值的符號進行保留,小于閾值的符號則舍去。 邀請三位同學為上述方法設置合理的相似度閾值,通過求平均值的方式設定閾值為0.62。在包含691137個問答對的知乎數據集上使用該方法找到了21784個未收錄詞對應的HNC符號,通過閾值的設定,*終保留了10730個詞語的映射符號,隨機抽取三組未收錄詞的HNC符號驗證該方法的準確率,每組中包含50個未收錄詞,各組準確率如表1所示。 表1 補全未收錄詞HNC符號的準確率 三組實驗準確率的平均值為0.76,其中,被判定為未正確進行近義詞符號映射的主要為以下兩種情況。 (1)將未收錄詞映射為HNC詞庫中的反義詞,如將“未成年”映射為“成年”,“成年”對應的符號為“g10bc54”,“未成年”所包含的“幼年”“少年”“青年”對應的符號分別為“g10bc51”“g10bc52”“g10bc53”,雖然詞義相反卻含有相同的概念節點,可以迅速將未收錄詞映射為正確的HNC符號。 (2)將未收錄詞映射為HNC詞庫中的相關詞,如將“喬布斯”映射為“蘋果電腦”,將“湖南衛視”映射為“央視”,這種情況可以將原本不在詞庫中的詞語映射為含義相近的詞語。 以上兩種情況對未收錄詞的HNC符號補全及后續語義情感值計算均會起到積極的作用。將本文提出的方法與文獻[17]提出的利用人工補全的方法進行對比,如“神器”這個未收錄詞,百度漢語將其解釋為“帝王的印璽,借指帝位、國家權力”,而百度百科下面該詞條則有21個義項,人工補全符號將耗費很大精力,依據本文方法給出的近義詞是“寶物”,放在原來的語境里也解釋得通,形容某一個軟件好用,可以說該軟件是個神器(寶物)。綜上,本文提出的方法可以在保證準確率的同時節省大量人力成本,效率較以往完全依賴人工補全未收錄詞HNC符號的方法有了一定提高。 2.2 情感詞的定位 情感詞的定位可以利用HNC符號的相關規律進行。在HNC理論中,情感的概念層次符號為“713”,可以直接通過檢索HNC知識庫,判斷其概念類別是否屬于“情感”大類“713”。在五元組的v、g、u、z、r符號類別中,符號“u”表述“屬性”,可以先通過判別某一詞語的五元組符號是否包含“u”來預估該詞語是否可能為情感詞。對于這類情感詞,還需進行對偶型概念的檢驗。 對偶型概念的HNC符號在編碼結構上有如下規律[21]:如果結尾數字m在1~3范圍內,則1、2、3分別表示褒義、貶義、中性三種含義;如果結尾數字m在5~7范圍內,則5、6、7分別表示褒義、貶義、中性三種含義。 情感詞定位的具體流程:依次遍歷每個詞語的HNC符號,首先判斷HNC符號是否包含“713”這個“情感”大類的類別符號,若包含則屬于**類情感詞;若不包含則需再判斷該詞的五元組符號中是否包含字母“u”,如果不包含,則直接判定該詞不屬于任何一類情感詞;如果包含,還需再判斷該詞是否具有對偶性,如果有則判定該詞屬于第二類情感詞,否則不納入情感詞集合。 在對答案句子進行情感分析的過程中,情感詞僅僅決定了答案句子的情感基調,在情感基調的基礎上,*終的情感傾向性將如何變化取決于修飾情感詞的情感極性詞。 情感極性詞主要分為以下兩類。 (1)表達情感強弱的程度副詞。在HNC知識庫中,概念節點“j60”表示“度的基本內涵”,即與程度表達有關的詞語全部與該概念節點相關聯。該節點下有三組概念:**組概念“j60c4m
- >
苦雨齋序跋文-周作人自編集
- >
月亮與六便士
- >
山海經
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
推拿
- >
煙與鏡
- >
有舍有得是人生
- >
史學評論