數字文獻資源高維聚合模型研究 版權信息
- ISBN:9787520307826
- 條形碼:9787520307826 ; 978-7-5203-0782-6
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
數字文獻資源高維聚合模型研究 本書特色
針對文本挖掘和信息檢索中的文本或文獻聚類與分類等問題,學術界基于VSM(向量空間模型)主要有兩方面的研究,一者是文獻表示模型的改進,二者是算法的改進。然而傳統的算法對高維稀疏的向量聚類存在不足,一些新的算法也不盡完美,更主要的是聚類算法的效果與數據本身的特征以及信息提取和表示密切相關,特別是在信息有限的情況下,聚類算法的優勢也不能得到完美發揮,相比之下,信息的挖掘、提取和文獻向量表示就尤為重要。在本文僅限于元數據甚至只有關鍵詞的前提下,文獻的表示向量相比一般文本表示就表現得非常稀疏,面對這種情形聚類算法即使是“巧婦”也“難為無米之炊”,因此,本書的重點突破是文獻主題語義信息的提取、度量和文獻高維向量的新表示方法。基于以上問題和現象,本書以數字文獻資源為對象,本著在信息資源聚合中減少對背景知識的依賴,便于推廣應用的宗旨,提出了基于文獻集本身或者相關領域的共現信息而實現文獻聚合的共現潛在語義向量空間模型(CLSVSM)。而且通過實驗證實基于CLSVSM的文獻聚類表現比基于VSM和GVSM(廣義向量空間模型)顯著地好。
數字文獻資源高維聚合模型研究 內容簡介
針對文本挖掘和信息檢索中的文本或文獻聚類與分類等問題,學術界基于VSM(向量空間模型)主要有兩方面的研究,一者是文獻表示模型的改進,二者是算法的改進。然而傳統的算法對高維稀疏的向量聚類存在不足,一些新的算法也不盡完美,更主要的是聚類算法的效果與數據本身的特征以及信息提取和表示密切相關,特別是在信息有限的情況下,聚類算法的優勢也不能得到完美發揮,相比之下,信息的挖掘、提取和文獻向量表示就尤為重要。在本文僅限于元數據甚至只有關鍵詞的前提下,文獻的表示向量相比一般文本表示就表現得非常稀疏,面對這種情形聚類算法即使是“巧婦”也“難為無米之炊”,因此,本書的重點突破是文獻主題語義信息的提取、度量和文獻高維向量的新表示方法。基于以上問題和現象,本書以數字文獻資源為對象,本著在信息資源聚合中減少對背景知識的依賴,便于推廣應用的宗旨,提出了基于文獻集本身或者相關領域的共現信息而實現文獻聚合的共現潛在語義向量空間模型(CLSVSM)。而且通過實驗證實基于CLSVSM的文獻聚類表現比基于VSM和GVSM(廣義向量空間模型)顯著地好。
數字文獻資源高維聚合模型研究 目錄
引言
一 研究背景和意義
(一)研究背景
(二)研究意義
二 國內外研究綜述
(一)國內研究進展
(二)國外研究進展
(三)相關研究述評
三 研究目的、方法與創新
(一)研究目的與思路
(二)研究方法與工具
(三)本書的創新之處
**章 數字文獻資源聚合的概念與理論基礎
一 數字文獻資源的范疇
(一)數字化的信息資源
(二)數字文獻資源
二 數字文獻資源聚合的內涵與外延
(一)聚合的緣起
(二)文獻資源聚合的內涵
(三)文獻資源聚合的外延
三 數字文獻資源聚合研究的形式和內容
(一)數字文獻資源聚合的形式
(二)數字文獻聚合研究內容辨析
四 數字文獻資源聚合研究的理論基礎
(一)文本挖掘理論
(二)共現理論與共現網絡
(三)LSA與LSI理論
(四)FA與PA理論
(五)信息熵理論
(六)長尾理論
五 數字文獻資源聚合的應用方法研究
(一)新聞聚合與自動摘要
(二)對檢索結果的聚類
(三)文檔管理與個性化信息服務
(四)改善文獻分類的結果
六 數字文獻資源基于元數據聚合的探索
(一)元數據是數字文獻資源的特征信息
(二)基于元數據實現文獻聚合的可行性
七 本章小結
第二章 數字文獻資源的高維向量表示與語義相關性研究
一 數字文獻資源的多元和高維特征
(一)文獻屬性的多元特征
(二)文獻主題的高維特征
二 文獻主題的特征選擇與評價方法
(一)文獻主題特征的選擇問題
(二)特征子集的選取與評價
三 文獻特征的高維表示與文獻相似性測度方法
(一)文獻特征的高維向量表示
(二)文獻相似性與距離的測度
四 向量空間模型及其衍生模型
(一)經典VSM模型
(二)廣義向量空間模型
(三)面向中文文獻聚類的VSM類模型
五 語義向量空間模型
(一)基于VSM的語義相關性研究
(二)語義信息增強模型
(三)語義核與文獻主題相似性
六 本章小結
第三章 共現潛在語義向量空間模型(CLSVSM)
一 共現潛在語義的概念
(一)語義與語義信息
(二)潛在語義與共現潛在語義
(三)共現潛在語義的挖掘
二 基于共現潛在語義的文獻高維向量表示模型
(一)文獻高維向量表示的困境
(二)模型提出的基礎
(三)相關定義和記號
(四)CLSVSM模型的表示
(五)CLSVSM模型的解釋
三 語義信息的增強與約簡探討
(一)語義信息的增強
(二)語義信息的約簡
四 基于CLSVSM的數字文獻資源聚合
(一)基于特征向量聚類的文獻聚合步驟
(二)文獻的相似矩陣
(三)文獻集的相似度
(四)聚類算法選擇
(五)聚類準則函數
(六)聚類評價方法
五 CLSVSM模型與VSM衍生模型的類比
(一)類比基于關鍵詞相同度的VSM模型
(二)類比扭曲VSM模型
(三)類比TCABARwC模型
六 本章小結
第四章 CLSVSM模型的實驗檢驗與評價
一 文獻聚類實驗的基本設計
(一)實驗的目的和要求
(二)實驗基本流程設計
二 文獻聚類評價方法
(一)BF指標
(二)熵值、純度和錯誤率
三 高維向量聚類工具:gCLUTo
四 實驗文獻集的來源與描述
(一)數據的選擇和采集
(二)數據的整理與分析
(三)實驗數據集的基本統計描述
五 文獻聚類實驗內容與方案
(一)實驗內容
(二)實驗步驟
(三)實驗方案
六 文獻聚類實驗結果與分析
(一)CLSVSM模型的語義信息增強效果分析
(二)CLSVSM模型的聚類效果對比實驗
(三)實驗總結:CLSVSM的優勢
七 本章小結
第五章 CLSVSM模型的應用與實證
一 CLSVSM模型的應用范圍
二 實證準備
(一)實證數據的選擇
(二)文獻聚類簇數目的確定
三 基于CLSVSM模型的聚合實證研究
(一)實證Ⅰ一一以概率論與數理統計學科抽樣文獻為例
(二)實證Ⅱ一一以信息資源建設主題的檢索文獻集為例
四 本章小結
第六章 CLSVSM模型的進一步研究
一 共現潛在語義的不同估計量對比研究
(一)基于不同共現潛在語義估計量的模型構建
(二)基于不同共現潛在語義估計量的模型對比
二 CLSVSM對英文文獻的適應性研究
(一)英文文獻數據采集
(二)CLSVSM對中英文數據聚類的對比
三 共現矩陣的約簡研究
(一)截尾共現潛在語義向量空間模型
(二)共現矩陣約簡前后的對比
四 共現潛在語義核研究
(一)GCLSVSM
(二)廣義模型與原模型的實驗對比
(三)CLSVSM_K
五 三元共現的挖掘與利用研究
(一)三元共現的表示
(二)三元共現強度的計算
(三)三元CLSVSM
(四)三元CLSVSM與CLSVSM的比較
六 本章小結
第七章 總結與展望
一 總結與啟示
二 不足與展望
參考文獻
致 謝
展開全部
數字文獻資源高維聚合模型研究 作者簡介
牛奉高,男,1980年4月生,山西沁水人。山西大學數學科學學院統計系講師,碩士生導師,山西省高等學校優秀青年學術帶頭人,中國數學會會員,中國科學學與科技政策研究會、全國科學計量學與信息計量學專業委員會會員。2014年畢業于武漢大學情報學專業,獲管理學博士學位。2015年獲湖北省優秀博士學位論文獎。研究領域包括信息計量與科學評價、應用統計等。主持國家自然科學基金項目一項,省廳級科研項目三項;在《Scientometrics》、《情報學報》、《情報科學》、《重慶大學學報》、《武漢大學學報》、《山西大學學報》等國內外期刊上發表學術論文20余篇;獲批軟件著作權一項;參編《科學計量學》、《知識計量學》等多部著作,擔任《中國研究生學科專業評價報告》副主編。