-
>
妙相梵容
-
>
基立爾蒙文:蒙文
-
>
我的石頭記
-
>
心靈元氣社
-
>
女性生存戰爭
-
>
縣中的孩子 中國縣域教育生態
-
>
(精)人類的明天(八品)
海量網絡學術文獻自動分類研究 版權信息
- ISBN:9787010148472
- 條形碼:9787010148472 ; 978-7-01-014847-2
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
海量網絡學術文獻自動分類研究 內容簡介
本書針對文本分類方法在發展過程中出現的問題,圍繞“本體及其在文本分類中的應用”和“海量網絡學術文獻自動分類”兩個方面展開探討。深入研究了海量網絡學術文獻處理技術,比較分析了適合網絡文獻自動獲取及并行處理的工具;設計了基于Heritrix與Hadoop平臺的海量網絡學術文獻獲取及并行處理模型和基于WordNet與SUMO本體集成的語義驅動自動文檔分類模型;梳理了本體以及本體集成理論、方法和工具;開發了海量網絡學術文獻并行獲取和自動分類原型系統。
海量網絡學術文獻自動分類研究 目錄
緒論
**章 網絡爬蟲
**節 網絡爬蟲
一、開源網絡爬蟲工具
二、爬蟲工具比較分析
第二節 Hadoop平臺
一、Hadoop與其他系統的比較
二、Hadoop項目及結構
三、Hadoop分布式文件系統
四、MapReduce編程模型
五、Hadoop平臺搭建
第二章 海量網絡學術文獻獲取及并行處理模型
**節 網絡學術文獻的主要來源及常用文件格式
一、網絡學術文獻的主要來源及特點
二、網絡學術文獻的常用文件格式
第二節 網絡學術文獻自動獲取實驗
一、實驗環境
二、實驗平臺搭建
第三節 網絡學術文獻資源獲取
一、網絡學術文獻獲取方案
二、種子站點的選擇
三、抓取任務的配置
四、文件類型和大小過濾
五、網絡學術文獻獲取實驗結果
第四節 網絡學術文獻資源判定
第五節 網絡學術文獻并行處理
一、數據預處理
二、并行處理
第六節 MapReduce任務優化
一、任務調度
二、任務數量
三、Combine函數
四、文件壓縮
五、重用JVM
六、網絡學術文獻并行處理模塊實驗結果
第三章 本體集成
**節 本體研究
一、本體概念
二、本體基本構成要素
三、本體類型
四、本體表示語言
第二節 本體庫研究
一、國內外主要本體庫
二、本體庫比較分析
第三節 本體集成基本過程
第四節 本體集成工具
一、工具介紹
二、工具比較與分析
第五節 本體集成方法
一、基于形式概念分析(FCA)的本體集成方法
二、基于范疇論的本體集成方法
三、基于RDFS圖閉包的本體集成方法
第四章 基于語義驅動文本自動分類研究
**節 文檔自動分類基本理論
一、文檔自動分類基本概念
二、文檔自動分類基本流程
三、文檔自動分類性能評價指標
第二節 基于語義驅動文檔自動分類概念
第三節 基于語義驅動文檔自動分類實現基礎
第四節 基于語義驅動文檔自動分類方法模型
一、詞向量空間構建
二、語義向量空間構建
第五章 基于本體集成的文檔語義分類模型
**節 SUMO和WordNet本體庫概述
一、WordNet本體庫
二、SUMO本體庫
第二節 WordNet與SUMO本體庫映射機制研究
一、映射動機
二、映射模型
三、映射實例
四、映射效果及應用分析
第三節 基于WordNet與SUMO本體集成文檔語義分類模型設計與實現
一、實驗平臺構建
二、實驗數據集及方法
三、集成本體庫構建
四、詞向量空間到概念向量空間的映射
五、概念向量空間通用化
六、分類模型訓練與測試過程描述
七、實驗評估指標
八、實驗及結果分析
第六章 海量網絡學術文獻自動分類系統
**節 海量網絡學術文獻自動分類系統
一、開發環境
二、海量網絡學術文獻自動獲取模塊
三、海量網絡學術文獻詞一文檔矩陣處理模塊
四、本體集成模塊
五、基于語義驅動的分類模塊
第二節 海量網絡學術文獻自動分類系統實現
一、系統主要技術及標準
二、系統功能
第七章 總結及展望
**節 總結
第二節 展望
附錄A
附錄B
附錄C
附錄D
參考文獻
索引
后記
海量網絡學術文獻自動分類研究 節選
《海量網絡學術文獻自動分類研究》: HDFS中的塊是一個抽象概念,作為分布式文件系統,HDFS被設計用來處理大文件,使用抽象塊會帶來很多好處。**個好處是,一個文件可以大于網絡中任意一個磁盤的容量,文件的分塊不需要存儲在同一個磁盤上,可以利用集群上的任意一個磁盤;第二個好處是,使用抽象塊而不是文件,作為操作單元,可簡化存儲子系統。簡化存儲子系統是所有系統的追求,但對于故障種類繁多的分布式系統來說尤為重要,存儲子系統控制的是塊,簡化了存儲管理。HDFS的塊大小是固定的,這樣就簡化了存儲系統的管理,特別是元數據信息可以和文件塊內容分開存儲;第三個好處是,塊有利于提供容錯和實用性而做的復制操作,在HDFS中為了處理節點故障,默認將副本數設定為3份,分別存儲在集群的不同節點上。當一個塊損壞時,系統會通過名稱節點獲取元數據信息,在另外的機器上讀取一個副本并進行存儲。文件塊副本數可以根據需要進行配置,比如在有些應用中,可能會為操作頻率較高的文件塊,設置較高的副本數量以提高集群的吞吐量。 2.名稱節點與數據節點 HDFS體系結構中有兩類節點:名稱節點(NameNode)和數據節點(DataNode)。在Hadoop集群中,一般會有一個名稱節點和多個數據節點,名稱節點管理集群中的任務調度,數據節點是具體任務的執行節點。名稱節點通過遠程過程調用接口,支持文件系統命名空間中文件和目錄的打開、關閉和重命名等操作,決定數據塊和數據節點的映射關系。名稱節點負責維護文件系統的命名空間和客戶端的文件訪問,從名稱節點中可以獲得所有文件每個塊所在的數據節點,這些信息不是永久保存的,名稱節點會在每次啟動系統時動態地自動重建這些信息。當運行任務時,客戶端通過名稱節點獲取元數據信息,和數據節點進行交互以訪問整個文件系統。 ……
海量網絡學術文獻自動分類研究 作者簡介
王效岳,男,1961年生,工學博士,教授,山東理工大學科技信息研究所所長。中國圖書館學會高等學校圖書館分會委員,山東省科技情報學會副理事長,山東省圖書館學會常務理事。研究方向為數據挖掘與信息處理技術。主編及參編學術著作6部,省部級課題6項、廳局級課題10余項,發表學術論文80余篇,其中被EI、CSSCI索引30余篇。授權發明專利3項。獲省科技進步3等獎l項,廳局級科技進步2等獎2項、3等獎3項。白如江,男,1979年生,管理學博士,副研究館員,山東理工大學圖書館數字資源部主任。研究領域包括文本數據挖掘、自然語言處理、信息檢索技術、高科技戰略情報研究等。主持國家社科青年基金項目l項,教育部人文社會科學青年基金項目等省部級課題多項。
- >
莉莉和章魚
- >
巴金-再思錄
- >
苦雨齋序跋文-周作人自編集
- >
伯納黛特,你要去哪(2021新版)
- >
唐代進士錄
- >
經典常談
- >
朝聞道
- >
有舍有得是人生