-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰(zhàn)行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
JAVA持續(xù)交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
大數(shù)據(jù)知識工程 版權信息
- ISBN:9787030731654
- 條形碼:9787030731654 ; 978-7-03-073165-4
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
大數(shù)據(jù)知識工程 本書特色
該書對大數(shù)據(jù)知識工程的概論、挑戰(zhàn)、知識表示、知識獲取、知識推理展開詳細介紹,提出大數(shù)據(jù)知識工程在智慧教育、稅收風險、網(wǎng)絡輿情三大領域的典型應用,并引出大數(shù)據(jù)知識工程方向的一些未來研究熱點。
大數(shù)據(jù)知識工程 內(nèi)容簡介
實際工程問題的求解往往涉及跨領域、跨模態(tài)的海量碎片化知識,這些知識不能僅靠專家提供,而需要從環(huán)境中動態(tài)學習和融合生成。知識工程旨在研究計算機對知識的獲取、表征和處理。隨著UGC模式的興起,一種新的知識工程范式—大數(shù)據(jù)知識工程應運而生。和早期的專家系統(tǒng)相比,大數(shù)據(jù)知識工程實現(xiàn)了以文本、小規(guī)模、靜態(tài)、人工方式的專家知識計算機表示,到多模態(tài)、大規(guī)模、動態(tài)不確定環(huán)境下知識的自動獲取與表征的跨越式發(fā)展。本書對大數(shù)據(jù)知識工程的概論、挑戰(zhàn)、知識表示、知識獲取、知識推理展開詳細介紹,提出大數(shù)據(jù)知識工程在智慧教育、稅收風險、網(wǎng)絡輿情三大領域的典型應用,并引出大數(shù)據(jù)知識工程方向的一些未來研究熱點。
大數(shù)據(jù)知識工程 目錄
前言
第1章 緒論 1
1.1 知識工程發(fā)展歷程 1
1.2 大數(shù)據(jù)知識工程概述 3
1.2.1 產(chǎn)生背景 3
1.2.2 基本概念 4
1.2.3 與傳統(tǒng)知識工程的區(qū)別 5
1.3 與新一代人工智能的關系 6
1.3.1 新一代人工智能的特點 6
1.3.2 大數(shù)據(jù)知識工程是共性技術 7
1.4 本書的組織結構 7
1.5 本章小結 8
參考文獻 9
第2章 挑戰(zhàn)與科學問題 11
2.1 “三跨”特點 11
2.2 散、雜、亂三個挑戰(zhàn) 12
2.3 研究框架與科學問題 16
2.4 本章小結 18
參考文獻 18
第3章 知識表示 21
3.1 研究現(xiàn)狀與趨勢 21
3.2 傳統(tǒng)的知識表示方法 23
3.3 知識圖譜 26
3.3.1 知識圖譜的定義 26
3.3.2 知識圖譜的分類 26
3.3.3 知識圖譜的存儲 28
3.4 事件圖譜 29
3.4.1 事件圖譜的定義 30
3.4.2 事件圖譜的數(shù)據(jù)模型 31
3.4.3 常見事件圖譜 32
3.5 知識森林 33
3.5.1 知識森林的提出背景 33
3.5.2 知識森林的定義 34
3.5.3 知識森林的存儲模型 37
3.6 本章小結 39
參考文獻 39
第4章 知識獲取與融合 42
4.1 研究現(xiàn)狀與趨勢 42
4.1.1 研究現(xiàn)狀 42
4.1.2 挑戰(zhàn)與發(fā)展趨勢 44
4.2 知識圖譜自動構建 45
4.2.1 三元組知識抽取 45
4.2.2 三元組知識融合 49
4.3 邏輯公式抽取 50
4.3.1 邏輯公式的形式化定義 51
4.3.2 基于統(tǒng)計量的抽取方法 52
4.3.3 基于矩陣序列的抽取方法 54
4.3.4 基于關系路徑的抽取方法 56
4.3.5 挑戰(zhàn)與展望 57
4.4 知識森林自動構建 57
4.4.1 主題分面樹生成 58
4.4.2 文本碎片知識裝配 61
4.4.3 認知關系挖掘 63
4.4.4 知識森林可視化 67
4.5 本章小結 70
參考文獻 71
第5章 知識表征學習 75
5.1 研究現(xiàn)狀與趨勢 75
5.1.1 研究現(xiàn)狀 76
5.1.2 挑戰(zhàn)與發(fā)展趨勢 78
5.2 知識圖譜表征學習 79
5.2.1 直推式學習 79
5.2.2 歸納式學習 82
5.3 異構圖表征學習 84
5.3.1 淺層異質信息網(wǎng)絡表征學習 85
5.3.2 深層異質信息網(wǎng)絡表征學習 87
5.3.3 挑戰(zhàn)與發(fā)展趨勢 91
5.4 邏輯公式表征學習 92
5.4.1 基于序列的方法 93
5.4.2 基于樹結構的方法 93
5.4.3 基于圖結構的方法 95
5.4.4 挑戰(zhàn)與發(fā)展趨勢 97
5.5 本章小結 98
參考文獻 98
第6章 知識推理 102
6.1 研究現(xiàn)狀與趨勢 102
6.1.1 基本概念 102
6.1.2 研究現(xiàn)狀 103
6.1.3 挑戰(zhàn)與發(fā)展趨勢 106
6.2 帶有記憶的推理模型 106
6.2.1 記憶機制在推理中的作用 107
6.2.2 神經(jīng)圖靈機 107
6.2.3 可微神經(jīng)計算機 111
6.2.4 記憶模型總結 114
6.3 符號化分層遞階學習模型 115
6.3.1 SHiL模型 115
6.3.2 SHiL模型構建方法 116
6.3.3 復雜數(shù)據(jù)系統(tǒng)的層次劃分和介區(qū)域識別 117
6.3.4 符號化可微編程的介區(qū)域控制機制 118
6.3.5 跨界區(qū)域推理路徑生成 121
6.4 知識檢索 124
6.4.1 基本概念 124
6.4.2 典型知識檢索方法 126
6.4.3 知識檢索中的why-not問題 130
6.4.4 挑戰(zhàn)與發(fā)展趨勢 132
6.5 智能問答 133
6.5.1 自然語言問答 133
6.5.2 視覺問答 137
6.5.3 教科書式問答 140
6.5.4 問題生成 145
6.6 本章小結 150
參考文獻 150
第7章 典型應用 154
7.1 知識森林個性化導學 154
7.1.1 知識森林導航學習系統(tǒng) 155
7.1.2 知識森林AR交互學習 158
7.1.3 應用示范 161
7.2 智能化稅務治理 163
7.2.1 稅收知識庫構建 163
7.2.2 稅收優(yōu)惠計算 171
7.2.3 偷逃騙稅風險智能識別 176
7.3 網(wǎng)絡輿情的智能監(jiān)控 179
7.3.1 輿情網(wǎng)絡的定義和構建 180
7.3.2 輿情網(wǎng)絡應用分析 181
7.4 本章小結 185
參考文獻 185
第8章 未來研究方向 186
8.1 復雜大數(shù)據(jù)知識獲取 186
8.1.1 視覺知識 186
8.1.2 常識知識 191
8.1.3 知識增殖與量質轉化 196
8.2 知識引導+數(shù)據(jù)驅動的混合學習 198
8.2.1 可微編程 199
8.2.2 反事實推理 203
8.2.3 可解釋機器學習 208
8.3 腦啟發(fā)的知識編碼與記憶 212
8.3.1 雙過程理論啟發(fā)的認知圖譜 212
8.3.2 海馬體理論啟發(fā)的知識記憶與推理 214
8.4 本章小結 217
參考文獻 217
第9章 結語 222
致謝 224
大數(shù)據(jù)知識工程 節(jié)選
第1章 緒論 互聯(lián)網(wǎng)和大數(shù)據(jù)的發(fā)展為知識工程提供了廣闊的應用場景,各類大規(guī)模開放性應用所需要的跨域知識很容易超出傳統(tǒng)知識工程構建的知識邊界。傳統(tǒng)知識工程難以適應互聯(lián)網(wǎng)時代的大規(guī)模開放性應用的需求,大數(shù)據(jù)知識工程應運而生。大數(shù)據(jù)知識工程將突破傳統(tǒng)知識工程在知識獲取及知識應用方面的瓶頸,從而可以應對現(xiàn)實世界開放性和復雜性給知識工程帶來的巨大挑戰(zhàn)。 1.1 知識工程發(fā)展歷程 知識(knowledge)指某個對象的理論或實踐認知,柏拉圖稱之為“被相信的真理”。知識一般是易于理解的結構化信息,常用于解決問題或決策支持。知識是人工智能的動力[1],與算力、數(shù)據(jù)、算法等構成了人工智能基礎[2]。在計算機領域,傳統(tǒng)機器學習通過大量樣本進行訓練,目前已經(jīng)遇到發(fā)展瓶頸。通過本體庫、知識圖譜等先驗知識去賦能機器學習,可降低機器學習對訓練樣本的依賴,增強機器學習的泛化能力,是連接主義和符號主義融合發(fā)展的新方向。 知識工程(knowledge engineering)是一門以知識為研究對象的新興學科,核心思想是通過知識的獲取、表征和推理來求解應用問題的原理與方法[3]。知識工程是美國斯坦福大學計算機科學家Feigenbaum在1977年第五屆國際人工智能大會上提出的概念,其目的是將人類或專家的知識輸入到計算機中,并建立推理機制,讓機器也能擁有知識,并能進行計算和推理,解決實際問題。知識工程將具體智能系統(tǒng)研究中的共性關鍵技術抽出來,作為知識工程的核心內(nèi)容,使其成為指導研制各類具體智能系統(tǒng)的一般性方法和基礎性工具,成為一門具有方法論意義的科學。知識工程主要包括以下三個方面:①知識表示。研究知識形式化描述相關的方法和技術,實現(xiàn)計算機可以合理高效地存貯知識,并方便知識的計算和推理。②知識獲取與融合。研究從系統(tǒng)外部獲得的知識,并與現(xiàn)有知識庫融合的方法和技術,包括對外部數(shù)據(jù)的知識化及不同來源知識的融合。③知識推理(knowledge reasoning)應用。研究知識的組織、計算和推理的方法與技術,實現(xiàn)實際工程問題的求解或決策支持。 傳統(tǒng)知識工程構建的系統(tǒng)通常被稱為專家系統(tǒng)(expert system)。專家系統(tǒng)指具有專門知識和經(jīng)驗的計算機智能系統(tǒng)[4],一般采用知識表示和知識推理技術來求解通常由領域專家才能解決的復雜問題。如圖1.1所示,專家系統(tǒng)一般由知識庫與推理引擎兩部分組成,它根據(jù)一個或者多個領域專家提供的知識和經(jīng)驗,通過模擬專家的思維過程,進行主動推理和判斷,并解決實際工程問題。 圖1.1 專家系統(tǒng)的基本結構 專家系統(tǒng)在二十世紀七八十年代蓬勃發(fā)展,成為人工智能的一個重要分支。Durkin[5]和Waterman[6]對成功應用于不同領域的大量專家系統(tǒng)進行了匯總分析,涉及化學、電子、工程、地質、管理、醫(yī)藥、過程控制、軍事等領域。Waterman發(fā)現(xiàn),將近200個專家系統(tǒng)中,大部分應用于醫(yī)學診斷領域。Durkin發(fā)現(xiàn),專家系統(tǒng)新興的應用領域是商業(yè)和制造業(yè),占總應用的60%。圖1.2給出二十世紀5個著名的專家系統(tǒng)。 圖1.2 二十世紀5個著名的專家系統(tǒng) (1)**個成功的專家系統(tǒng)DENDRAL[7]:1968年問世,用來輔助解析有機化合物的結構。Feigenbaum基于DENDRAL總結專家系統(tǒng)所采用的理論及方法,并提出“知識工程”這一概念。 (2)醫(yī)療專家系統(tǒng)MYCIN[8]:基于規(guī)則的專家系統(tǒng),使用反向鏈接(backward chaining)進行推理以診斷傳染性的血液病。它可以根據(jù)患者的體重推薦藥物,還以一種便捷、用戶友好的方式為醫(yī)生提供治療建議。其性能相當于人類專家水平,并高于初級醫(yī)生的水平。 (3)地質專家系統(tǒng)PROSPECTOR[9]:1978年由斯坦福國際研究所研發(fā),因發(fā)現(xiàn)一個鉬礦而聞名于世。它將規(guī)則和語義網(wǎng)絡(semantic network)合并到一個結構中,以表示專家知識,并使用包含一千多條規(guī)則的領域知識。有9位專家為該系統(tǒng)提供了專業(yè)知識。 (4)醫(yī)療專家系統(tǒng)CADUCEUS[10]:20世紀70年代中期開始開發(fā),成熟于80年代中期,構建了一個龐大的知識庫,被認為是“知識*密集的專家系統(tǒng)”,是MYCIN的擴展,可以診斷1000多種疾病。 (5)康復指導專家系統(tǒng)SMH.PAL[11]:相關論文發(fā)表于1994年,是一個用于評估失能學生康復過程的專家系統(tǒng)。 以專家系統(tǒng)為代表的傳統(tǒng)知識工程在二十世紀七八十年代解決了很多實際工程問題,并在醫(yī)療診斷、商業(yè)、制造業(yè)等領域取得了巨大成功。但是傳統(tǒng)知識工程是一種典型的、自上而下的設計思路,嚴重依賴領域專家和知識工程師(knowledge engineer),不僅需要領域專家把自己的知識表達出來,還需要知識工程師把專家表達的知識轉換成計算機能夠處理的形式。這使得專家系統(tǒng)適合規(guī)則明確、邊界清晰、應用封閉的應用場景且僅能解決玩具問題(toy problem)[12],難以適用于智能答疑、無人駕駛等開放、復雜推理場景。傳統(tǒng)知識工程面臨兩個主要困難: (1)知識獲取瓶頸。知識的規(guī)模難以保證,隱性知識、過程知識等難以表達,質量受領域專家個人經(jīng)驗影響很大,知識更新難。例如,如何表達經(jīng)驗豐富的教師指導學生用了哪些知識或經(jīng)驗。不同專家可能存在主觀性,如指導具有特定興趣、情感、知識背景的學生,大部分依賴教師的主觀性。 (2)知識應用瓶頸。很多應用,尤其是很多開放性應用很容易超出預先設定的知識邊界。還有很多應用需要常識的支撐,而常識定義難、表示難。傳統(tǒng)知識工程難以處理異常、超范圍等場景。 雖然知識工程解決問題的思路極具前瞻性,但傳統(tǒng)知識工程終因無法克服人工構建成本太高、知識獲取困難、海量規(guī)則組合爆炸等弊端,而難以適應互聯(lián)網(wǎng)時代大規(guī)模開放應用的需求。在經(jīng)歷了二十世紀七八十年代的黃金期后,傳統(tǒng)知識工程逐漸沒落。為此,學術界和工業(yè)界的知識工程研究者試圖尋找新的解決方案。 1.2 大數(shù)據(jù)知識工程概述 1.2.1 產(chǎn)生背景 信息技術革命持續(xù)進行,數(shù)據(jù)繼續(xù)向更大規(guī)模、更多連接的方向發(fā)展。在此背景下,1998年萬維網(wǎng)之父Tim Berners-Lee提出語義網(wǎng)(semantic web),其核心是通過將萬維網(wǎng)上的文檔轉化為計算機所能理解的語義,使互聯(lián)網(wǎng)成為信息交換媒介。語義網(wǎng)可以直接向機器提供能用于程序處理的知識,然而語義網(wǎng)是一個比較宏觀的設想,需要“自頂向下”的設計,很難落地。學者將目光轉移到數(shù)據(jù)本身上來,提出了鏈接數(shù)據(jù)(linked data)的概念[13]。鏈接數(shù)據(jù)希望數(shù)據(jù)不僅發(fā)布于語義網(wǎng)中,更需要建立起自身數(shù)據(jù)之間的鏈接,從而形成一張巨大的鏈接數(shù)據(jù)網(wǎng)。**個大規(guī)模開放域鏈接數(shù)據(jù)是DBpedia[14],類似的還有Freebase[15]、Wikidata[16]、Yago[17]等。其中DBpedia有400多萬個實體,48293種屬性關系,10億個事實三元組。Freebase有4000萬個實體,上萬種屬性關系,24多億個事實三元組。谷歌收購Freebase后以Freebase為基礎構建了一個大規(guī)模知識庫“知識圖譜”,并將知識圖譜定義為描述真實世界中存在的各種實體及關系,進而構建了基于知識圖譜的智能Web搜索引擎。隨后,知識圖譜在精準推薦、風險識別、醫(yī)療診斷等領域得到廣泛應用。 知識圖譜可為機器智能提供先驗知識。機器想要認知語言、理解語言,需要背景知識的支持。知識圖譜富含大量的實體及概念間的關系,可以作為背景知識來支撐機器理解自然語言。通過知識圖譜等先驗的知識去賦能機器學習,可以降低機器學習對樣本的依賴,增強機器學習的能力。例如,現(xiàn)在的深度學習常因缺少可解釋性受人詬病,而知識圖譜中包含的概念、屬性、關系是天然可用作可解釋性的。 互聯(lián)網(wǎng)的發(fā)展為知識工程的發(fā)展提供了豐富的土壤,知識規(guī)模的量變帶來了知識效用的質變。知識圖譜作為一種海量的知識組織方式,可為知識工程的大規(guī)模知識表示提供支撐,極大擴展了知識工程所使用知識的規(guī)模,宣告了知識工程進入了一個新的發(fā)展時期。 1.2.2 基本概念 大數(shù)據(jù)(big data)指無法在一定時間范圍內(nèi)用常規(guī)算法或方法進行采集、管理和處理的數(shù)據(jù)集合[18]。Sch?nberger在《大數(shù)據(jù)時代》中指出大數(shù)據(jù)不用隨機分析法(抽樣調(diào)查),而用所有數(shù)據(jù)進行分析處理[19]。一般認為大數(shù)據(jù)具有5V特點:volume(大量)、velocity(高速)、variety(多樣)、value(價值)、veracity(真實性)。隨著大數(shù)據(jù)時代的到來,以專家系統(tǒng)為代表的傳統(tǒng)知識工程,面臨人工成本過高、專家經(jīng)驗局限等困境。同時大數(shù)據(jù)導致跨域跨源、場景動態(tài)、規(guī)則事先未知的問題,需要新的知識獲取、表示及推理技術。 大數(shù)據(jù)知識工程指利用知識工程的思想和方法,從大數(shù)據(jù)中獲取、驗證,表征其中蘊含的知識,并基于這些知識進行推理和應用,形成解決大數(shù)據(jù)背景下實際工程問題的專家系統(tǒng)[20];诤A繑(shù)據(jù)清洗、大規(guī)模并行計算、群智計算等大數(shù)據(jù)技術,大數(shù)據(jù)技術使得大規(guī)模獲取知識成為可能,解決了傳統(tǒng)知識工程的知識獲取瓶頸問題,即利用大數(shù)據(jù)算法實現(xiàn)數(shù)據(jù)驅動的大規(guī)模知識自動獲取與融合。 大數(shù)據(jù)知識工程是教育、政務、金融、醫(yī)療等各領域面臨的共性需求。例如,在線教育中,面臨著如何將來自在線課程、百度百科等跨媒體資源轉化為結構化知識,進而支持個性化導學的需求。又例如,我國自1994年實施金稅工程以來,積累了工商、稅務、海關等數(shù)萬億稅收歷史數(shù)據(jù),只有將其轉化為可推理計算的結構化知識庫,才能實現(xiàn)偷逃騙稅的智能識別。在大數(shù)據(jù)背景下,人工根本無能為力。 通過上述典型應用場景分析發(fā)現(xiàn),碎片化是大數(shù)據(jù)知識工程的共性問題,具有數(shù)據(jù)跨源、知識跨域、表示跨媒體的特點,從中凝練出碎片知識融合科學問題,面臨散、雜、亂的難題挑戰(zhàn)。散是指碎片知識空間分散、關聯(lián)稀疏、內(nèi)容片面;雜表現(xiàn)為模態(tài)多樣、良莠不齊;亂表現(xiàn)為碎片知識跨域交叉、線索凌亂。針對散、雜、亂的難題挑戰(zhàn),傳統(tǒng)的知識表示方法、獲取與融合方法、推理應用方法都無法適用,因而需要新的理論與技術。 1.2.3 與傳統(tǒng)知識工程的區(qū)別 大數(shù)據(jù)知識工程將大數(shù)據(jù)轉化為人類可理解,而且機器可表示、可計算的結構化知識庫/知識圖譜,讓機器也能擁有知識,并進行推理應用。其來源可以是用戶生成的含有大量噪聲的內(nèi)容,也可能是物聯(lián)網(wǎng)傳感器生成的內(nèi)容。傳統(tǒng)知識工程則是將人類或專家的知識表示到計算機中,并建立推理機制,進行計算和推理。和傳統(tǒng)知識工程相比,大數(shù)據(jù)知識工程在知識的表征方式、獲取融合、推理應用三個方面實現(xiàn)拓展和創(chuàng)新。表1.1給出傳統(tǒng)知識工程和大數(shù)據(jù)知識工程的對比分析。大數(shù)據(jù)知識工程獲取途徑中的眾包與群智獲取知識指互聯(lián)網(wǎng)上的海量用戶通過在線數(shù)據(jù)編輯器構建大規(guī)模知識,典型的是Wikidata[16]。2022年2月共有527萬注冊用戶為該知識庫貢獻了近10億個數(shù)據(jù)項 ,數(shù)據(jù)項每天還在增加。 表1.1 傳統(tǒng)知識工程和大數(shù)據(jù)知識工程的對比分析 傳統(tǒng)知識工程與大數(shù)據(jù)知識工程在表征方式、獲取融合、推理應用三方面的差異導致兩者適用場景不同:傳統(tǒng)知識工程適合于場景靜態(tài)、規(guī)則明確、邊界確定的問題,如五子棋、國際象棋;大數(shù)據(jù)知識工程適合于場景動態(tài)、規(guī)則事先未知、邊界未知、多領域知識混合的問題。例如,在線學習、偷逃騙稅等都屬于場景動態(tài)、問題求解前不知道有哪些規(guī)則、需要融合多個領域知識才能求解的問題。 從技術上,在大數(shù)據(jù)背景下,針對碎片知識散、雜、亂的難題挑戰(zhàn),需要解決碎片知識融合這一核心科學問題。對這一問題,傳統(tǒng)的專家系統(tǒng)、機器學習理論都無法解決。 1.3 與新一代人工智能的關系 1.3.1 新一代人工智能的特點 人工智能這一概念在1956年美國達特茅斯學院的學術會議上首次被提出,目的是研究或開發(fā)用于模擬并擴展人類智能的理論
- >
小考拉的故事-套裝共3冊
- >
巴金-再思錄
- >
龍榆生:詞曲概論/大家小書
- >
二體千字文
- >
伯納黛特,你要去哪(2021新版)
- >
羅庸西南聯(lián)大授課錄
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
經(jīng)典常談