中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網(wǎng) 請 | 注冊
> >
面向互聯(lián)網(wǎng)的智能信息檢索技術(shù)研究

包郵 面向互聯(lián)網(wǎng)的智能信息檢索技術(shù)研究

作者:徐博
出版社:科學(xué)出版社出版時間:2021-11-01
開本: 16開 頁數(shù): 236
中 圖 價:¥96.8(7.5折) 定價  ¥129.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

面向互聯(lián)網(wǎng)的智能信息檢索技術(shù)研究 版權(quán)信息

面向互聯(lián)網(wǎng)的智能信息檢索技術(shù)研究 內(nèi)容簡介

本書以作者在智能信息檢索領(lǐng)域多年的研究工作為基礎(chǔ),總結(jié)并梳理了面向互聯(lián)網(wǎng)的智能信息檢索技術(shù)的近期新前沿進展,從查詢意圖理解和相關(guān)性匹配兩個方面著重介紹了智能檢索技術(shù)研究的脈絡(luò)和發(fā)展,進而通過將智能檢索技術(shù)應(yīng)用于智能問答、醫(yī)療檢索、用戶畫像和情感計算等多項信息檢索和自然語言處理研究實踐,分析并探討了相關(guān)技術(shù)應(yīng)用中的研究范式和應(yīng)用模式,為人工智能和計算機科學(xué)與技術(shù)專業(yè)人士提供智能信息檢索技術(shù)的全新解讀,促進智能信息檢索技術(shù)的突破與發(fā)展。 本書可供計算機和人工智能相關(guān)專業(yè)的高年級本科生和研究生閱讀,也可作為從事智能信息檢索領(lǐng)域和自然語言處理領(lǐng)域研究和算法研發(fā)人員的參考書。

面向互聯(lián)網(wǎng)的智能信息檢索技術(shù)研究 目錄

目錄
《博士后文庫》序言
前言
第1章 緒論 1
1.1 信息檢索技術(shù)及其發(fā)展 1
1.2 面向搜索引擎的智能信息檢索技術(shù) 2
1.3 查詢意圖理解和相關(guān)性排序 3
1.4 排序?qū)W習(xí) 4
1.4.1 點級排序?qū)W習(xí)模型 5
1.4.2 對級排序?qū)W習(xí)模型 6
1.4.3 列表級排序?qū)W習(xí)模型 7
1.5 智能信息檢索評價指標 8
1.6 智能信息檢索相關(guān)應(yīng)用場景 10
1.7 本書研究內(nèi)容及章節(jié)安排 12
參考文獻 14
第2章 基于混合模型的查詢意圖理解 19
2.1 引言 19
2.2 相關(guān)研究工作 20
2.3 查詢意圖分類模型整體框架 21
2.4 查詢向量表示 22
2.5 基于混合模型的查詢意圖分類 23
2.5.1 面向中間類別的意圖匹配 23
2.5.2 面向*終分類的查詢意圖分類 27
2.6 查詢意圖分類方法性能評估 28
2.6.1 實驗設(shè)置 28
2.6.2 對比模型和評價指標 28
2.6.3 實驗結(jié)果與分析 29
2.7 本章小結(jié) 30
參考文獻 31
第3章 面向生物醫(yī)學(xué)文本檢索的監(jiān)督式查詢擴展 34
3.1 引言 34
3.2 相關(guān)研究工作 35
3.3 監(jiān)督式生物醫(yī)學(xué)擴展詞排序方法 36
3.3.1 方法整體流程 36
3.3.2 候選擴展詞抽取 37
3.3.3 詞項標注策略 37
3.3.4 詞特征抽取 38
3.3.5 排序模型構(gòu)建 41
3.4 監(jiān)督式查詢擴展方法性能評估 43
3.4.1 實驗設(shè)置 43
3.4.2 標注策略性能評估 44
3.4.3 擴展詞特征性能評估 44
3.4.4 損失函數(shù)性能評估 45
3.4.5 整體檢索性能 45
3.4.6 實驗結(jié)果與分析 47
3.5 本章小結(jié) 48
參考文獻 48
第4章 排序?qū)W習(xí)文檔特征生成 51
4.1 引言 51
4.2 相關(guān)研究工作 52
4.3 基于查詢級半監(jiān)督自編碼器的排序模型 54
4.3.1 降噪自編碼器 54
4.3.2 基于Bregman散度的損失函數(shù) 55
4.3.3 查詢約束 56
4.4 半監(jiān)督自編碼排序方法性能評估 58
4.4.1 實驗設(shè)置 58
4.4.2 多種自編碼器強化的排序性能對比 59
4.4.3 多種排序?qū)W習(xí)方法的性能對比 61
4.4.4 與深度排序模型的檢索性能對比 62
4.4.5 特征維度對實驗性能的影響 64
4.4.6 討論 64
4.5 本章小結(jié) 65
參考文獻 65
第5章 直接優(yōu)化信息檢索評價指標的排序?qū)W習(xí)算法 70
5.1 引言 70
5.2 相關(guān)研究工作 72
5.3 信息檢索評價指標 73
5.3.1 平均排序倒數(shù) 73
5.3.2 期望倒數(shù)排序 73
5.3.3 Q-measure評價指標 74
5.4 基于AdaRank的排序特征生成方法 75
5.4.1 特征生成框架 75
5.4.2 基于AdaRank直接優(yōu)化信息檢索評價指標 77
5.4.3 基于標準數(shù)據(jù)集的特征生成框架 79
5.5 直接優(yōu)化評價指標排序方法性能評估 79
5.5.1 語料庫 79
5.5.2 實驗設(shè)置 80
5.5.3 所提出三種排序算法的性能評估 80
5.5.4 對生成特征集的評價 83
5.5.5 對組合特征集的評價 86
5.5.6 實驗分析與討論 86
5.6 本章小結(jié) 87
參考文獻 88
第6章 融合多重損失函數(shù)的排序?qū)W習(xí)模型 91
6.1 引言 91
6.2 相關(guān)研究工作 92
6.3 問題定義 92
6.4 融合多重損失函數(shù)的排序?qū)W習(xí) 94
6.4.1 多種候選損失函數(shù) 94
6.4.2 基于梯度下降的損失優(yōu)化 95
6.4.3 基于加權(quán)損失函數(shù)的重要性進行排序 96
6.5 多重損失函數(shù)融合排序方法性能評估 98
6.5.1 數(shù)據(jù)集和實驗設(shè)置 98
6.5.2 對級損失函數(shù)選擇 98
6.5.3 列表級損失函數(shù)選擇 99
6.5.4 正則加權(quán)策略的效果評估 99
6.5.5 迭代敏感加權(quán)策略的效果評估 100
6.5.6 接力加權(quán)策略的效果評估 100
6.5.7 整體性能比較 101
6.5.8 與其他算法的比較 103
6.6 本章小結(jié) 103
參考文獻 104
第7章 基于排序?qū)W習(xí)的情感原因抽取 107
7.1 引言 107
7.2 相關(guān)研究工作 108
7.3 面向情感原因抽取的排序模型 110
7.3.1 問題定義 110
7.3.2 面向情感原因的子句排序特征 111
7.3.3 面向情感原因的排序模型構(gòu)建 113
7.4 基于排序的情感原因抽取方法性能評估 115
7.4.1 實驗設(shè)置 115
7.4.2 與現(xiàn)有方法的比較 116
7.4.3 排序特征的比較 118
7.4.4 特征詞的性能比較 119
7.4.5 主題模型的特征比較 120
7.4.6 停用詞和情感級別歸一化的影響 120
7.4.7 討論 121
7.5 本章小結(jié) 121
參考文獻 121
第8章 基于預(yù)訓(xùn)練詞嵌入的詞排序模型 125
8.1 引言 125
8.2 相關(guān)研究工作 126
8.3 融合詞嵌入向量的詞排序模型 127
8.3.1 方法基本框架 127
8.3.2 候選擴展詞的獲取 128
8.3.3 基于單詞表示的詞特征抽取 128
8.3.4 詞標注策略 130
8.3.5 基于排序?qū)W習(xí)的擴展詞排序模型 131
8.4 詞排序模型性能評估 132
8.4.1 實驗設(shè)置 132
8.4.2 點級、對級和列表級方法的性能評估 135
8.4.3 與基線模型的結(jié)果比較 139
8.4.4 跨數(shù)據(jù)集訓(xùn)練詞排序模型的有效性 141
8.4.5 參數(shù)選擇過程 141
8.4.6 詞排序模型的分析與討論 143
8.5 本章小結(jié) 144
參考文獻 144
第9章 基于社會化標注和主題模型的個性化檢索 148
9.1 引言 148
9.2 相關(guān)研究工作 149
9.3 基于社會化標注的個性化文檔檢索 151
9.3.1 文檔重構(gòu) 151
9.3.2 主題模型優(yōu)化 152
9.3.3 個性化文檔檢索 154
9.4 個性化檢索方法性能評估 155
9.4.1 實驗設(shè)置 155
9.4.2 實驗結(jié)果與分析 156
9.5 本章小結(jié) 159
參考文獻 159
第10章 融合語義詞向量的社交媒體文本檢索 162
10.1 引言 162
10.2 相關(guān)研究工作 163
10.3 基于詞向量的微博查詢擴展 166
10.4 微博檢索方法性能評估 167
10.4.1 實驗設(shè)置 167
10.4.2 微博檢索偽相關(guān)反饋的參數(shù)選擇 168
10.4.3 實驗對比模型 169
10.4.4 基于詞向量的偽相關(guān)反饋查詢擴展性能 170
10.5 本章小結(jié) 172
參考文獻 172
第11章 面向社交媒體的用戶畫像技術(shù) 175
11.1 引言 175
11.2 相關(guān)研究工作 176
11.3 基于兩階段多通路模型融合框架的用戶畫像構(gòu)建方法 178
11.4 融合特征萃取的多粒度卷積神經(jīng)網(wǎng)絡(luò)用戶畫像構(gòu)建方法 179
11.4.1 多粒度用戶特征抽取 180
11.4.2 特征融合層 181
11.4.3 綜合輸出層 183
11.5 基于社交卷積注意力網(wǎng)絡(luò)的用戶畫像構(gòu)建方法 184
11.5.1 基于文本注意力的用戶屬性分類 185
11.5.2 基于文本和社交網(wǎng)絡(luò)注意力的用戶屬性分類 186
11.6 用戶畫像方法性能評估 187
11.6.1 實驗設(shè)置 187
11.6.2 對比模型 189
11.6.3 注意力層的效用 191
11.6.4 文本注意力和社交網(wǎng)絡(luò)注意力的效用 191
11.6.5 注意力可視化 192
11.7 本章小結(jié) 193
參考文獻 193
第12章 面向多樣化排序的醫(yī)療文本匹配 198
12.1 引言 198
12.2 醫(yī)療文本匹配技術(shù)及其研究進展 199
12.2.1 醫(yī)療問答技術(shù) 199
12.2.2 面向多樣性的信息檢索 200
12.2.3 面向醫(yī)療文本的排序?qū)W習(xí)方法 200
12.3 面向多樣性排序的醫(yī)療文本匹配方法 201
12.3.1 方法整體框架 201
12.3.2 醫(yī)療答案的標注策略 201
12.3.3 排序特征抽取 204
12.3.4 醫(yī)療答案排序?qū)W習(xí)方法 206
12.4 醫(yī)療文本匹配方法性能評估 209
12.4.1 實驗設(shè)置 209
12.4.2 評價指標 209
12.4.3 醫(yī)療問題和答案的標注 210
12.4.4 對比的排序模型 211
12.4.5 檢索性能評估結(jié)果 212
12.4.6 不同排序?qū)W習(xí)方法的性能評估 213
12.4.7 討論 217
12.5 本章小結(jié) 217
參考文獻 218
第13章 基于膠囊網(wǎng)絡(luò)的醫(yī)療問答研究 221
13.1 引言 221
13.2 基于膠囊網(wǎng)絡(luò)的醫(yī)療問答模型 222
13.2.1 輸入表示 223
13.2.2 交互信息提取 224
13.2.3 雙向膠囊網(wǎng)絡(luò)層 224
13.3 醫(yī)療問答方法性能評估 226
13.3.1 實驗設(shè)置 226
13.3.2 問答模型性能評估 227
13.3.3 所提出模型中不同層的影響 228
13.3.4 隨機過采樣的影響 228
13.3.5 動態(tài)路由算法中迭代次數(shù)的作用 229
13.4 本章小結(jié) 230
參考文獻 230
第14章 總結(jié)與展望 233
14.1 總結(jié) 233
14.2 展望 235
編后記 237
彩圖
展開全部

面向互聯(lián)網(wǎng)的智能信息檢索技術(shù)研究 節(jié)選

第1章 緒論 1.1 信息檢索技術(shù)及其發(fā)展 隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的持續(xù)增長,如何為用戶提供符合其需求的有效信息成為互聯(lián)網(wǎng)應(yīng)用亟待解決的重大難題,為實現(xiàn)有效的信息過濾和推薦,搜索引擎逐漸走入人們的視野,并成為人們獲取網(wǎng)絡(luò)信息的重要渠道。智能信息檢索技術(shù)作為搜索引擎優(yōu)化的核心技術(shù),受到國內(nèi)外學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注和研究,并成為相關(guān)互聯(lián)網(wǎng)大數(shù)據(jù)研究的基礎(chǔ),廣泛應(yīng)用于智能問答、聊天機器人和個性化推薦等場景,從而讓互聯(lián)網(wǎng)使用者更加快捷便利地獲取所需信息。 傳統(tǒng)意義上的信息檢索技術(shù)起源于 20世紀初圖書館文獻和書籍的檢索,當時圖書館對于書籍文獻的索引工作煩瑣和龐雜,需要大量人力工作進行圖書的整理和歸類,為提高工作效率,以倒排索引為核心的信息檢索方法被逐漸采用,通過將關(guān)鍵詞作為倒排索引對書籍文獻進行歸類,按照類別進行存放和查找,便于管理者和閱覽者根據(jù)需求和關(guān)鍵詞在較短時間內(nèi)找到所需的書籍文獻,很大程度上提高了圖書館文獻檢索和文摘等工作的效率。20世紀 50年代,信息檢索技術(shù)被應(yīng)用于美國海軍的情報檢索工作,美國海軍機械試驗中心將自動化的信息檢索系統(tǒng)嵌入到 IBM701型計算機,實現(xiàn)了情報信息的采集和搜索,相關(guān)技術(shù)逐漸演化為當今智能信息檢索技術(shù)的雛形,也為互聯(lián)網(wǎng)搜索引擎的興起提供了必要的理論和實踐基礎(chǔ)。 20世紀 60年代,美國科學(xué)家杰拉德?索爾頓( Gerard Salton)及其在康奈爾大學(xué)的研究團隊研制了**個現(xiàn)代意義上的搜索引擎,將其命名為 SMART(Salton’s Magic Automatic Retriever of Text),該系統(tǒng)是基于向量空間模型的文本信息檢索系統(tǒng),并融入停用詞去除、詞干化、查詢詞加權(quán)和相關(guān)反饋機制,這些技術(shù)作為搜索引擎的基礎(chǔ)沿用至今。索爾頓因其在信息檢索領(lǐng)域的杰出貢獻,被譽為現(xiàn)代搜索技術(shù)之父,他的著作 A Theory of Indexing和 Term Frequency-Inverse Document Frequency為搜索引擎技術(shù)提供了堅實的理論基礎(chǔ)。至此,信息檢索已成為廣泛使用的一門學(xué)科,該學(xué)科旨在能夠從海量的數(shù)據(jù)中精準定位并獲取所需信息。1968年,索爾頓對信息檢索做出定義:信息檢索是研究信息的結(jié)構(gòu)、分析、組織、存儲和搜索的一門科學(xué)。該定義十分準確地界定了信息檢索技術(shù)的范疇,并作為現(xiàn)代信息檢索研究的核心內(nèi)容和實質(zhì),被廣為采納和應(yīng)用。為紀念索爾頓,信息檢索領(lǐng)域以索爾頓的名字命名并設(shè)立了信息檢索的*高獎 —索爾頓獎,該獎項每三年在國際信息檢索頂級會議 SIGIR頒發(fā)一次,頒發(fā)給在信息檢索領(lǐng)域做出杰出貢獻的科學(xué)家。 隨著 90年代互聯(lián)網(wǎng)的興起和廣泛普及,以信息檢索技術(shù)為核心的搜索引擎進入大眾視野,逐漸成為人們?yōu)g覽網(wǎng)頁獲取信息的重要渠道,信息檢索技術(shù)也取得了空前的發(fā)展,信息檢索研究獲得計算機科學(xué)研究人員的廣泛青睞,隨著相關(guān)研究的持續(xù)開展,信息檢索技術(shù)不斷更迭、優(yōu)化和完善,極大地提升了搜索引擎的性能,讓人們在互聯(lián)網(wǎng)海量數(shù)據(jù)中快速準確地定位到所需信息,在滿足信息需求的同時,了解并熟悉互聯(lián)網(wǎng)技術(shù)的發(fā)展以及為人們生活帶來的智能化服務(wù)體驗。 1.2 面向搜索引擎的智能信息檢索技術(shù) 以現(xiàn)代搜索引擎為代表的智能信息檢索技術(shù)( Intelligent Information Retrieval)通過采集、過濾和處理大規(guī)模的互聯(lián)網(wǎng)網(wǎng)頁數(shù)據(jù),基于網(wǎng)頁關(guān)鍵詞建立網(wǎng)頁數(shù)據(jù)的倒排索引,并根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)的變化規(guī)律實時動態(tài)地爬取互聯(lián)網(wǎng)數(shù)據(jù),用以更新數(shù)據(jù)索引,保證索引中存儲*新的互聯(lián)網(wǎng)數(shù)據(jù),從而實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的更新和存儲。在此基礎(chǔ)上,基于以關(guān)鍵詞為核心的倒排索引機制,建立相關(guān)網(wǎng)頁匹配和排序模型,網(wǎng)頁匹配和排序模型以用戶提交給搜索引擎的關(guān)鍵字作為查詢,在數(shù)據(jù)索引中匹配與用戶關(guān)鍵詞相符合的網(wǎng)頁,并將網(wǎng)頁按照匹配程度進行排序,為用戶提供網(wǎng)頁排序的列表,供用戶篩選所需的信息。由此可見,如何*大程度上滿足用戶的信息需求是信息檢索技術(shù)所要解決的*終問題,為準確地滿足用戶信息需求,搜索引擎需要具有高效的索引機制,既能保證數(shù)據(jù)規(guī)模足以覆蓋整個互聯(lián)網(wǎng),又要確保數(shù)據(jù)具有實時性,現(xiàn)代搜索引擎的網(wǎng)頁索引機制已日趨成熟,而搜索引擎的優(yōu)化主要集中在對于用戶意圖的理解和網(wǎng)頁的相關(guān)性排序兩個方面,這兩個方面也是目前智能信息檢索領(lǐng)域研究的主要內(nèi)容。 用戶意圖的理解是搜索引擎優(yōu)化的核心,互聯(lián)網(wǎng)應(yīng)用往往以用戶為中心,無論是搜索引擎還是其他個性化應(yīng)用場景,如何*大程度上滿足用戶的真實需求是互聯(lián)網(wǎng)應(yīng)用設(shè)計中所需考慮的重點。對于搜索引擎來講,用戶意圖往往是通過用戶提交給檢索頁面的少量關(guān)鍵詞加以刻畫,由于用戶在搜索時僅能模糊的描述其真實的需求,所給出的關(guān)鍵詞很可能具有模糊性和歧義性,從而為后續(xù)的網(wǎng)頁排序提供誤導(dǎo)信息,影響搜索引擎的效果。而用戶意圖理解研究正是以此為出發(fā)點,通過對用戶關(guān)鍵詞的深入剖析和理解,詮釋出用戶真實的搜索意圖,并在真實意圖的驅(qū)動下,完成網(wǎng)頁的匹配和排序,提高用戶的滿意度。 網(wǎng)頁的相關(guān)性排序是搜索引擎優(yōu)化的*終目標,在準確理解用戶意圖的基礎(chǔ)上,面向用戶意圖檢索得到相關(guān)網(wǎng)頁,并根據(jù)網(wǎng)頁與用戶意圖的相關(guān)性程度對網(wǎng)頁進行排序,將排序列表反饋給用戶。相關(guān)性排序需要從不同維度綜合評估網(wǎng)頁與用戶意圖的相關(guān)性程度,例如,用戶的歷史搜索記錄、搜索引擎的搜索日志、關(guān)鍵詞的匹配程度和同義詞的匹配等。有效的網(wǎng)頁排序列表需要面向用戶需求,提供既能符合用戶所需,又能全面概括檢索結(jié)果的排序列表,因此排序列表的相關(guān)性和多樣化程度均是網(wǎng)頁排序所需考慮的重要因素,也是相關(guān)領(lǐng)域研究所關(guān)注的重要研究課題。因此下面將詳細介紹查詢意圖理解和相關(guān)性排序所使用的常用技術(shù)和檢索優(yōu)化策略。 1.3 查詢意圖理解和相關(guān)性排序 查詢意圖理解通常是基于用戶給出的關(guān)鍵詞作為原始查詢,通過查詢重構(gòu)的方式突顯用戶真實信息需求和查詢意圖,消除原始查詢的模糊性和不確定性。查詢重構(gòu)可以采用諸如增加或刪減查詢詞以及為查詢詞賦予差異化權(quán)重等方式,基于原始查詢重構(gòu)新的查詢,重構(gòu)的目的是*大程度上滿足用戶信息需求,突出查詢意圖,提升檢索結(jié)果中網(wǎng)頁排序的整體性能,需要指出的是,重構(gòu)過程對用戶是透明的,即搜索引擎的使用者無須了解查詢重構(gòu)過程,即可直接獲得網(wǎng)頁的排序列表。 在查詢重構(gòu)過程中,查詢擴展是使用較為廣泛的一類方法,往往適用于用戶原始查詢僅包含若干較少關(guān)鍵詞的情況,查詢擴展顧名思義就是在原始查詢的基礎(chǔ)上增加擴展查詢詞,擴展查詢詞能夠補全原始查詢,更好地表達用戶真實查詢意圖,從而消除原始查詢的模糊性。用于擴展的查詢詞可以取自諸如社會化標注或百科知識庫等的外部數(shù)據(jù)源,也可以采用相關(guān)反饋等方式,從檢索數(shù)據(jù)集合或用戶主動反饋中直接獲取,偽相關(guān)反饋是一種有效的查詢擴展方法。偽相關(guān)反饋是指利用基于用戶原始查詢檢索得到的結(jié)果,從中篩選符合用戶需求的擴展查詢詞,補充到原始查詢進行二次檢索,獲得更加準確的排序列表;而用戶主動反饋是指在基于用戶原始查詢檢索得到結(jié)果的基礎(chǔ)上,用戶給出一些主觀描述信息,判斷擴展查詢詞是否真實符合其需求,進而優(yōu)化查詢重構(gòu)的過程。 另一類廣為采用的查詢重構(gòu)策略是查詢縮減,其適用于用戶原始查詢過長的情況,當用戶向搜索引擎提交了包含較多關(guān)鍵字的查詢時,搜索引擎很難直接檢索得到相關(guān)結(jié)果,查詢中的無關(guān)詞項會嚴重影響檢索的性能,因此就需要在用戶查詢的基礎(chǔ)上剔除一些無關(guān)詞項,來突顯用戶的真實信息需求。而無論是增加查詢詞還是刪減查詢詞都極易造成查詢語義的較大變化,從而導(dǎo)致查詢意圖漂移等問題,一種折中的方法是采用查詢詞項加權(quán)的方式,即給予符合用戶需求的查詢詞較高的權(quán)重,給予不符合用戶需求的查詢詞較低的權(quán)重,這樣在保障用戶查詢意圖理解的基礎(chǔ)上,兼顧查詢意圖的全面性,有利于深入理解查詢意圖,使重構(gòu)后的查詢更加準確地表明用戶的信息需求。 相關(guān)性排序過程通常是在深入理解用戶意圖的基礎(chǔ)上,在檢索的數(shù)據(jù)集合中查找相關(guān)網(wǎng)頁,進而給出網(wǎng)頁的排序列表。相關(guān)性排序的實質(zhì)就是評估查詢與網(wǎng)頁的相關(guān)度,因此相關(guān)性排序打分可以看作一個函數(shù),函數(shù)的輸入為針對用戶意圖重構(gòu)后的查詢和待檢索網(wǎng)頁集合,輸出為相關(guān)性排序得分,該函數(shù)也稱為檢索模型,經(jīng)典的檢索模型包括基于詞頻逆文檔頻率的向量空間模型、基于概率論的 BM25檢索模型和基于不同平滑策略的查詢似然語言模型等。例如,向量空間模型首先計算待檢索集合中所有詞出現(xiàn)的頻率和逆文檔頻率,進而為每個詞計算權(quán)重,基于該權(quán)重將重構(gòu)查詢和網(wǎng)頁表示為向量,向量的每一維度表示對應(yīng)詞的權(quán)重值,進而通過余弦相似度等方式計算查詢向量與網(wǎng)頁向量的相似度,按照相似度由高至低對網(wǎng)頁排序,將排序列表反饋給用戶。 由于相關(guān)性排序需要全面地考慮多種信息,為有效提高排序性能,近年來信息檢索系統(tǒng)采用了監(jiān)督式機器學(xué)習(xí)方法構(gòu)建排序模型,所構(gòu)建的排序模型稱為排序?qū)W習(xí)模型。傳統(tǒng)的相關(guān)性排序模型通常采用打分函數(shù)的方式計算用戶查詢與網(wǎng)頁的相似度,進而基于相似度實現(xiàn)網(wǎng)頁的排序,在打分函數(shù)的設(shè)計上常以詞頻文檔頻率等經(jīng)典的文本統(tǒng)計量為基礎(chǔ),相比之下,排序?qū)W習(xí)采用不同的監(jiān)督式機器學(xué)習(xí)方法結(jié)合面向排序的損失函數(shù),訓(xùn)練排序模型,在模型的訓(xùn)練中可以深入融合更加全面豐富的排序信息,因此在相關(guān)任務(wù)中獲得更好的排序性能。面向排序的損失函數(shù)是排序?qū)W習(xí)優(yōu)化的關(guān)鍵,也是提升相關(guān)檢索模型的基礎(chǔ),經(jīng)典的排序損失函數(shù)分為三類,分別是點級方法、對級方法和列表級方法,三類方法分別在排序樣本的構(gòu)造中面向單個網(wǎng)頁、兩個網(wǎng)頁對和整個排序列表進行排序性能的優(yōu)化,更有效地優(yōu)化相關(guān)性排序結(jié)果,獲得更優(yōu)質(zhì)的網(wǎng)頁排序性能。如何在監(jiān)督式排序模型的優(yōu)化中充分考慮網(wǎng)頁序列的信息,并針對整個序列開展模型優(yōu)化,是智能信息檢索亟待解決的關(guān)鍵科學(xué)問題,也是實現(xiàn)個性化互聯(lián)網(wǎng)應(yīng)用的終極目標。 1.4 排序?qū)W習(xí) 排序?qū)W習(xí)一直以來都是智能信息檢索領(lǐng)域研究的重要內(nèi)容,同時排序也是很多信息檢索和自然語言處理相關(guān)任務(wù)的目標,因此排序?qū)W習(xí)被廣泛用于智能問答、關(guān)系抽取、個性化推薦系統(tǒng)、用戶屬性抽取等任務(wù),顯著提升了各項任務(wù)的性能。 排序?qū)W習(xí)研究備受學(xué)術(shù)界和工業(yè)界的青睞,國際信息檢索頂級會議 SIGIR一直以來將排序?qū)W習(xí)視為重點攻克的研究領(lǐng)域,世界各國學(xué)者均致力于構(gòu)建更為有效的排序模型,推動智能信息檢索技術(shù)的進步;同時排序?qū)W習(xí)技術(shù)也被應(yīng)用于實際的場景,例如,微軟的 Bing搜索引擎采用了排序?qū)W習(xí)模型 RankNet[1],用于優(yōu)化網(wǎng)頁排序結(jié)果,提高檢索效率。本節(jié)分別從排序?qū)W習(xí)算法模型優(yōu)化的角度,介紹相關(guān)領(lǐng)域的研究工作進展情況。 排序?qū)W習(xí)是智能信息檢索與監(jiān)督式機器學(xué)習(xí)的交叉研究領(lǐng)域,它利用機器學(xué)習(xí)算法訓(xùn)練排序模型,設(shè)計面向排序的損失函數(shù)迭代優(yōu)化檢索模型,以獲得*終的網(wǎng)頁排序模型,用于網(wǎng)頁相關(guān)性排序。排序損失函數(shù)是排序?qū)W習(xí)模型優(yōu)化的關(guān)鍵,也是相關(guān)研究所關(guān)注的焦點。如前文所述,排序?qū)W習(xí)的損失函數(shù)可以分為三類,即點級損失函數(shù)( Pointwise)、對級損失函數(shù)( Pairwise)和列表級損失函數(shù) (Listwise),三類損失函數(shù)采用三種不同的排序損失計算方式,也對應(yīng)三種不同的網(wǎng)頁排序樣本,下面簡要介紹基于三類損失函數(shù)的排序?qū)W習(xí)模型的相關(guān)研究工作。 1.4.1 點級排序?qū)W習(xí)模型 點級排序?qū)W習(xí)模型旨在預(yù)測單個網(wǎng)頁與用戶意圖的相關(guān)性,將每個網(wǎng)頁的相關(guān)性作為模型預(yù)測值,輸入用戶意圖和每個網(wǎng)頁,在點級排序損失計算時,考慮單個網(wǎng)頁與用戶查詢相關(guān)性的真實值與預(yù)測值,將二者的差異作為排序損失,從而將網(wǎng)頁排序問題轉(zhuǎn)化機器學(xué)習(xí)問題,基于分類或者回歸算法訓(xùn)練得到排序模型,利用排序模型實現(xiàn)文檔或網(wǎng)頁的打分和基于分值的排序。 在點級排序?qū)W習(xí)模型研究方面,Crammer等[2]提出了 Pranking算法,該算法基于機器學(xué)習(xí)感知機分類算法構(gòu)建排序?qū)W習(xí)模型,提出采用子區(qū)間劃分策略,進行多重感知機模型的組合,有效提高了在線排序?qū)W習(xí)問題的性能;Li等

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 低噪声电流前置放大器-SR570电流前置放大器-深圳市嘉士达精密仪器有限公司 | 净化工程_无尘车间_无尘车间装修-广州科凌净化工程有限公司 | 太阳能发电系统-太阳能逆变器,控制器-河北沐天太阳能科技首页 | Safety light curtain|Belt Sway Switches|Pull Rope Switch|ultrasonic flaw detector-Shandong Zhuoxin Machinery Co., Ltd | 有源电力滤波装置-电力有源滤波器-低压穿排电流互感器|安科瑞 | STRO|DTRO-STRO反渗透膜(科普)_碟滤 | nalgene洗瓶,nalgene量筒,nalgene窄口瓶,nalgene放水口大瓶,浙江省nalgene代理-杭州雷琪实验器材有限公司 | 数控走心机-双主轴走心机厂家-南京建克 | 赛默飞Thermo veritiproPCR仪|ProFlex3 x 32PCR系统|Countess3细胞计数仪|371|3111二氧化碳培养箱|Mirco17R|Mirco21R离心机|仟诺生物 | 工业rfid读写器_RFID工业读写器_工业rfid设备厂商-ANDEAWELL | 沈阳网站建设_沈阳网站制作_沈阳网页设计-做网站就找示剑新零售 沈阳缠绕膜价格_沈阳拉伸膜厂家_沈阳缠绕膜厂家直销 | 湖南自考_湖南自学考试网 | 运动木地板价格,篮球馆体育运动木地板生产厂家_欧氏地板 | 东莞喷砂机-喷砂机-喷砂机配件-喷砂器材-喷砂加工-东莞市协帆喷砂机械设备有限公司 | elisa试剂盒-PCR试剂盒「上海谷研实业有限公司」 | 合同书格式和范文_合同书样本模板_电子版合同,找范文吧 | 高效复合碳源-多核碳源生产厂家-污水处理反硝化菌种一长隆科技库巴鲁 | 全国国际学校排名_国际学校招生入学及学费-学校大全网 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | 非标压力容器_碳钢储罐_不锈钢_搪玻璃反应釜厂家-山东首丰智能环保装备有限公司 | 多功能三相相位伏安表-变压器短路阻抗测试仪-上海妙定电气 | 臻知网大型互动问答社区-你的问题将在这里得到解答!-无锡据风网络科技有限公司 | 注塑_注塑加工_注塑模具_塑胶模具_注塑加工厂家_深圳环科 | 隧道烘箱_隧道烘箱生产厂家-上海冠顶专业生产烘道设备 | 科箭WMS仓库管理软件-TMS物流管理系统-科箭SaaS云服务 | 股指期货-期货开户-交易手续费佣金加1分-保证金低-期货公司排名靠前-万利信息开户 | 气动机械手-搬运机械手-气动助力机械手-山东精瑞自动化设备有限公司 | 贴片电容-贴片电阻-二三极管-国巨|三星|风华贴片电容代理商-深圳伟哲电子 | 精准猎取科技资讯,高效阅读科技新闻_科技猎| 沈阳缠绕包装机厂家直销-沈阳海鹞托盘缠绕包装机价格 | 手持式线材张力计-套帽式风量罩-深圳市欧亚精密仪器有限公司 | 茅茅虫AI论文写作助手-免费AIGC论文查重_写毕业论文降重 | 房屋质量检测-厂房抗震鉴定-玻璃幕墙检测-房屋安全鉴定机构 | 防爆正压柜厂家_防爆配电箱_防爆控制箱_防爆空调_-盛通防爆 | 盛源真空泵|空压机-浙江盛源空压机制造有限公司-【盛源官网】 | 工业设计,人工智能,体验式3D展示的智能技术交流服务平台-纳金网 J.S.Bach 圣巴赫_高端背景音乐系统_官网 | 基业箱_环网柜_配电柜厂家_开关柜厂家_开关断路器-东莞基业电气设备有限公司 | 进口便携式天平,外校_十万分之一分析天平,奥豪斯工业台秤,V2000防水秤-重庆珂偌德科技有限公司(www.crdkj.com) | 探伤仪,漆膜厚度测试仪,轮胎花纹深度尺厂家-淄博创宇电子 | 气动球阀_衬氟蝶阀_调节阀_电动截止阀_上海沃托阀门有限公司 | 电子元器件呆滞料_元器件临期库存清仓尾料_尾料优选现货采购处理交易商城 |