中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊

包郵 自動文本簡化

出版社:科學出版社出版時間:2022-11-01
開本: B5 頁數: 184
中 圖 價:¥73.5(7.5折) 定價  ¥98.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

自動文本簡化 版權信息

  • ISBN:9787030724601
  • 條形碼:9787030724601 ; 978-7-03-072460-1
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

自動文本簡化 內容簡介

文本簡化是人工智能尤其是自然語言處理方向的一個重要研究領域。本書作為該領域的專業書籍,內容上盡可能覆蓋文本簡化領域各種主流的研究方法和相關資源。全書共9章,包括三個主要部分:第1~4章主要介紹文本簡化的研究概況、背景知識、文本可讀性評估和詞語簡化方法;第5~7章詳細討論句子分割、統計文本簡化和神經文本簡化方法;第8、9章著重介紹深度學習在文本簡化研究和應用中的**進展以及漢語文本簡化的研究。

自動文本簡化 目錄

目錄
新一代人工智能創新平臺建設及其關鍵技術叢書”序
前言
第1章 緒論 1
1.1 概述 1
1.1.1 文本簡化定義 1
1.1.2 文本簡化發展過程 1
1.1.3 文本簡化方法 3
1.1.4 相關的文本重寫任務 5
1.2 文本簡化語料 6
1.2.1 維基百科平行語料 7
1.2.2 Newsela語料庫 10
1.2.3 英文的其他資源 13
1.2.4 三個*常用的英文平行語料的對比 16
1.2.5 其他語言的資源 16
1.3 文本簡化評估 17
1.3.1 人工評估 17
1.3.2 自動評估 18
1.3.3 討論 23
1.4 文本簡化的應用 24
1.4.1 對特定目標人群的簡化 24
1.4.2 自然語言處理的輔助工具 25
1.5 本書內容安排 26
第2章 背景知識 29
2.1 概述 29
2.2 統計機器翻譯模型 29
2.3 神經機器翻譯模型 31
2.3.1 基于端到端的模型 31
2.3.2 注意力機制 33
2.3.3 基于自注意力機制的神經網絡模型 35
2.4 預訓練語言模型 37
2.4.1 BERT 38
2.4.2 BART 39
2.5 本章小結 41
第3章 文本可讀性評估 42
3.1 概述 42
3.2 傳統的可讀性公式 43
3.3 可讀性評估的語料 45
3.4 可讀性評估方法 47
3.4.1 可讀性評估特征 47
3.4.2 基于特征工程的分類方法 51
3.4.3 神經網絡分類方法 53
3.5 漢語文本的可讀性評估 54
3.6 可讀性評估的應用 55
3.6.1 第二語言學習者的可讀性 56
3.6.2 具有語言學習障礙的讀者 56
3.6.3 計算機輔助教育學習系統 57
3.6.4 Web內容的可讀性評估 57
3.7 未來研究方向 58
3.8 本章小結 60
第4章 詞語簡化方法 61
4.1 概述 61
4.2 詞語簡化框架 62
4.3 詞語簡化方法的分類 64
4.3.1 語言數據庫 65
4.3.2 自動規則 68
4.3.3 詞嵌入模型 71
4.3.4 混合模型 72
4.3.5 預訓練語言模型 75
4.4 方法對比 80
4.4.1 實驗評估數據 80
4.4.2 候選替代詞生成評估 81
4.4.3 完整的LS系統評估 82
4.4.4 討論 83
4.5 未來研究方向 85
4.6 本章小結 86
第5章 句子分割方法 87
5.1 概述 87
5.2 基于規則的方法 88
5.2.1 早期的方法 89
5.2.2 YATS 90
5.2.3 基于事件的方法 91
5.2.4 DISSIM 93
5.3 基于神經網絡模型的方法 96
5.3.1 基于事實感知的方法 96
5.3.2 基于圖框架的方法 97
5.4 本章小結 100
第6章 統計文本簡化方法 101
6.1 概述 101
6.2 基于短語的機器翻譯方法 102
6.3 基于句法的統計文本簡化方法 103
6.4 混合的方法 108
6.5 無監督的統計文本簡化方法 109
6.6 本章小結 112
第7章 神經文本簡化方法 113
7.1 概述 113
7.2 基于神經機器翻譯的文本簡化 115
7.3 強化學習機制 117
7.4 多任務學習 119
7.5 復述規則 121
7.6 程序員-解釋器模型 123
7.6.1 EditNTS 123
7.6.2 程序員和解釋器 124
7.6.3 編輯標簽創建 125
7.7 本章小結 125
第8章 文本簡化前沿研究 127
8.1 概述 127
8.2 無監督神經文本簡化方法 129
8.3 無監督可編輯的文本簡化方法 131
8.4 可控的句子簡化方法 134
8.4.1 TargetTS 134
8.4.2 ACCESS 135
8.5 無監督的文本平行簡化語料構造 136
8.5.1 基于搜索的平行語料構造 136
8.5.2 基于機器翻譯語料的平行語料構造 137
8.6 零樣本跨語言的文本簡化 139
8.7 文本簡化分析及展望 142
8.8 本章小結 144
第9章 漢語文本簡化的探索 145
9.1 概述 145
9.2 背景知識 146
9.3 漢語簡化語料庫的構造 147
9.4 漢語文本簡化方法 148
9.5 實驗 151
9.5.1 評價語料庫HanLS的質量 151
9.5.2 生成候選詞方法的對比評價 152
9.5.3 系統評價和消融研究 153
9.5.4 誤差分析 154
9.6 本章小結 155
參考文獻 157

展開全部

自動文本簡化 節選

第1章 緒論   文本簡化(text simplification, TS)是一個任務明確、歷史悠久且仍處于研究階段的課題。本章將講述文本簡化的基本概念、發展歷史,比較不同的文本簡化方法,介紹常用的文本簡化語料和評估方法,并介紹其相關應用。   1.1 概述   本節將介紹一些*基礎的文本簡化的定義、發展過程、方法和相關的任務。   1.1.1 文本簡化定義   文本簡化是指在保留原有文本信息的情況下,盡可能簡化原有文本的內容,從而更容易被更廣泛的觀眾閱讀和理解。文本簡化的過程通常包括用簡單的對等詞替換困難的或未知的短語,以及將長的句法復雜的句子轉換成短的不太復雜的句子。   文本簡化的任務是自然語言處理的一個研究分支,與計算語言學、自然語言理解之間存在密不可分的關系。文本簡化通常還被當成一種單語言的機器翻譯任務,許多文本簡化方法都來源于機器翻譯方法。   近年來,人們對自動文本簡化的興趣與日俱增,盡管已經提出了許多方法和技術,但到目前為止,自動文本簡化方法和技術還遠遠不夠完善。研究者所針對的語言數量不斷增加,目前簡化系統和簡化研究至少存在于英語、葡萄牙語、日語、法語、意大利語、巴斯克語和西班牙語中。   1.1.2 文本簡化發展過程   本節介紹文本簡化方法的發展過程,如圖1.1所示。1949年,文本可讀性被正式地定義為文本材料中影響讀者理解、閱讀速度和對材料興趣水平的所有元素的總和[1]。可讀性評估的方法不斷演變,從傳統的通用公式(帶有兩個或三個變量,以及少量的專家標簽數據)到基于機器學習的框架(使用聚合的、非專家眾包的、從大型語料庫中訓練出來的文檔的豐富特征表示)標簽,再到不需要特征的基于深度學習的方法,都是為了更好地理解文本更深層面的語義信息。   圖1.1 文本簡化發展的時間軸   1996年,文本簡化正式地被Chandrasekar等[2]提出,主要是因為當時一些自然語言處理任務不能處理長而復雜的句子,如機器翻譯、信息獲取和文本摘要。該方法主要是利用一些人工標注的規則進行句法結構的簡化。后來,文本簡化也被研究如何更好地服務于語言能力有限或有語言障礙的人,如誦讀困難者、自閉癥者和失語癥者。目前,研究*多的文本簡化方法是英文的文本簡化,主要關注詞語的簡化和句法的簡化兩個方面。文本簡化方法的發展大致可以分為三個階段,即基于規則的文本簡化方法階段、統計文本簡化方法階段和神經文本簡化方法階段。   基于規則的文本簡化方法主要關注句法的簡化,通過人工定義一些規則把長而復雜的句子轉變為多個句子。利用算法自動識別規則的文本簡化方法由于沒有很好的平行語料進行學習,無法取得很好的效果。但是,該類方法隨著規則數目的減少,效果反而變好。2014年,Siddharthan等[3]定義了136個手寫語法規則進行英文文本簡化。2016年,Ferrés等[4]使用了76個手工構建的轉換模式進行英文文本簡化。2019年,Niklaus等[5]手工制定了35個英文規則,取得了*好的句法簡化效果。該類方法由于需要語言學家采用語法術語建模,并沒有得到足夠的關注。   由于基于規則的文本簡化方法關注的是句法的簡化,Carroll等[6]于1998年提出了**種詞語簡化方法,只專注于文本簡化中的詞語簡化,主要利用同義詞詞典(WordNet)進行同義詞替換。之后一系列利用平行語料和詞嵌入模型的詞語簡化方法被提出。*近幾年,預訓練語言模型快速發展,很多自然語言處理任務基于預訓練語言模型都取得了突破性的進展。Zhou等[7]和Qiang等[8]分別于2019年和2020年提出了基于預訓練語言模型的詞語簡化方法,這標志著預訓練語言模型在文本簡化中得到應用。   20世紀90年代,IBM研究院的研究人員提出了IBM Model 1-5,主要基于香農信息論中針對編碼器的“噪聲-信道”模型,支持詞到詞的統計機器翻譯。2000年之后,借助互聯網的發展,統計機器翻譯模型走向了民用,IBM、微軟、谷歌、百度等各大互聯網技術(internet technology, IT)公司都相繼發布了能夠支持世界上幾十種常用語言的互聯網機器翻譯系統,極大地提高了人們使用機器翻譯的便利性。2010年,Specia[9]把文本簡化方法當成單語言的機器翻譯任務。近些年,許多文本簡化方法都是直接或者間接使用機器翻譯的方法。研究文本簡化的目的從*初服務于機器翻譯等自然語言處理任務,發展到基于機器翻譯方法應用于文本簡化任務。導致這類現象的原因主要是機器翻譯方法得到全世界的廣泛關注,許多機器翻譯方法甚至取得與人類翻譯相比擬的結果,而文本簡化方法到這一步還有很長的路要走。   2014年以后,端到端模型的提出[10],使翻譯質量得到顯著提升。此架構由編碼器和解碼器兩部分組成,其中編碼器負責將源語言句子編碼成一個實數值向量,然后解碼器基于該向量解碼出目標譯文。該架構是一種全新的機器翻譯模型框架,其特點是實現了詞的分布式表示,翻譯過程中可更加容易地利用上下文信息,自動學習上億參數量。2016年,Wang等[11]**次嘗試利用神經機器模型翻譯解決文本簡化任務。*近幾年,基于神經網絡的文本簡化方法已經成為主流的文本簡化方法。   1.1.3 文本簡化方法   文本簡化方法主要可以分為基于規則的文本簡化方法、詞語簡化方法和基于機器翻譯的文本簡化方法。基于機器翻譯的文本簡化方法由于建模方法不同,又可以細分為統計文本簡化方法和神經文本簡化方法。   1. 基于規則的文本簡化方法   依靠人工編撰句法簡化的規則,專家總結各種語法結構的轉換規則,形成規則知識庫。在句子簡化過程中,計算機利用轉換規則對輸入的復雜句子進行解碼,將原句子簡化為多個簡單的句子。   基于規則的文本簡化方法一般可以分為分析、匹配和生成三個階段。分析階段完成對原句子的解析,主要通過分析句子句法的依存關系,將原句子解析成一種樹狀結構表示。匹配階段將原句子的樹狀結構與規則知識庫中的規則進行匹配。在*后的生成階段,主要完成每個子句時態、語態的轉換,使輸出的句子結構完整。   基于規則的文本簡化方法以小規模的數據或者語言學家的知識作為來源,其優點是不依賴大規模語料,對資源貧乏的語言也可以快速建立一個簡化系統。該類方法的缺點是規則描述的范圍較大,導致句子簡化結構內容比較僵化、生硬,質量較差。規則的質量和規模依賴語言學家的知識和經驗,所付出的人工代價比較高。   考慮到基于規則的文本簡化方法的局限性,基于神經網絡模型的句子分割方法成為一個重要的研究方向,該類方法只需要標注好語料,神經網絡就可自動學習句子的分割,不需要人工參與。基于規則的文本簡化方法和基于神經網絡模型的句子分割方法將在第5章展開介紹。   2. 詞語簡化方法   詞語簡化指在不破壞原有句意的情況下,使用更容易閱讀(或理解)的詞或者短語代替原始文本中的復雜詞。大多數詞語簡化方法需要以下三個步驟。①復雜詞識別:判斷給定句子中哪些詞是復雜詞;②候選詞生成:生成可替換復雜詞的候選詞集合;③候選詞排序:根據簡單性、流暢性等特性對候選詞進行排序。復雜詞識別較常用的是利用詞頻、詞典和二分類方法識別句子的復雜詞。候選詞生成從*先的同義詞詞典到詞嵌入模型,再到現在的預訓練語言模型。候選詞排序一般都是考慮對多個特征進行排序,如詞頻、候選詞和復雜詞的相似度、語言模型等。   詞語簡化方法一般都是無監督方法,適用于不同的語言。但是目前還存在的問題是將復雜詞替換后,無法對句子的流暢性和原有句意進行很好的衡量。詞語簡化方法將在第4章展開介紹。   3. 統計文本簡化方法   統計文本簡化方法是從直接使用統計機器翻譯模型,到現在的在統計機器翻譯模型的基礎上,考慮刪除、替換和重排等操作,優化輸出句子的簡單性。統計機器翻譯過程對整個原句子的翻譯過程進行數學建模,生成一個概率模型。不同的原句子短語片段分割方法、不同的短語片段轉換結果以及不同的目標短語片段順序調整,匯集在一起形成一個巨大的搜索空間。統計機器翻譯方法在這個搜索空間中找出概率*大的一條路徑,其對應的各種操作形成的目標句子就是*終的簡化輸出。   該類方法不再依賴人工編撰翻譯規則,可以自動學習細粒度的短語級別的簡化知識。此外,該方法在魯棒性和可擴展性方面明顯優于基于規則的文本簡化方法。統計文本簡化方法將在第6章展開介紹。   4. 神經文本簡化方法   神經文本簡化方法采用一種端到端的模型,直接將一個原句子轉化為目標簡化句子,具體是利用編碼器將原句子轉化成一個向量,該向量形成了對原句子的一種分布式表示,然后基于此向量表示利用解碼器依次生成目標詞序列,直到生成整個目標句子。神經文本簡化方法的特點是整個簡化過程是一個端到端的計算過程,但內部具體的計算過程很難從語言學的角度進行解析。該類方法的優勢是能夠充分利用句子中的上下文信息,輸出的句子流暢度很高。由于該類方法需要學習大量的訓練語料,而目前文本簡化缺少大規模的平行語料,因此神經文本簡化方法沒有在機器翻譯、文本摘要等領域取得那么好的效果。本書將在第7章介紹神經文本簡化方法。   1.1.4 相關的文本重寫任務   文本簡化可以被當成一種文本重寫任務。這里介紹文本簡化與其他文本重寫任務之間的關聯性。   1. 文本摘要   從文本簡化的定義來看,該任務很容易與文本摘要(document summarization)混淆。正如Shardlow[12]指出,文本摘要的重點是通過刪除不重要或冗余的信息來減少篇幅和內容。在文本簡化過程中,也可以進行一些內容的刪除。然而,在文本簡化中,還可以用更具解釋性的短語替換單詞,使句子意思表達更加明確,添加連接詞以提高流利性,等等。簡化后的文本可能會比原來的文本更長,但可讀性得到提高。因此,文本摘要與文本簡化雖然相關,但目的不同。   2. 句子壓縮   句子壓縮(sentence compression)[13]是在保留核心內容的情況下,縮減句子的長度,同時保持句子的語法性。大多數句子壓縮方法側重于刪除不必要的單詞,因此,該任務可以看成是文本簡化過程的一個子任務。句子壓縮還包括了更復雜的轉換,例如,抽象句子壓縮(abstractive sentence compression)[14]包括如替換、重新排序和插入之類的轉換。然而,抽象句子壓縮的目標仍然是減少內容,而不關注能否提高文本的可讀性。   3. 分割并復述   分割并復述(split-and-rephrase)[15]專注于將一個句子分成幾個較短的句子,并進行必要的重新措辭,以保持意義和語法。該任務可能涉及刪除,所以并不總是能夠保留原始的意義,反而可能會刪除那些分散讀者理解文本中心信息的細節。因此,該任務可以被視為簡化過程中的另一種可能的文本轉換。在第5章將對該任務進行詳細的介紹。   1.2 文本簡化語料   數據也稱語料,不同類型、用途的數據放在一起完成一項任務,稱為語料庫。自然語言處理任務離不開語料庫。無論是統計文本簡化方法還是神經文本簡化方法,都需要大量的語料來訓練模型。雖然語料庫是承載語言知識的基礎資源,但并不等于語言知識。因此,文本簡化系統需要能夠從語料庫中學習簡化知識和構造句子的知識,并且用模型來刻畫、表達這些知識,達到簡化任務中的目標文本生成的目的。   語料分為簡化語料和平行語料,不同類型的語料在文本簡化任務中具有不同的使用方式和價值。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 对辊式破碎机-对辊制砂机-双辊-双齿辊破碎机-巩义市裕顺机械制造有限公司 | 金属检测机_金属分离器_检针验针机_食品药品金属检探测仪器-广东善安科技 | 泰州物流公司_泰州货运公司_泰州物流专线-东鑫物流公司 | 吊篮式|移动式冷热冲击试验箱-二槽冷热冲击试验箱-广东科宝 | 电销卡 防封电销卡 不封号电销卡 电话销售卡 白名单电销卡 电销系统 外呼系统 | 珠海网站建设_响应网站建设_珠海建站公司_珠海网站设计与制作_珠海网讯互联 | 气胀轴|气涨轴|安全夹头|安全卡盘|伺服纠偏系统厂家-天机传动 | 展厅设计-展馆设计-专业企业展厅展馆设计公司-昆明华文创意 | UV-1800紫外光度计-紫外可见光度计厂家-翱艺仪器(上海)有限公司 | 缠绕机|缠绕膜包装机|缠绕包装机-上海晏陵智能设备有限公司 | 耙式干燥机_真空耙式干燥机厂家-无锡鹏茂化工装备有限公司 | 北京森语科技有限公司-模型制作专家-展览展示-沙盘模型设计制作-多媒体模型软硬件开发-三维地理信息交互沙盘 | 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 | 高铝砖-高铝耐火球-高铝耐火砖生产厂家-价格【荣盛耐材】 | 塑料造粒机「厂家直销」-莱州鑫瑞迪机械有限公司 | 深圳高新投三江工业消防解决方案提供厂家_服务商_园区智慧消防_储能消防解决方案服务商_高新投三江 | 山东臭氧发生器,臭氧发生器厂家-山东瑞华环保设备 | 安全光栅|射频导纳物位开关|音叉料位计|雷达液位计|两级跑偏开关|双向拉绳开关-山东卓信机械有限公司 | 楼承板-开口楼承板-闭口楼承板-无锡海逵 | 创客匠人-让IP变现不走弯路 | 检验科改造施工_DSA手术室净化_导管室装修_成都特殊科室建设厂家_医疗净化工程公司_四川华锐 | Trimos测长机_测高仪_TESA_mahr,WYLER水平仪,PWB对刀仪-德瑞华测量技术(苏州)有限公司 | Q361F全焊接球阀,200X减压稳压阀,ZJHP气动单座调节阀-上海戎钛 | 拖链电缆_柔性电缆_伺服电缆_坦克链电缆-深圳市顺电工业电缆有限公司 | 钢制拖链生产厂家-全封闭钢制拖链-能源钢铝拖链-工程塑料拖链-河北汉洋机械制造有限公司 | 【中联邦】增稠剂_增稠粉_水性增稠剂_涂料增稠剂_工业增稠剂生产厂家 | 样品瓶(色谱样品瓶)百科-浙江哈迈科技有限公司 | 精密钢管,冷拔精密无缝钢管,精密钢管厂,精密钢管制造厂家,精密钢管生产厂家,山东精密钢管厂家 | 江苏南京多语种翻译-专业翻译公司报价-正规商务翻译机构-南京华彦翻译服务有限公司 | 玻璃钢板-玻璃钢防腐瓦-玻璃钢材料-广东壹诺 | pos机办理,智能/扫码/二维码/微信支付宝pos机-北京万汇通宝商贸有限公司 | 烘箱-工业烘箱-工业电炉-实验室干燥箱 - 苏州华洁烘箱制造有限公司 | 温控器生产厂家-提供温度开关/热保护器定制与批发-惠州市华恺威电子科技有限公司 | 手持式3d激光扫描仪-便携式三维立体扫描仪-北京福禄克斯 | wika威卡压力表-wika压力变送器-德国wika代理-威卡总代-北京博朗宁科技 | 自动部分收集器,进口无油隔膜真空泵,SPME固相微萃取头-上海楚定分析仪器有限公司 | 亚洲工业智能制造领域专业门户网站 - 亚洲自动化与机器人网 | 网优资讯-为循环资源、大宗商品、工业服务提供资讯与行情分析的数据服务平台 | 编织人生 - 权威手工编织网站,编织爱好者学习毛衣编织的门户网站,织毛衣就上编织人生网-编织人生 | 山东限矩型液力偶合器_液力耦合器易熔塞厂家-淄博市汇川源机械厂 | 学校用栓剂模,玻璃瓶轧盖钳,小型安瓿熔封机,实验室安瓿熔封机-长沙中亚制药设备有限公司 |