-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
神經網絡機器翻譯技術及產業應用 版權信息
- ISBN:9787111725206
- 條形碼:9787111725206 ; 978-7-111-72520-6
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
神經網絡機器翻譯技術及產業應用 本書特色
適讀人群 :高年級本科生及研究生 從業人員適讀人群 :研究生、科研人員、從業者等 ◆系統介紹神經網絡機器翻譯原理和主流技術 ◆結合豐富實例詳盡講解關鍵技術實現 ◆詳細介紹產業級實用系統及產業應用
神經網絡機器翻譯技術及產業應用 內容簡介
本書可作為人工智能、自然語言處理、機器翻譯等專業的高等院校高年級本科生及研究生、科研人員、技術開發人員以及語言服務行業從業人員的參考用書。
神經網絡機器翻譯技術及產業應用 目錄
1.1 機器翻譯發展簡介 3
1.2 機器翻譯代表性方法 6
1.2.1 基于規則的機器翻譯 6
1.2.2 統計機器翻譯 8
1.2.3 神經網絡機器翻譯 11
1.3 發展現狀 13
1.4 產業應用需求特點及挑戰 15
1.4.1 高翻譯質量 15
1.4.2 高系統性能 17
1.4.3 多語言翻譯 18
1.4.4 領域自適應 19
1.4.5 跨模態翻譯 20
1.5 本書結構 21
參考文獻 24
第2章 翻譯語料獲取與譯文質量評價 27
2.1 概述 28
2.2 機器翻譯語料庫類型 31
2.2.1 雙語語料庫 31
2.2.2 單語語料庫 33
2.3 公開語料庫及系統評測 34
2.3.1 語言數據聯盟與NIST評測 34
2.3.2 歐洲議會語料庫與WMT評測 35
2.3.3 語音翻譯語料庫與IWSLT評測 35
2.3.4 中文語言資源聯盟與CCMT評測 36
2.4 從互聯網獲取機器翻譯語料 36
2.4.1 互聯網雙語語料存在形式 37
2.4.2 互聯網語料常見問題 39
2.4.3 雙語語料挖掘與加工 40
2.5 機器翻譯質量評價 44
2.5.1 人工評價 44
2.5.2 自動評價 46
2.5.3 面向產業應用的評價 53
參考文獻 55
第3章 神經網絡機器翻譯 57
3.1 概述 59
3.2 基于循環神經網絡的模型 62
3.2.1 基本模型 63
3.2.2 雙向編碼 65
3.2.3 注意力機制 66
3.2.4 長短時記憶與門控循環單元 68
3.3 基于卷積神經網絡的翻譯模型 71
3.4 全注意力模型 75
3.4.1 基本思想 76
3.4.2 模型結構 78
3.4.3 性能分析 79
3.5 非自回歸翻譯模型 80
3.6 搭建一個神經網絡機器翻譯系統 85
3.6.1 環境準備 85
3.6.2 模型訓練 86
3.6.3 解碼 88
3.6.4 效果評估 88
參考文獻 89
第4章 高性能機器翻譯 93
4.1 概述 94
4.2 早期產業化神經網絡機器翻譯系統 96
4.2.1 百度神經網絡機器翻譯系統 97
4.2.2 谷歌神經網絡機器翻譯系統 101
4.3 Transformer模型優化 104
4.3.1 高效Transformer 105
4.3.2 針對機器翻譯的優化 109
4.4 模型壓縮 112
4.4.1 剪枝 112
4.4.2 量化 115
4.4.3 知識蒸餾 119
4.5 系統部署 121
4.5.1 分布式系統部署 121
4.5.2 智能硬件設備 122
4.6 開源工具 123
參考文獻 124
第5章 多語言機器翻譯 131
5.1 概述 133
5.2 數據增強 134
5.2.1 基于樞軸語言的合成語料庫方法 134
5.2.2 回譯技術 136
5.3 無監督機器翻譯 138
5.3.1 基本原理 139
5.3.2 跨語言向量映射 140
5.3.3 基于去噪自編碼器和回譯技術的翻譯模型 142
5.3.4 基于對偶學習的機器翻譯模型 144
5.4 多語言翻譯統一建模 145
5.4.1 基于多任務學習的翻譯模型 146
5.4.2 基于語言標簽的多語言翻譯模型 148
5.5 多語言預訓練 151
5.5.1 預訓練技術簡介 152
5.5.2 多語言預訓練模型 158
5.5.3 方法比較 163
5.6 多語言機器翻譯系統 165
5.6.1 百度多語言機器翻譯 165
5.6.2 谷歌多語言機器翻譯 166
5.6.3 臉書多語言機器翻譯 168
參考文獻 169
第6章 領域自適應 177
6.1 概述 179
6.2 領域數據增強 180
6.2.1 領域數據聚類 180
6.2.2 領域數據篩選 182
6.2.3 領域數據擴充 184
6.3 模型訓練及優化 184
6.3.1 預訓練加微調技術 185
6.3.2 領域數據加權訓練 186
6.3.3 模型參數部分調優 187
6.3.4 基于知識蒸餾的領域自適應 188
6.3.5 基于課程表學習的領域自適應 189
6.4 專有名詞和術語的翻譯 190
6.4.1 前處理技術 191
6.4.2 后處理技術 193
6.4.3 融合專名/術語翻譯的解碼算法 193
6.5 翻譯記憶庫 195
6.5.1 基于記憶庫的數據增強 196
6.5.2 融合記憶庫的翻譯模型 197
6.5.3 k-近鄰翻譯模型 198
6.6 面向產業應用的領域自適應解決方案 199
參考文獻 200
第7章 機器同聲傳譯 207
7.1 概述 209
7.2 主要挑戰 211
7.2.1 技術挑戰 211
7.2.2 數據挑戰 213
7.2.3 評價挑戰 214
7.3 級聯同傳模型 216
7.3.1 wait-k模型 216
7.3.2 語義單元驅動的同傳模型 220
7.3.3 基于強化學習的同傳模型 224
7.3.4 基于單調無限回溯注意力機制的同傳模型 226
7.4 端到端語音翻譯及同傳模型 228
7.4.1 從級聯模型至端到端模型的過渡 229
7.4.2 基于多任務學習的端到端模型 231
7.4.3 語音識別與翻譯交互解碼模型 234
7.4.4 端到端同傳模型 236
7.5 同傳模型魯棒性 241
7.5.1 融合音節信息的翻譯模型 241
7.5.2 語音識別糾錯 242
7.5.3 魯棒性翻譯模型 244
7.6 同傳數據 245
7.6.1 歐洲語言同傳語料庫 246
7.6.2 日英同傳語料庫 247
7.6.3 中英同傳語料庫 247
7.7 同傳評價 249
7.7.1 基于閱讀理解的翻譯質量評價 249
7.7.2 基于平均延遲的同傳時延評價 250
7.7.3 綜合翻譯質量和同傳時延的評價 252
7.8 機器同傳系統及產品 252
7.8.1 機器同傳系統 253
7.8.2 機器同傳產品形式 254
7.8.3 機器輔助同傳 254
7.9 搭建一個機器同傳系統 256
7.9.1 數據準備 256
7.9.2 訓練 257
7.9.3 解碼 257
參考文獻 258
第
神經網絡機器翻譯技術及產業應用 作者簡介
王海峰,百度首席技術官,深度學習技術及應用國家工程研究中心主任。國際計算語言學學會(ACL)首位華人主席、ACL亞太分會創始主席、ACL Fellow、IEEE Fellow、CAAI Fellow。長期從事機器翻譯、自然語言處理、深度學習等人工智能技術的研究及產業化工作。以第一完成人身份獲國家技術發明二等獎、國家科技進步二等獎、中國專利金獎、北京市科技進步一等獎、中國電子學會科技進步一等獎,獲光華工程科技獎、全國創新爭先獎、吳文俊人工智能杰出貢獻獎等。 何中軍,百度人工智能技術委員會主席。長期從事機器翻譯研究與開發,并致力于推動機器翻譯大規模產業化應用。曾獲國家科技進步二等獎、北京市科技進步一等獎、中國電子學會科技進步一等獎、中國專利銀獎等多項獎勵。被評為“中國電子學會優秀科技工作者”“北京青年榜樣”等。 吳華,百度技術委員會主席。長期從事機器翻譯、自然語言處理、機器學習等技術的研究及產業化工作。曾獲國家技術發明二等獎、國家科技進步二等獎、中國專利金獎、北京市科技進步一等獎、中國電子學會科技進步一等獎。被評為“杰出工程師”“青年北京學者”等。
- >
巴金-再思錄
- >
小考拉的故事-套裝共3冊
- >
羅曼·羅蘭讀書隨筆-精裝
- >
上帝之肋:男人的真實旅程
- >
莉莉和章魚
- >
朝聞道
- >
伯納黛特,你要去哪(2021新版)
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)