中图网(原中国图书网):网上书店,中文字幕在线一区二区三区,尾货特色书店,中文字幕在线一区,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
基于Spark NLP的自然語言處理

包郵 基于Spark NLP的自然語言處理

出版社:中國電力出版社出版時間:2022-09-01
開本: 16開 頁數: 386
中 圖 價:¥71.7(5.6折) 定價  ¥128.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

基于Spark NLP的自然語言處理 版權信息

基于Spark NLP的自然語言處理 本書特色

本書介紹了如何使用深度學習和Apache Spark NLP庫,來構建可擴展的自然語言處理應用程序。 如果你想構建一個使用自然語言文本的企業級應用程序,但不確定從哪里開始或使用什么工具,本書將幫助你入門。Wisecube的首席數據科學家Alex Thomas向軟件工程師和數據科學家展示了如何使用深度學習和Apache Spark NLP庫,來構建可擴展的自然語言處理(NLP)應用程序。 通過在Spark處理框架上使用NLP的具體示例、實踐,進行理論解釋和動手練習,本書將會介紹從基本語言學和寫作系統到情感分析和搜索引擎的所有內容。你還將探索一些開發基于文本的應用程序會遇到的特殊問題,例如性能等。 專家推薦 “這是一本寫得很好的書,它將帶你從語法和語言模型的基礎知識開始,并利用當今可用的*佳深度學習和遷移學習技術,構建現實世界的生產級AI應用程序。”——David TalbyJohn Snow 實驗室CTO

基于Spark NLP的自然語言處理 內容簡介

本書的主要內容有:基礎知識。了解自然語言處理、Apache Spark上的NLP和深度學習的基礎知識;構建模塊。學習構建NLP應用程序的技術(包括標記化、句子分割和命名實體識別),并了解它們的工作方式和原因;應用程序。探索構建你自己的NLP應用程序的設計、開發和實驗過程;構建NLP系統。考慮生產和部署NLP模型的選項,包括支持哪些人類語言。

基于Spark NLP的自然語言處理 目錄

目錄
前言 . 1
**部分 基礎知識
第1 章 快速入門 . 9
1.1 簡介 9
1.2 其他工具 11
1.3 建立你自己的開發環境 12
1.3.1 前置條件 12
1.3.2 啟動Apache Spark 13
1.3.3 檢查代碼 13
1.4 熟悉Apache Spark .14
1.4.1 使用Spark NLP 啟動Apache Spark 14
1.4.2 在Apache Spark 中加載和查看數據 15
1.5 Spark NLP 的Hello World 示例 18
第2 章 自然語言基礎知識 27
2.1 什么是自然語言 27
2.1.1 語言的起源 28
2.1.2 口頭語言和書面語言29
2.2 語言學 30
2.2.1 語音學和音系學 .30
2.2.2 詞法學(形態學) 31
2.2.3 語法 32
2.2.4 語義學 .33
2.3 社會語言學:方言、語域和其他變體 34
2.3.1 禮節 34
2.3.2 語境 35
2.4 語用學 35
2.4.1 羅曼·雅各布森 .35
2.4.2 如何運用語用學 .37
2.5 書寫系統 37
2.5.1 起源 37
2.5.2 字母 38
2.5.3 輔音音素文字 .39
2.5.4 元音附標文字 .40
2.5.5 音節表 41
2.5.6 標識象形符 .41
2.6 編碼 42
2.6.1 ASCII 42
2.6.2 Unicode 42
2.6.3 UTF-8 43
2.7 練習:分詞 .44
2.7.1 英語分詞 44
2.7.2 希臘語分詞 45
2.7.3 Ge'ez(阿姆哈拉語)分詞 45
2.8 資源 46
第3 章 Apache Spark 上的NLP 49
3.1 并行性、并發性、分布式計算 .50
3.1.1 Apache Hadoop 之前的并行化 53
3.1.2 MapReduce 和 Apache Hadoop 53
3.1.3 Apache Spark 55
3.2 Apache Spark 架構 55
3.2.1 物理架構 55
3.2.2 邏輯架構 56
3.3 Spark SQL 和Spark MLlib 62
3.3.1 Transformer(轉換器) .66
3.3.2 評估器和模型 69
3.3.3 預測結果評估 73
3.4 NLP 庫 .76
3.4.1 功能庫 .76
3.4.2 注釋庫 .77
3.4.3 其他庫中的自然語言處理功能 78
3.5 Spark NLP 78
3.5.1 注釋庫 .78
3.5.2 階段 79
3.5.3 預訓練管道 87
3.5.4 Finisher 89
3.6 練習:構建主題模型 .91
3.7 資源 93
第4 章 深度學習基礎知識 95
4.1 梯度下降 100
4.2 反向傳播 101
4.3 卷積神經網絡CNN . 113
4.3.1 濾波器 114
4.3.2 池化 114
4.4 循環神經網絡RNN . 114
4.4.1 通過時間的反向傳播. 115
4.4.2 Elman 網絡 . 115
4.4.3 LSTM 116
4.5 練習1 . 116
4.6 練習2 . 116
4.7 資源 . 117
第二部分 構建模塊
第5 章 文字處理 121
5.1 分詞 .122
5.2 詞表縮減 126
5.2.1 詞干提取 .126
5.2.2 詞形還原 .126
5.2.3 詞干提取對比詞形還原 127
5.2.4 拼寫校對 .129
5.2.5 標準化 130
5.3 bag-of-words 模型.132
5.4 CountVectorizer .133
5.5 N-Gram 135
5.6 可視化:Word 和文檔分發 137
5.7 練習 .142
5.8 資源 .142
第6 章 信息檢索 143
6.1 倒排索引 144
6.2 向量空間模型 .151
6.2.1 刪除停用詞 154
6.2.2 逆向文件頻率 156
6.2.3 使用Spark 159
6.3 練習 .159
6.4 資源 .160
第7 章 分類和回歸 163
7.1 bag-of-word 模型特征 .166
7.2 正則表達式特征 167
7.3 特征選擇 169
7.4 模型 .173
7.4.1 樸素貝葉斯算法 174
7.4.2 線性模型 .174
7.4.3 決策/ 回歸樹.174
7.4.4 深度學習算法 175
7.5 迭代 .175
7.6 練習 .178
第8 章 使用Keras 的序列模型 181
8.1 語句劃分 182
8.2 段落劃分 190
8.3 詞性標注 191
8.4 條件隨機場 196
8.5 分塊和語法分析 196
8.6 語言模型 197
8.7 循環神經網絡 .198
8.8 練習:字符 N-Grams 模型 205
8.9 練習:詞義語言模型 206
8.10 資源 206
第9 章 信息提取 207
9.1 命名實體識別 .207
9.2 共指消解 217
9.3 斷言狀態檢測 .218
9.4 關系提取 221
9.5 小結 .226
9.6 練習 .226
第10 章 主題建模 . 229
10.1 K-Means .230
10.2 潛在語義索引 234
10.3 非負矩陣分解 238
10.4 隱含狄利克雷分布模型 242
10.5 練習 245
第11 章 詞嵌入 . 249
11.1 Word2vec 249
11.2 GloVe 261
11.3 fastText 262
11.4 Transformer 263
11.5 ELMo、BERT 和XLNet .263
11.6 Doc2vec 265
11.7 練習 266
第三部分 應用
第12 章 情感分析與情緒檢測 269
12.1 問題陳述與約束 269
12.2 規劃項目 .271
12.3 設計解決方案 274
12.4 實施解決方案 275
12.5 測試并衡量解決方案 281
12.5.1 業務指標 281
12.5.2 以模型為中心的指標 281
12.5.3 基礎設施指標 .282
12.5.4 過程指標 283
12.5.5 離線與在線模型測量 284
12.6 審查 284
12.6.1 初始部署 285
12.6.2 回退計劃 286
12.6.3 下一步 286
12.7 結論 286
第13 章 建立知識庫 287
13.1 問題陳述與約束 288
13.2 規劃項目 .289
13.3 設計解決方案 290
13.4 實施解決方案 291
13.5 測試并衡量解決方案 300
13.5.1 業務指標 300
13.5.2 以模型為中心的指標 300
13.5.3 基礎設施指標 .301
13.5.4 過程指標 301
13.6 審查 302
13.7 結論 302
第14 章 搜索引擎 . 303
14.1 問題陳述與約束 304
14.2 規劃項目 .304
14.3 設計解決方案 305
14.4 實施解決方案 305
14.5 測試并衡量解決方案 313
14.5.1 業務指標 313
14.5.2 以模型為中心的指標 314
14.6 審查 315
14.7 結論 316
第15 章 聊天機器人 317
15.1 問題陳述與約束 318
15.2 規劃項目 .319
15.3 設計解決方案 319
15.4 實施解決方案 321
15.5 測試并衡量解決方案 331
15.5.1 業務指標 331
15.5.2 以模型為中心的指標 332
15.6 審查 332
15.7 結論 332
第16 章 目標字符識別 333
16.1 OCR 任務的種類 333
16.1.1 印刷文本的圖像和PDF 識別成文本 333
16.1.2 手寫文本圖像識別成文本 334
16.1.3 日常環境中的文本圖像識別成文本 334
16.1.4 文本圖像識別成目標 335
16.1.5 關于不同書寫系統的說明 336
16.2 問題陳述與約束 336
16.3 規劃項目 .337
16.4 實施解決方案 337
16.5 測試并衡量解決方案 343
16.6 以模型為中心的指標 343
16.7 審查 343
16.8 結論 343
第四部分 構建NLP 系統
第17 章 支持多種語言 347
17.1 語言類型學 347
17.2 場景:學術論文分類 347
17.3 不同語言中的文本處理 348
17.3.1 合成詞 348
17.3.2 形態復雜性349
17.4 遷移學習與多語言深度學習 .350
17.5 跨語種搜索 351
17.6 檢查清單 .352
17.7 結論 353
第18 章 人工標注 . 355
18.1 指南 356
18.2 場景:學術論文分類 356
18.3 標注員內部一致性 .358
18.4 標注迭代 .359
18.5 標注文本 .360
18.5.1 分類 .360
18.5.2 標注 .360
18.6 檢查清單 .361
18.7 結論 362
第19 章 NLP 應用程序的產品化 . 363
19.1 Spark NLP 模型緩存 .364
19.2 Spark NLP 與TensorFlow 集成 365
19.2.1 Spark 優化基礎 .366
19.2.2 設計級優化367
19.2.3 分析工具 368
19.2.4 監視 .369
19.2.5 管理數據資源 .369
19.2.6 測試基于NLP 的應用程序 369
19.2.7 單元測試 370
19.2.8 集成測試 370
19.2.9 冒煙測試與健全測試 370
19.2.10 性能測試 371
19.2.11 可用性測試 371
19.2.12 演示基于NLP 的應用程序 371
19.3 檢查清單 372
19.3.1 模型部署清單 .372
19.3.2 擴展和性能檢查表 373
19.3.3 測試檢查清單 .373
19.4 結論 374
術語表 377

展開全部

基于Spark NLP的自然語言處理 作者簡介

Alex Thomas是Wisecube的首席數據科學家。他將自然語言處理和機器學習與臨床數據、身份數據、雇主和求職者數據,以及現在的生物化學數據結合使用。 Alex從Apache Spark 0.9版就開始使用,并使用過NLP庫和框架,其中包括UIMA和OpenNLP。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 冰晶石|碱性嫩黄闪蒸干燥机-有机垃圾烘干设备-草酸钙盘式干燥机-常州市宝康干燥 | 密集柜_档案密集柜_智能密集架_密集柜厂家_密集架价格-智英伟业 密集架-密集柜厂家-智能档案密集架-自动选层柜订做-河北风顺金属制品有限公司 | 青海电动密集架_智能密集架_密集架价格-盛隆柜业青海档案密集架厂家 | 消泡剂-水处理消泡剂-涂料消泡剂-切削液消泡剂价格-东莞德丰消泡剂厂家 | 淄博不锈钢,淄博不锈钢管,淄博不锈钢板-山东振远合金科技有限公司 | led全彩屏-室内|学校|展厅|p3|户外|会议室|圆柱|p2.5LED显示屏-LED显示屏价格-LED互动地砖屏_蕙宇屏科技 | 充气膜专家-气膜馆-PTFE膜结构-ETFE膜结构-商业街膜结构-奥克金鼎 | 焊锡丝|焊锡条|无铅锡条|无铅锡丝|无铅焊锡线|低温锡膏-深圳市川崎锡业科技有限公司 | ORP控制器_ORP电极价格-上优泰百科| 控显科技 - 工控一体机、工业显示器、工业平板电脑源头厂家 | 哲力实业_专注汽车涂料汽车漆研发生产_汽车漆|修补油漆品牌厂家 长沙一级消防工程公司_智能化弱电_机电安装_亮化工程专业施工承包_湖南公共安全工程有限公司 | 吸音板,隔音板,吸音材料,吸音板价格,声学材料 - 佛山诺声吸音板厂家 | 红酒招商加盟-葡萄酒加盟-进口红酒代理-青岛枞木酒业有限公司 | MOOG伺服阀维修,ATOS比例流量阀维修,伺服阀维修-上海纽顿液压设备有限公司 | 开云(中国)Kaiyun·官方网站 - 登录入口| 雪花制冰机(实验室雪花制冰机)百科 | HYDAC过滤器,HYDAC滤芯,现货ATOS油泵,ATOS比例阀-东莞市广联自动化科技有限公司 | 气体检测仪-氢气检测仪-可燃气体传感器-恶臭电子鼻-深国安电子 | 高效复合碳源-多核碳源生产厂家-污水处理反硝化菌种一长隆科技库巴鲁 | 广州冷却塔维修厂家_冷却塔修理_凉水塔风机电机填料抢修-广东康明节能空调有限公司 | 肉嫩度仪-凝胶测试仪-国产质构仪-气味分析仪-上海保圣实业发展有限公司|总部 | 水平垂直燃烧试验仪-灼热丝试验仪-漏电起痕试验仪-针焰试验仪-塑料材料燃烧检测设备-IP防水试验机 | 太原装修公司_山西整装家装设计_太原室内装潢软装_肖邦家居 | 中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折! | 玻璃钢格栅盖板|玻璃钢盖板|玻璃钢格栅板|树篦子-长沙川皖玻璃钢制品有限公司 | 无硅导热垫片-碳纤维导热垫片-导热相变材料厂家-东莞市盛元新材料科技有限公司 | OLChemim试剂-ABsciex耗材-广州市自力色谱科仪有限公司 | 国际船舶网 - 船厂、船舶、造船、船舶设备、航运及海洋工程等相关行业综合信息平台 | 合肥防火门窗/隔断_合肥防火卷帘门厂家_安徽耐火窗_良万消防设备有限公司 | LCD3D打印机|教育|桌面|光固化|FDM3D打印机|3D打印设备-广州造维科技有限公司 | 河南中专学校|职高|技校招生-河南中职中专网 | 镀锌钢格栅_热镀锌格栅板_钢格栅板_热镀锌钢格板-安平县昊泽丝网制品有限公司 | 直流电能表-充电桩电能表-导轨式电能表-智能电能表-浙江科为电气有限公司 | 校服厂家,英伦校服定做工厂,园服生产定制厂商-东莞市艾咪天使校服 | 圆形振动筛_圆筛_旋振筛_三次元振动筛-河南新乡德诚生产厂家 | 凝胶成像仪,化学发光凝胶成像系统,凝胶成像分析系统-上海培清科技有限公司 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 挤出熔体泵_高温熔体泵_熔体出料泵_郑州海科熔体泵有限公司 | 酒万铺-酒水招商-酒水代理| 电线电缆厂家|沈阳电缆厂|电线厂|沈阳英联塑力线缆有限公司 | 焊锡丝|焊锡条|无铅锡条|无铅锡丝|无铅焊锡线|低温锡膏-深圳市川崎锡业科技有限公司 |