中圖網小程序
一鍵登錄
更方便
本類五星書更多>
-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
Python語言數據分析 版權信息
- ISBN:9787313248916
- 條形碼:9787313248916 ; 978-7-313-24891-6
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
Python語言數據分析 內容簡介
本書主要內容包括語言數據分析基礎 (數據結構、數據清洗、數據可視化等) 以及語言數據分析應用 (N-grams/Chunk提取、相似性計算、情感分析、語義分析、主題分析、語料庫變量分析等) 。全書共分兩部分十個章節, 內容限制在Python的語料庫應用提升階段, 更多結合語言學和翻譯學的相關理論知識, 實現技術與語言學/翻譯學的充分結合。
Python語言數據分析 目錄
上篇 語言數據分析基礎
第1章 語言數據結構
1.1 一維數據結構
1.1.1 單詞列表
1.1.2 術語列表
1.1.3 句子列表
1.1.4 段落列表
1.1.5 語篇列表
1.1.6 其他一維數據結構
1.2 二維數據結構
1.2.1 字典結構
1.2.2 元組列表結構
1.2.3 二維數據的遍歷
1.3 多維數據結構
1.3.1 元組字典結構
1.3.2 列表元組列表結構
1.3.3 Brown語料庫詞性標記訓練集
1.4 數據結構轉換
1.4.1 多連詞的轉換
1.4.2 矩陣結構的轉換
1.4.3 spaCy列表到NLTK列表的轉換
第2章 語言數據清洗
2.1 Python數據清洗方法
2.1.1 無效字符清除方法
2.1.2 字符判斷方法
2.1.3 替換方法
2.1.4 標點符號清除方法
2.1.5 停用詞方法
2.2 無效信息的清洗
2.2.1 何為無效信息
2.2.2 新聞文本的語言數據清洗
2.2.3 中文動詞的清洗
2.3 有效信息的清洗
2.3.1 何為有效信息
2.3.2 英文動詞詞組的清洗
2.3.3 詞形還原法
2.3.4 特征值清洗
第3章 語言數據可視化
3.1 數字結果可視化
3.1.1 語篇詞匯密度分布及其柱狀圖可視化
3.1.2 作業分數統計及其正態分布擬合可視化
3.1.3 語篇詞長分布及其折線圖可視化
3.1.4 信息貢獻度分布對比及其散點圖可視化
3.1.5 語篇長句界定及其句長分布可視化
3.2 文字結果可視化
3.2.1 詞匯相似性及其相關矩陣可視化
3.2.2 主題詞凸顯及其分布式可視化
3.2.3 評價語句的相似性及其聚類可視化
3.2.4 語篇語義分析及其語義網絡可視化
第4章 數據分析可選方法
4.1 Python+Excel應用
4.1.1 長句文字內容和句長分布
4.1.2 上下文關鍵詞呈現
4.1.3 多文本對比呈現
4.1.4 過程prdndas數據結構呈現
4.2 正則表達式方法
4.2.1 概述
4.2.2 案例1——首字母為元音的單詞提取
4.2.3 案例2——主題詞L5R5搭配提取
4.3 文本分類方法
4.3.1 以關鍵詞實現大文本分類
4.3.2 以情感極性實現小文本分類
4.3.3 樸素貝葉斯分類法
4.4 語言數據檢驗
下篇 語言數據分析理論與應用
第5章 短語學及其計算語言學方法
5.1 短語學與計算語言學
5.1.1 語料庫與短語學
5.1.2 計算語言學
5.1.3 基于意義單位的研究
5.1.4 短語學技術應用
5.2 短語數據處理工具
5.2.1 全額提取方法
5.2.2 分類提取方法
5.3 短語學分析路徑
5.3.1 學術文本模糊短語的弱化表述手段
5.3.2 話語分析及其ngrms()短語數據清洗
5.3.3 多詞術語的結構語義消歧
第6章 情感分析理論、方法與路徑
6.1 情感分析與接受度定位
6.1.1 情感與情感分析
6.1.2 國際關系領域
6.1.3 市場營銷領域
6.1.4 教育領域
6.1.5 應用與不足
6.2 情感分析工具
6.2.1 中文類工具
6.2.2 英文類工具
6.2.3 混合類工具——樸素貝葉斯分類法
6.3 情感分析路徑
6.3.1 情感分析與傳統民意調查比較
6.3.2 基于文本情感分析的商品評價
6.3.3 樸素貝葉斯分類法與情感分析
6.3.4 擇校行為影響因素與情感分類
第7章 相似性度量理論與應用
7.1 相似性度量與文本分析
7.1.1 基于語義信息的相似性
7.1.2 三個層級的度量路徑
7.1.3 文本數據和知識庫
7.2 相似性度量工具
7.2.1 詞匯相似性度量
7.2.2 句子相似性度量
7.2.3 語篇相似性度量
7.3 文本相似性分析路徑
7.3.1 多譯本相似性度量
7.3.2 著作權法/版權法概念copyright及其搭配的相似性
7.3.3 語料庫的平衡性問題
第8章 語義分析與文本探究
8.1 語義分析與相關模型
8.1.1 語義遷移與分布式詞向量
8.1.2 語義主題詞與信息貢獻度
8.1.3 語義關系與語義網
8.1.4 文本語義與語義網絡分析
8.2 語義分析工具
8.2.1 詞向量(詞嵌入)模型
8.2.2 語義網資源
8.2.3 spaCy方法
8.2.4 向量模型
8.3 文本語義分析路徑
8.3.1 著作權法/版權法概念copyright詞向量關聯性
8.3.2 語義遷移描述與代碼融合
8.3.3 漢英法律語義檢索詞典構建
第9章 主題建模與文本主題
9.1 主題建模中的主題挖掘
9.1.1 語料庫主題概述
9.1.2 主題建模方法論啟示
9.1.3 歷時性文本主題
9.1.4 共時性文本主題
9.1.5 討論與總結
9.2 主題建模工具
9.2.1 Gensim主題建模方法
9.2.2 Sklearn主題建模方法
9.2.3 中文主題模型方法
9.3 主題建模實現路徑
9.3.1 話語分析中
第1章 語言數據結構
1.1 一維數據結構
1.1.1 單詞列表
1.1.2 術語列表
1.1.3 句子列表
1.1.4 段落列表
1.1.5 語篇列表
1.1.6 其他一維數據結構
1.2 二維數據結構
1.2.1 字典結構
1.2.2 元組列表結構
1.2.3 二維數據的遍歷
1.3 多維數據結構
1.3.1 元組字典結構
1.3.2 列表元組列表結構
1.3.3 Brown語料庫詞性標記訓練集
1.4 數據結構轉換
1.4.1 多連詞的轉換
1.4.2 矩陣結構的轉換
1.4.3 spaCy列表到NLTK列表的轉換
第2章 語言數據清洗
2.1 Python數據清洗方法
2.1.1 無效字符清除方法
2.1.2 字符判斷方法
2.1.3 替換方法
2.1.4 標點符號清除方法
2.1.5 停用詞方法
2.2 無效信息的清洗
2.2.1 何為無效信息
2.2.2 新聞文本的語言數據清洗
2.2.3 中文動詞的清洗
2.3 有效信息的清洗
2.3.1 何為有效信息
2.3.2 英文動詞詞組的清洗
2.3.3 詞形還原法
2.3.4 特征值清洗
第3章 語言數據可視化
3.1 數字結果可視化
3.1.1 語篇詞匯密度分布及其柱狀圖可視化
3.1.2 作業分數統計及其正態分布擬合可視化
3.1.3 語篇詞長分布及其折線圖可視化
3.1.4 信息貢獻度分布對比及其散點圖可視化
3.1.5 語篇長句界定及其句長分布可視化
3.2 文字結果可視化
3.2.1 詞匯相似性及其相關矩陣可視化
3.2.2 主題詞凸顯及其分布式可視化
3.2.3 評價語句的相似性及其聚類可視化
3.2.4 語篇語義分析及其語義網絡可視化
第4章 數據分析可選方法
4.1 Python+Excel應用
4.1.1 長句文字內容和句長分布
4.1.2 上下文關鍵詞呈現
4.1.3 多文本對比呈現
4.1.4 過程prdndas數據結構呈現
4.2 正則表達式方法
4.2.1 概述
4.2.2 案例1——首字母為元音的單詞提取
4.2.3 案例2——主題詞L5R5搭配提取
4.3 文本分類方法
4.3.1 以關鍵詞實現大文本分類
4.3.2 以情感極性實現小文本分類
4.3.3 樸素貝葉斯分類法
4.4 語言數據檢驗
下篇 語言數據分析理論與應用
第5章 短語學及其計算語言學方法
5.1 短語學與計算語言學
5.1.1 語料庫與短語學
5.1.2 計算語言學
5.1.3 基于意義單位的研究
5.1.4 短語學技術應用
5.2 短語數據處理工具
5.2.1 全額提取方法
5.2.2 分類提取方法
5.3 短語學分析路徑
5.3.1 學術文本模糊短語的弱化表述手段
5.3.2 話語分析及其ngrms()短語數據清洗
5.3.3 多詞術語的結構語義消歧
第6章 情感分析理論、方法與路徑
6.1 情感分析與接受度定位
6.1.1 情感與情感分析
6.1.2 國際關系領域
6.1.3 市場營銷領域
6.1.4 教育領域
6.1.5 應用與不足
6.2 情感分析工具
6.2.1 中文類工具
6.2.2 英文類工具
6.2.3 混合類工具——樸素貝葉斯分類法
6.3 情感分析路徑
6.3.1 情感分析與傳統民意調查比較
6.3.2 基于文本情感分析的商品評價
6.3.3 樸素貝葉斯分類法與情感分析
6.3.4 擇校行為影響因素與情感分類
第7章 相似性度量理論與應用
7.1 相似性度量與文本分析
7.1.1 基于語義信息的相似性
7.1.2 三個層級的度量路徑
7.1.3 文本數據和知識庫
7.2 相似性度量工具
7.2.1 詞匯相似性度量
7.2.2 句子相似性度量
7.2.3 語篇相似性度量
7.3 文本相似性分析路徑
7.3.1 多譯本相似性度量
7.3.2 著作權法/版權法概念copyright及其搭配的相似性
7.3.3 語料庫的平衡性問題
第8章 語義分析與文本探究
8.1 語義分析與相關模型
8.1.1 語義遷移與分布式詞向量
8.1.2 語義主題詞與信息貢獻度
8.1.3 語義關系與語義網
8.1.4 文本語義與語義網絡分析
8.2 語義分析工具
8.2.1 詞向量(詞嵌入)模型
8.2.2 語義網資源
8.2.3 spaCy方法
8.2.4 向量模型
8.3 文本語義分析路徑
8.3.1 著作權法/版權法概念copyright詞向量關聯性
8.3.2 語義遷移描述與代碼融合
8.3.3 漢英法律語義檢索詞典構建
第9章 主題建模與文本主題
9.1 主題建模中的主題挖掘
9.1.1 語料庫主題概述
9.1.2 主題建模方法論啟示
9.1.3 歷時性文本主題
9.1.4 共時性文本主題
9.1.5 討論與總結
9.2 主題建模工具
9.2.1 Gensim主題建模方法
9.2.2 Sklearn主題建模方法
9.2.3 中文主題模型方法
9.3 主題建模實現路徑
9.3.1 話語分析中
展開全部
書友推薦
- >
莉莉和章魚
- >
隨園食單
- >
上帝之肋:男人的真實旅程
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
唐代進士錄
- >
經典常談
- >
巴金-再思錄
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
本類暢銷