目錄《信息科學技術學術著作叢書》序前言 第1章 藏語語法單位 1 1.1 藏文字符 1 1.2 藏文字 2 1.2.1 藏文字結構 2 1.2.2 藏文的書寫及字體 3 1.3 藏語詞語 3 1.3.1 格助詞 4 1.3.2 不自由虛詞 7 1.3.3 自由虛詞 10 1.3.4 動詞概述 12 1.4 藏語短語 13 1.5 藏語句子 14 1.5.1 藏語句子的特點 14 1.5.2 藏語句子的分類 14 第2章 理論基礎 17 2.1 集合論基礎 17 2.1.1 集合 17 2.1.2 字符串 18 2.1.3 函數 20 2.1.4 圖 20 2.2 概率論基礎 22 2.2.1 概率 22 2.2.2 **似然估計 23 2.2.3 條件概率 24 2.2.4 全概率公式與貝葉斯公式 24 2.2.5 獨立性 26 2.2.6 隨機變量 26 2.2.7 聯合概率分布和條件概率分布 27 2.2.8 貝葉斯決策理論 28 2.2.9 期望和方差 29 2.3 信息論基礎 30 2.3.1 信息熵 30 2.3.2 信息熵的性質 32 2.3.3 聯合熵和條件熵 34 2.3.4 相對熵 35 2.3.5 互信息 35 2.3.6 交叉熵 36 2.3.7 困惑度 37 2.3.8 噪聲信道 37 2.4 齊普夫定律 39 2.5 隱馬爾可夫模型 41 2.5.1 馬爾可夫模型 41 2.5.2 隱馬爾可夫模型的基本原理 42 2.5.3 隱馬爾可夫模型的三個基本問題 44 2.6 **熵模型 56 2.6.1 **熵模型的約束條件 57 2.6.2 **熵模型的原則 58 2.6.3 **熵模型的參數訓練 58 2.7 條件隨機場模型 59 2.7.1 條件隨機場定義 60 2.7.2 條件隨機場模型形式 61 2.7.3 條件隨機場模型的參數估計 62 第3章 形式語言與自動機 64 3.1 形式語言 64 3.1.1 形式語言概述 64 3.1.2 形式文法 65 3.1.3 形式文法的類型 66 3.2 自動機 68 3.2.1 自動機概述 68 3.2.2 正規文法與自動機 72 第4章 字符編碼 75 4.1 西文字符編碼 75 4.2 ISO/IEC 10646與Unicode 76 4.2.1 緣起 76 4.2.2 ISO/IEC 10646體系結構 76 4.2.3 Unicode 79 4.3 中文字符編碼 81 4.3.1 漢字字符編碼 81 4.3.2 藏文字符編碼 85 第5章 藏語語料庫的建設 91 5.1 語料庫概述 91 5.2 語料庫的類型 91 5.3 典型語料庫 93 5.4 藏語語料庫建設中存在的問題 96 第6章 藏文信息熵 99 6.1 概述 99 6.2 藏文字符的信息熵 100 6.3 藏文字的信息熵 102 6.4 藏語語言模型及其困惑度 105 6.4.1 N元文法模型 105 6.4.2 困惑度 107 6.4.3 數據平滑 109 6.5 藏文輸入法的數學模型 111 6.6 藏文文本自動校對 115 第7章 藏文拼寫文法的形式化 118 7.1 藏文拼寫文法形式化描述 118 7.1.1 術語定義 118 7.1.2 符號映射 119 7.1.3 藏文拼寫文法規則 120 7.1.4 藏文的基本拼寫結構 122 7.1.5 藏文拼寫文法形式化描述 127 7.1.6 藏文拼寫文法性質 131 7.2 藏文拼寫形式語言 133 7.2.1 藏文拼寫形式語言概述 133 7.2.2 藏文拼寫形式文法 135 7.3 藏文字組成成分識別 186 7.3.1 藏文字組成成分的識別概述 186 7.3.2 藏文拼寫形式文法使用中的二義性問題 188 第8章 藏語自動分詞及詞性和語義標注 190 8.1 藏語自動分詞中的幾個關鍵問題 190 8.1.1 緊縮詞問題 190 8.1.2 歧義切分問題 193 8.1.3 未登錄詞問題 195 8.2 藏語自動分詞方法 197 8.2.1 基于規則的分詞方法 197 8.2.2 基于統計的分詞方法 198 8.2.3 基于條件隨機場模型的藏語分詞方法 199 8.3 命名實體識別 206 8.3.1 概述 206 8.3.2 命名實體識別方法 207 8.4 詞性標注 209 8.4.1 概述 209 8.4.2 詞類標記集的確定 211 8.4.3 基于規則的詞性標注方法 215 8.4.4 基于統計模型的詞性標注方法 217 8.4.5 基于規則與統計相結合的詞性標注方法 219 8.5 詞義標注 221 8.5.1 概述 221 8.5.2 基于互信息的詞義消歧方法 221 8.5.3 基于貝葉斯判別的詞義消歧方法 223 8.5.4 基于詞典的詞義消歧方法 224 第9章 現代藏語短語結構及其形式化描述 225 9.1 概述 225 9.1.1 藏語短語的句法知識理論 225 9.1.2 藏語短語的句法功能分類 226 9.1.3 藏語短語規則的形式表達 229 9.2 名詞性短語結構及其形式化描述 231 9.2.1 概述 231 9.2.2 定中結構的NP 232 9.2.3 聯合結構的NP 240 9.3 動詞性短語結構及其形式化描述 241 9.3.1 概述 241 9.3.2 主謂結構的VP 242 9.3.3 述賓結構的VP 244 9.3.4 述補結構的VP 246 9.3.5 動詞聯合的VP 250 9.3.6 狀中結構的VP 251 9.4 形容詞性短語結構及其形式化描述 252 9.4.1 概述 252 9.4.2 聯合結構的AP 252 9.4.3 狀中結構的AP 255 第10章 藏語句法分析 258 10.1 藏語句型概述 258 10.1.1 NP PP VP句型 258 10.1.2 NP VP句型 259 10.2 短語結構語法 260 10.2.1 形式語法 260 10.2.2 CFG句法分析 264 10.3 藏語CFG 句法分析 265 10.3.1 LR分析算法 265 10.3.2 句法樹 273 10.4 依存語法 275 10.4.1 概述 275 10.4.2 依存句法分析方法 277 10.5 藏語依存句法分析 281 10.5.1 概述 281 10.5.2 藏語依存關系體系 282 10.5.3 確定性藏語依存句法分析 286 第11章 統計機器翻譯原理 288 11.1 機器翻譯概述 288 11.1.1 機器翻譯技術的發展 288 11.1.2 機器翻譯方法 289 11.2 統計機器翻譯 291 11.3 基于噪聲信道模型的統計機器翻譯基本原理 291 11.4 統計語言模型 293 11.5 統計翻譯模型 296 11.5.1 共現 296 11.5.2 對齊 297 11.5.3 IBM模型1 300 11.5.4 學習詞匯翻譯模型 301 11.5.5 其他更高級的IBM模型 304 參考文獻 305