-
>
妙相梵容
-
>
基立爾蒙文:蒙文
-
>
我的石頭記
-
>
心靈元氣社
-
>
女性生存戰(zhàn)爭
-
>
縣中的孩子 中國縣域教育生態(tài)
-
>
(精)人類的明天(八品)
面向語言工程的現(xiàn)代漢語詞類體系與詞性標注研究 版權(quán)信息
- ISBN:9787030714954
- 條形碼:9787030714954 ; 978-7-03-071495-4
- 裝幀:一般膠版紙
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>
面向語言工程的現(xiàn)代漢語詞類體系與詞性標注研究 本書特色
本書面向語言工程的實際需求,從機器處理自然語言的視角出發(fā),對現(xiàn)代漢語詞類體系和詞性標注工作展開較大規(guī)模的調(diào)查研究
面向語言工程的現(xiàn)代漢語詞類體系與詞性標注研究 內(nèi)容簡介
本書面向語言工程,對現(xiàn)有漢語詞類體系和詞性標注工作展開調(diào)查,梳理總結(jié)漢語詞類體系和詞性標注中存在的主要問題,并以英漢語對比為基礎(chǔ),揭示漢語詞類體系與詞性標注的主要特點,為漢語本體研究和語料庫加工提供參考。本書還開展了詞性自動標注模型研究,在隱馬爾科夫模型的基礎(chǔ)上,建立了多觀察和多狀態(tài)搭接的COV模型,并將該模型運用到詞性標注任務(wù)中,獲得了較好的標注效果。 本書適合語言學(xué)研究者和學(xué)習(xí)者以及對語言工程感興趣的讀者參閱。
面向語言工程的現(xiàn)代漢語詞類體系與詞性標注研究 目錄
第1章 緒論 1
1.1 研究背景 1
1.2 研究目標與內(nèi)容 4
1.3 本書結(jié)構(gòu) 5
第2章 詞類研究概述 6
2.1 國際上詞類研究概述 6
2.2 漢語詞類研究概述 11
2.3 面向語言信息處理的漢語詞類研究 13
第3章 詞性標注研究概述 16
3.1 詞性標注與語料庫加工 16
3.2 主要的英語語料庫介紹 19
3.3 主要的漢語語料庫介紹 20
3.4 有關(guān)漢語詞性標注的評測活動 22
3.5 語言工程中的自動標注方法研究 23
第4章 詞類屬性調(diào)查 28
4.1 調(diào)查目的及方法 28
4.2 詞類及其兼類的總體分布 30
4.3 主要詞類屬性調(diào)查 39
4.4 另類詞分布統(tǒng)計 45
第5章 詞性標注調(diào)查 47
5.1 相關(guān)術(shù)語及定義 47
5.2 語料標注調(diào)查的必要性 50
5.3 詞性標注的調(diào)查原則 52
5.4 調(diào)查目的及方法 58
5.5 標注語料的總體情況 61
5.6實詞兼類調(diào)查 62
5.7 虛詞兼類調(diào)查 97
5.8語料標注調(diào)查結(jié)果分析 107
第6章 漢語詞類與詞性標注問題分析 115
6.1漢語詞類體系的分析 115
6.2 漢語詞性標注分析 143
6.3 漢語詞類問題的總結(jié)及相關(guān)對策 154
第7章 英漢語詞類問題的比較 159
7.1 句法約束與詞類之間的關(guān)系比較 159
7.2 詞類屬性與句法實現(xiàn)之間的比較 162
7.3 詞性標注過程的比較 163
7.4 英漢語詞類特點的總結(jié) 166
第8章 COV模型與詞性標注 167
8.1 標注模型概述 168
8.2 COV模型的形式化描述及與HMM模型的對比分析 170
8.3 參數(shù)估計及稀疏數(shù)據(jù)處理 173
8.4 算法描述 175
8.5 評價方法 177
8.6 實驗設(shè)計及結(jié)果分析 177
8.7 COV模型在英文詞性標注中的應(yīng)用 189
8.8 COV模型討論 191
第9章 漢語詞性標注體系與自動標注錯誤的關(guān)系分析 195
9.1 自動標注錯誤原因 195
9.2 兼類詞詞性調(diào)查分類 196
9.3 主要評價指標 197
9.4 實驗結(jié)果及分析 198
9.5 主要結(jié)論和啟示 205
第10章 總結(jié)與展望 207
10.1 主要工作 207
10.2 未來展望 208
參考文獻 210
附錄詞性標注調(diào)查詞(詞頻)表 216
面向語言工程的現(xiàn)代漢語詞類體系與詞性標注研究 節(jié)選
第1章 緒 論 1.1 研究背景 漢語詞的研究無論對于語言本體研究,還是對于語言工程實踐不僅是 一個重點,更是一個難點。重點是因為詞這一級語言單位負載了穩(wěn)定的意 義,在語言交際中可以獨立運用,把詞的使用規(guī)律研究清楚,對于整個語 句的組織、生成、理解、處理都有重要意義。難點是因為漢語的詞研究面 臨的困難比印歐語等形態(tài)豐富的語言都要多,漢語首先遇到的是詞的定界 問題,如何劃分詞與語素、詞與詞組的界限是較為困難的事情,詞的單位 不清楚,分類對象就不明確,分類工作就難以順利進行;其次,漢語缺乏 形態(tài)特征和形態(tài)變化,難以從詞形本身為詞找到分類依據(jù);此外,漢語詞 的使用靈活,尤其是大部分實詞可以承擔(dān)多種句法功能,能較為自由地占 據(jù)不同句法位置,且在不同句法位置上其形態(tài)不發(fā)生變化,這更加大了利 用形式條件劃分詞類的困難。盡管困難重重,但詞類問題依然吸引了近代 百年以來眾多語法學(xué)家的關(guān)注,并針對漢語是否存在詞類、如何劃分詞類 等問題展開一輪又一輪的熱烈討論,雖仍未取得統(tǒng)一的結(jié)論,但還是取得 了許多可喜的研究成果,既包括理論上的創(chuàng)新,也包括實踐中的開拓,并 且其中一些研究成果已經(jīng)被應(yīng)用到語言教學(xué)與語言工程之中,發(fā)揮了重要 作用。 看到成績的同時,也必須清醒地意識到漢語詞類問題遠未得到解決, 尤其是當面對大規(guī)模真實文本的時候,當需要為幾百萬、上千萬詞次的語 料標注上每個詞例的詞性的時候,當需要把面向人的詞類知識轉(zhuǎn)移給計算 機使用時,漢語的詞類問題就更加凸顯出來。對于這些問題有很多先行者 進行了卓有成就的開拓,例如,北京大學(xué)研制開發(fā)出《現(xiàn)代漢語語法信息 詞典》(以下簡稱《語法信息詞典》),對八萬多詞條進行細致的語法屬性描 寫,同時還為2000年的《人民日報》語料庫(以下簡稱《人民日報》)標 注了詞性,語料量達到近2700萬字,其工作對漢語語言信息處理產(chǎn)生重要 影響,也為深入研究詞類問題提供了重要資源。本書在這些成果基礎(chǔ)上, 對漢語詞類問題進行考察,從語言工程的角度回答,漢語詞類理論和詞性 標注存在哪些問題、造成這些問題的深層原因是什么,進而回答漢語詞類 的本質(zhì)是什么、是否應(yīng)當像英語一樣標注詞性、是否應(yīng)當動用大量的人力 物力開展大規(guī)模語料的詞性標注工作等問題,并*終為漢語語言本體研究 和語言資源建設(shè)提供有價值的建議和對策,以促進漢語語言信息處理工作 的發(fā)展。 本書的根本出發(fā)點是語言工程的需要。語言工程的工具是計算機,處 理對象是真實文本,目的是分析和提取意義,滿足各種應(yīng)用對語言的要求, 應(yīng)用包括機器翻譯、信息檢索、自動答問、文本分類、自動摘要、信息過 濾等。這樣的工作十分困難、復(fù)雜,不得不分步進行,并且計算機只能應(yīng) 對有限個對象,當對象無限多時,就需要確定有限個基本對象,其余對象 用基本對象的復(fù)合來表示。對于漢語文本來說,這種基本對象就是詞。因 為字的意義不確定性太大,而短語、句子、段落、篇章則是無窮的。理論 上說詞也是無窮的,但在數(shù)詞和人名、地名、機構(gòu)名各自合類的前提下, 數(shù)萬到數(shù)十萬個詞就可以或粗或精地滿足一般的語言處理需求了。對于這 些詞,計算機需要掌握它們的知識,包括它們的意義、用法以及它們在復(fù) 合結(jié)構(gòu)中的作用等。這些知識也必須用有限個對象表示,這種對象就是詞 的屬性,由屬性按不同的方式可以組合成各種類別,以便機器按類處理。 詞的屬性需要人傳遞給計算機,傳遞的方法目前大致有三種:①詞的 知識庫,標注詞的固有屬性或者說靜態(tài)屬性;②語料庫,標注詞的語境屬 性或者說動態(tài)屬性;③基于詞和詞屬性的規(guī)則庫,描述詞的組合規(guī)律,說 明如何由組合關(guān)系排歧,如何從詞和詞的各自屬性獲得組合之后構(gòu)成的復(fù) 合結(jié)構(gòu)的屬性。 **種知識主要靠人為獲取和加工。第二種知識也是靠人為取得,但 計算機可以輔助人做許多工作,比如人標注較小的語料庫,計算機“學(xué)習(xí)” 后標注較大的語料庫,人再校對修改。第三種知識有相當一部分可以讓計 算機從語料庫中自動獲取。計算機從語料庫中獲取的知識中有相當一部分 是人無法直接通過規(guī)則傳遞給計算機的,因為這些知識太微細且數(shù)量龐大, 超出了人的歸納能力。但是,也有一些知識是計算機難以從語料庫中自動 獲取的,因為它們太宏觀,超出了計算機的歸納能力。 在語言工程中,比較自然的方法是首先對詞例進行屬性標注,以此為 基礎(chǔ)再進行后續(xù)的分析理解。這樣分階段地處理可以降低處理難度,但也 帶來一個重要問題,即如果詞例的屬性標注體系不當或者標注不準確,就 會對后面的工作帶來重大影響。顯然標注體系帶來的影響是根本性的,即 使標注體系合理有效,標注精度不夠高也會非常麻煩。假如詞例標注正確 率為95%,即平均每20個詞錯標1個,又假定平均句長是10個詞,于是 平均每兩句又有一句發(fā)生詞例標注錯誤,這一句在后續(xù)的處理中很難再被 處理正確,從而以句子為單位的整體處理正確率*高不會超過50%。這就 是從語言工程的角度要對詞的屬性體系和詞性標注給予重點關(guān)注的原因。 此外,從語言資源建設(shè)的角度看,當前我們國家和一些相關(guān)機構(gòu)都在 大規(guī)模地開展語料庫的加工和建設(shè),而通常語料庫建設(shè)的一個重要內(nèi)容就 是進行詞性標注,因此投入大量的人力、物力、財力對大規(guī)模語料標注詞 性。這樣的工作在語料庫建設(shè)初期是有意義的,因為通過標注實踐能夠更 好地幫助認識漢語詞類問題的特點,為更深入地研究提供較為豐富的研究 資源,但當這樣的工作進行到一定階段,達到一定規(guī)模的時候,需要暫停 一下,客觀地從漢語自身實際來考察漢語的詞類體系和詞性標注問題,回 答漢語在詞類問題上有什么獨*之處、如何看待漢語的這些特點、漢語是 否能夠和需要像英語等形態(tài)豐富的語言那樣標注詞性等問題。通過這些理 論層面的思考來更好地把握漢語詞的特點,開展適合漢語特點、滿足漢語 語言信息處理需求的語言加工工作,更好地指導(dǎo)漢語語言資源建設(shè)工作, 避免資源浪費。 在詞一級的語言處理工作中,除了建立較為科學(xué)合理的詞的屬性體系 外,另外一項重要工作就是要實現(xiàn)詞的屬性自動標注,開展標注模型和標 注算法的研究。模型和算法研究是語言工程區(qū)別于語言本體研究的重要方 面,使得語言工程不僅要關(guān)注典型詞的屬性特征,還要關(guān)心非典型詞的屬 性特征,不僅要在理論上能夠自圓其說,還要在實踐中得到落實和檢驗。 詞語屬性的標注工作在工程實踐上一般有兩個步驟:**步是要以一 定的標注理論為指導(dǎo),制定較為明確合理的標注規(guī)范,以機器為輔助,人 工實現(xiàn)對較大規(guī)模語料的標注加工工作;第二步是以標注語料作為訓(xùn)練語 料,開發(fā)或應(yīng)用某種適合的機器學(xué)習(xí)方法,訓(xùn)練出擬合效果較好的標注模 型,形成自動標注工具,高效率、高準確性地完成自動標注任務(wù)。在這項 工作中,語言規(guī)律研究與語言任務(wù)二者有機地結(jié)合成一體,互相影響,互 相促進。 基于以上考慮,本書選擇了漢語的詞類體系和詞性自動標注作為研究 對象,希望能夠在較大規(guī)模的調(diào)查分析基礎(chǔ)上對漢語詞類問題有一個更加 深入的認識,同時也希望能夠通過自動標注的實踐促進對漢語詞類本質(zhì)的 認識,而對漢語詞類本質(zhì)的深入探究也會促進自動標注模型和算法的改進, 提高標注模型的標注效率和準確性。 1.2 研究目標與內(nèi)容 1.2.1 研究目標 以漢語語言事實為依據(jù),利用已有的研究成果,較為全面深入地調(diào)查 漢語詞類的理論體系和標注實踐,并將漢語與英語詞類問題進行對比分析, 從不同的語言視角尋找漢語自身的特點,從而希望能夠?qū)h語的詞類問題 有一個較為客觀深入的分析,回答漢語詞類體系存在哪些問題、問題的原 因是什么、漢語詞類的本質(zhì)特點是什么、是否應(yīng)該在大規(guī)模的語料上標注 詞性等問題,進而提出漢語詞的屬性描寫方法及分類原則,為漢語語言資 源加工提供建議,提高漢語語言資源的建設(shè)質(zhì)量。 在語言調(diào)查及模型分析的基礎(chǔ)上,提出高效準確的標注模型,即基于 狀態(tài)和觀察雙重搭接約束的COV模型(Context Overlapping),利用該模型 完成特定的語言處理任務(wù),并將其與其他模型,如HMM模型(Hidden Markov Model)、*大熵模型、CRF 模型(Conditional Random Field) 等進行對比,分析COV模型的優(yōu)點與不足,利用標注模型初步實現(xiàn)語 義側(cè)面排歧的任務(wù)。 1.2.2 研究內(nèi)容 1)漢語詞類屬性及詞性標注調(diào)查 以《語法信息詞典》為基礎(chǔ),調(diào)查分析漢語詞的詞類屬性及其分布情 況;以2000年《人民日報》標注語料為基礎(chǔ),調(diào)查分析在大規(guī)模真實語料 中漢語詞性標注的總體情況,并以兼類詞為主要對象,調(diào)查漢語詞性標注 中出現(xiàn)的主要問題。 2)漢語詞類問題的總結(jié)分析 總結(jié)漢語詞的特點并分析這些特點與漢語詞類問題之間的關(guān)系;對英 語與漢語的詞類問題進行對比分析;提出解決漢語詞類問題的對策和方向, 指出漢語語言資源詞語層面加工的內(nèi)容和原則。 3)標注模型研究 改進HMM模型,構(gòu)建語境相關(guān)的COV模型,設(shè)計并實現(xiàn)基于COV 模型的符號解碼與數(shù)值解碼算法;利用COV模型完成英漢語詞性自動標 注任務(wù),并與其他統(tǒng)計模型進行比較分析;使用COV模型實現(xiàn)漢語語義 側(cè)面的自動排歧。 1.3 本書結(jié)構(gòu) 本書**部分首先從語言學(xué)理論研究和語言工程實踐兩個角度對有關(guān) 詞類的研究進行概述,進而對漢語詞類問題予以介紹,指出漢語詞類問題 的復(fù)雜性,及其在語言信息處理研究中的重要地位與作用,提出本書的主 要研究思路、方法和目標。第二部分著重進行現(xiàn)有漢語詞類體系和標注語 料的調(diào)查,在調(diào)查基礎(chǔ)上,對現(xiàn)有漢語詞類體系進行描述和分析,并總結(jié) 漢語詞的特點及其與詞類研究的關(guān)系,此外還通過英漢語之間的詞類對比 分析,進一步明確漢語詞類的主要特點,進而為漢語語言資源加工提供有 針對性的建議和對策,該部分還從語義側(cè)面描寫的角度初步給出漢語實詞 兼類詞的描寫框架和方法。第三部分重點論述COV模型,分析該模型的 主要原理與算法,利用該模型進行詞性標注實驗,并與其他模型的標注性 能進行比較,說明COV模型的主要優(yōu)點與不足,以及詞性體系對于詞性 標注的影響,并提出改進方法與方向。*后一部分對全書工作進行了總結(jié), 提出漢語詞類體系與詞性標注未來需要開展的主要工作。 第2章 詞類研究概述 2.1 國際上詞類研究概述 詞類是語言學(xué)研究的重點,國際上有關(guān)詞類的理論研究主要是從跨語 言的視角考察人類語言中是否普遍存在同一個詞類體系,如果存在這樣的 體系,那么如何給出對各種語言都普遍適用的詞類定義。跨語言的詞類理 論雖然是語言學(xué)家非常關(guān)心的研究對象,但并非本書的主要研究方向,因 此本節(jié)只是擇要對其介紹,目的是擴展研究視野,以期為漢語自身的詞類 研究提供一個更宏觀的背景。 “詞類” (Word Class或Parts of Speech)作為語法范疇*早起源 于希臘語的語法研究,Dionysios Thrax就已經(jīng)在其Art of Grammar 一書 中提出按照語義及形態(tài)等標準將詞劃分為8大類,分別是:名詞、動詞、 代詞、介詞、副詞、連接詞、分詞和冠詞(Bisang,2008)。盡管更早的 學(xué)者(如Aristotle和Stoics)也各自提出了詞的分類體系,但Thrax的 8種詞類劃分體系成為其后兩千年來希臘語、拉丁語和大多數(shù)歐洲語言 詞類描寫基礎(chǔ),甚至在歐洲之外的其他語言的詞類研究中也基本采用了 Thrax的詞類框架,只不過不同語言在具體的詞類數(shù)目和劃分標準上有 所差異而已(Manning & Schutze, 1999)。 研究者對于詞類的理論研究主要集中在兩個問題上:①是否存在跨語 言的詞類,即在不同的語言中是否存在有同一套詞類體系;②如果存在這 樣的詞類體系,如何對各個詞類定義,使其能夠具有普適性。 根據(jù)Bisang (2008)的總結(jié),不同的語言學(xué)家對于同一種語言中是否 存在名詞與動詞的區(qū)分有不同意見,例如,S
- >
小考拉的故事-套裝共3冊
- >
有舍有得是人生
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
- >
月亮虎
- >
羅庸西南聯(lián)大授課錄
- >
人文閱讀與收藏·良友文學(xué)叢書:一天的工作
- >
朝聞道
- >
名家?guī)阕x魯迅:朝花夕拾