-
>
四千年農夫 中國、朝鮮和日本的永續農業
-
>
(精)中華古樹名木(全2冊)
-
>
線辣椒優質高產栽培
-
>
生命的藝術:動物解剖學的神秘歷史之旅
-
>
正確使用農藥知識問答
-
>
龍眼譜:外二種
-
>
迷你花園:打造你的玻璃生態瓶
語音識別及其在農業信息采集中的應用 版權信息
- ISBN:9787511636560
- 條形碼:9787511636560 ; 978-7-5116-3656-0
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>
語音識別及其在農業信息采集中的應用 內容簡介
本文主要研究農產品市場信息采集作業環境中的語音識別噪聲魯棒性問題, 針對當前缺乏面向農產品市場信息采集領域的語音識別引擎, 而通用領域的識別算法又不適合解決上述問題, 分析環境的噪聲特點, 面向非特定人和中小規模詞匯量的連續漢語普通話識別, 訓練聲學模型, 研究適用于該環境下的語音識別魯棒性方法。
語音識別及其在農業信息采集中的應用 目錄
**章引言()
**節問題的提出及研究意義()
第二節語音識別概述()
一、語音識別的發展()
二、語音識別的分類()
三、基于統計模型的語音識別()
第三節影響語音識別魯棒性的因素()
第四節語音識別及聲學技術在農業領域的應用()
一、國外研究情況()
二、國內研究情況()
第五節研究內容()
第六節章節安排()
第二章噪聲魯棒性語音識別的研究現狀()
**節噪聲分類()
一、加性噪聲與乘性噪聲()
二、噪聲特性分析()
第二節噪聲魯棒性方法研究現狀()
一、語音增強()
二、魯棒性特征提取()
三、模型補償()
第三章基于HMM框架的農產品價格語音識別()
**節HMM模型()
一、HMM的概述()
二、HMM的數學定義()
三、HMM的三個基本問題()
第二節基于HTK的實驗平臺構建()
一、語音數據庫()
二、MFCC特征提取()
三、聲學模型的設置()
四、識別性能的評價標準()
第四章系統的三音子模型優化及特征規整()
**節擴展的聲韻母建模基元()
一、漢語語音學特點()
二、漢語聲母結構()
三、漢語韻母結構()
四、擴展的聲韻母識別基元定義()
第二節基于決策樹的狀態共享()
一、決策樹的構造()
二、二值問題集的設計()
三、結點分裂準則()
四、結點停止分裂()
五、結點合并()
第三節增加高斯混合分量()
第四節倒譜特征歸一化()
第五節實驗及分析()
一、三音子模型識別實驗()
二、決策樹狀態聚類()
三、高斯混合分量增加()
四、倒譜均值方差(CMVN)歸一化()
第五章聯合譜減增強和失真補償的魯棒性方法()
**節譜減法()
一、譜減的基本原理()
二、使用過減(over subtraction)技術的譜減算法()
第二節多帶(multi band)譜減法()
第三節MMSE譜減算法()
第四節實驗()
一、MMSE譜減法參數優化實驗()
二、不同環境下聯合算法實驗()
第六章基于統計模型的前端增強與失真補償的結合()
**節MMSE幅度譜估計()
一、MMSE幅度估計器()
二、先驗SNR的估計()
第二節對數MMSE估計器()
第三節MMSE估計的實現()
第四節實驗()
一、采用MMSE估計器與logMMSE方法增強()
二、MMSE、logMMSE與CMVN聯合實驗()
三、實際環境語音測試()
第五節算法綜合比較()
第七章結論及展望()
**節研究總結()
第二節展望()
參考文獻()
語音識別及其在農業信息采集中的應用 節選
**章引言 **節問題的提出及研究意義 農產品市場信息是發展現代農業的重要信息來源,是農產品市場分析和預警的基礎數據,對保證我國農產品市場安全穩定有重要意義。農產品市場信息覆蓋范圍廣,包含的信息內容紛繁復雜,更有學者(許世衛等,2011)提出了農產品全息市場信息的概念。農產品市場信息有其必要屬性,如名稱、價格;也有次要屬性,如顏色、口味等,消費者所關心的農產品信息主要包括種類、購買地點、價格、產品質量、購買量等,但不同群體的關注程度有所差異。我國目前的農產品市場信息大多只包含名稱、價格、銷量、產地、等級等少部分信息。 針對農產品市場信息的重要性,國家相關部門和地方政府也紛紛建立了各種形式的農產品市場信息采集機制,信息的采集方式往往利用傳統的人工抄錄再二次錄入計算機、電話報價或郵件匯總等方式來完成,但此類信息采集方法重復勞動較多,效率不高,且時效性較差。為此,很多機構和科研人員紛紛提出了信息采集的方法,開發了各種便攜式的信息采集設備(李干瓊等,2013;邢振等,2011;趙春江等,2013)。這些方式有自身的優點和便捷之處,提高了工作效率,但在交互性方面尚有一定的問題。一般來說,便攜式設備的屏幕和按鍵都較小,而農產品市場信息采集的工作場所往往是在室外,容易受到強烈光線、雨霧冰雪、惡劣天氣、野外環境等條件的限制,給操作帶來了不便;另一方面,從人機交互的角度考慮,現有的信息采集設備主要依靠雙手和視覺的配合來完成操作,但對需要人工干預的情況下進行的信息采集,因其大部分是在生產過程、操作同時進行的,傳統的設備必然導致操作人員暫時中斷當前的工作轉而進行信息的采集,這樣就會導致勞動生產效率的降低。此外,傳統的信息采集設備因操作界面和提示信息的復雜等因素,對操作人員的知識水平和認知能力都具有較高的要求。 近年來,隨著語音識別(Speech Recognition)技術的迅速發展,基于語音交互界面的設備也在諸多行業開始應用。語音識別可以將語音轉換為文本的形式,進而進行各種形式的處理和應用。從人機交互的角度看,語音是便攜式設備的*佳人機交互方式(韓勇等,2004)。語音交互可以在用戶的眼睛和雙手同時操作其他設備的情況下使用,可以讓注意力分散到多項事務,如用戶在駕車時使用語音接聽電話、車載語音導航等。另外,語音界面接口還方便殘障人士的使用。例如,將語音輸入作為命令控制web瀏覽器(李明華等,2002;舒挺等,2003;俞一彪等,2002;張先鋒等,2002)和收發郵件程序(Marx,et al,1996)。Cornell大學的Raman(1994)設計了使用語音控制的科技文檔閱讀器和屏幕閱讀工具。語音是一種高效的交流媒體,相比其他交流手段更為自然,蘊含更為豐富的信息。語音交互非常適合在信息隨機呈現的并且要求用戶立即采取行動的任務中,如空軍座艙指令(王曉蘭等,2005;肖洪源等,2013);語音交互也適合在光線不佳、空間狹小、視覺傳達信息的通道收到限制的情況下使用。因此,對于小型的移動設備來講,將語音作為輸入輸出的設備是合適的,I/O可以縮減為麥克和聽筒。但也需要注意到,語音識別交互界面并非完全替代傳統視覺—手動的交互界面,而是互為補充發揮各自的所長,以用戶使用*方便、*自然為原則。因此,語音交互界面要符合用戶完成任務所希望采用的交互方式,并且在符合使用語音交互的環境下使用(韓勇等,2004)。語音交互界面下完成的任務往往是一些比較簡單的任務,其發展趨勢是面向某個領域范圍的中小規模詞匯量任務。 雖然語音界面的交互對移動終端設備非常適宜,但識別效果仍是問題的關鍵所在。經過幾十年的研究,語音識別有了長足的發展。在相對安靜的環境中,語音識別能取得非常好的識別結果。但在噪聲環境下,現有的面向非特定人的語音識別系統因受到噪聲的污染,其識別性能則會急劇下降,尤其是在低信噪比的情況下,識別性能更為糟糕。一方面,造成這種低識別率的原因是實際測試環境與訓練環境的不匹配,導致模型參數出現偏差。噪聲魯棒性語音識別的研究目標就是消除或盡量減少這種不匹配現象,提高識別性能。另一方面,農產品市場信息采集的作業環境非常復雜,如大型農產品批發市場、社區農貿市場、超市、農產品加工車間等,其所處的環境噪聲包括人群噪聲、汽車噪聲、工廠機器噪聲等,給語音識別帶了較大的影響。而目前缺乏專門的面向農產品市場信息采集領域的專用識別引擎,通用領域的語音識別系統往往是大詞匯量連續語音識別,模型存儲空間較大,計算速度較慢,不適合在移動設備上使用;且通用領域的識別引擎在農產品市場采集環境下,由于識別環境與訓練環境存在較大的差異,所提取的特征向量與訓練時的特征出現不匹配,性能往往表現不佳。因此,本書針對農產品市場信息采集環境的噪聲特點,面向非特定人的中小規模詞匯量的漢語普通話連續語音識別,研究適合農產品市場信息采集的魯棒性語音識別算法,改進現有的聲學模型,以期對農產品市場信息采集的方法有所貢獻。 第二節語音識別概述 語音識別就是讓機器聽懂人說的話,即在各種情況下,能準確地將語音信號轉換為文本符號,進而執行其他的處理。語音識別是一門交叉性的新興學科,涉及信號處理、聲學技術、概率統計理論、模式識別、人工智能、語音學知識、語言學等學科。 一、語音識別的發展 語音識別技術目前已經歷了半個世紀的發展。1952年貝爾實驗室提取語音元音段的共振峰信息,建立了**個面向特定人的孤立英文數字語音識別系統(Davis,et al,1952)。1959年,麻省理工大學林肯實驗室構建了一種能識別某種語境下的10個元音的非特定人識別器(Forgie,et al,1959)。 進入20世紀60年代,語音識別技術進入快速起步階段。日本學者板倉等人(Itakura,1970)提出了動態時間規整(Dynamic Time Warping,DTW)算法,較好的實現了語音信號在時間軸上的對準,并且給出連接詞識別的相應算法。同時,卡內基梅隆大學的Reddy開創性的用動態跟蹤音素方法進行連續語音識別(Reddy,1966),為今后CMU在連續語音識別方面保持世界領先搶得了先機。值得注意的是,美國國防部高級研究計劃署(ARPA)也開始設立了一些龐大的研究項目,開始資助各大學以及科研單位在語音識別方面的研究。 70年代,語音識別取得了進一步的突破。動態時間規整(DTW)和線性預測編碼技術(Linear Prediction Coding,LPC)(Makhoul,1975)逐漸成熟,研究人員將其成功地應用于孤立詞(字)的識別,有效地解決了語音信號的特征參數提取和語音信號時間不等長匹配問題。 80年代,語音識別由孤立詞轉向了連續語音識別,并出現了大量的算法。該時期明顯的特點是語音識別不再過多的依賴于簡單的模板匹配方法,而是逐漸過渡到統計建模框架,今天多數的語音識別系統都是建立在該框架上的,不再對語音特征的提取精益求精,而是從整體平均的角度來對語音信號進行建模。這一時期,隱馬爾科夫模型(Hidden Markov Model,HMM)理論和應用(Huang,et al,1990;Huang,et al,1989;Leggetter,et al,1995b;Rabiner,1989)得到廣泛介紹,大大推動了連續語音識別的發展,HMM成為語音識別的主流。較為成功的系統是CMU的Sphinx系統(Lee,et al,1990),該系統在環境匹配的情況下可以識別包括977個詞匯的4 200個連續句子,識別率達到958%。在語言模型方面,N元語法(Ngram)的出現使其成為大規模連續語音識別(LVCSR )中的重要組成部分。隨著神經網絡逐漸被深入認識,也被引入語音識別中用于模式分類。DARPA也在這一時期繼續對LVCSR支持,并推出了一系列的研究計劃。 90年代,語音識別的噪聲魯棒性問題逐漸受到重視,研究人員嘗試了很多算法,試圖來減少測試環境與訓練環境的不匹配問題,造成不匹配的原因主要包括環境噪聲、信道噪聲、說話人生理狀況、麥克風等。隨著HMM的深入研究,在模型細化、特征參數提取和自適應技術方面取得了一定的發展。主要包括模型自適應如*大似然線性回歸(Maximum Likelihood Linear Regression,MLLR)(Leggetter,et al,1995b),*大后驗概率(Maximum APosterior,MAP)(Gauvain,et al,1994)準則,并行模型聯合(Parrell Model Composition,PMC)(Gales,et al,1993a)等。用于模型參數綁定的決策樹狀態聚類算法進一步提升了系統的性能,并促進了實際語音識別系統的推出。如BBN的BYBLOS(Chow,et al,1987)系統,CMU的Sphinx系統(Lee,1989;Lee,et al,1988),SRI的DECIPHER系統(Weintraub,et al,1989)等。同時,眾多面向個人用戶的語音識別產品得到發展,如IBM公司的ViaVoice(Davies,et al,1999)、微軟的Whisper系統(Huang,et al,1995)等。英國劍橋大學(Cambridge University)的研究人員開發的HMM模型工具包(Hidden Markov Toolkit,HTK),將HMM模型的訓練、識別、自適應等各種算法集成為一個工具箱,該工具包因其使用方便、功能強大且開源使用,進一步促進對語音識別的研究。 進入21世紀以來,語音識別繼續向廣度和深度發展。音頻轉寫(Liu,et al,2005)、多語言語音和文本分析(Soltau,et al,2005)、口語式語音識別(Spontaneous Speech Recognition,SSR)等一些前沿而富有挑戰性的任務出現。另外,聲學模型訓練方面,區分性訓練技術(Macherey,et al,2005)得到進一步發展,出現了一些擺脫傳統HMM框架的聲學模型(HasegawaJohnson,et al,2005;Zweig,et al,1998)。基于語音識別的一些新應用,如多模態語音識別(Dupont,et al,2000)、語音搜索(Seide,et al,2004)等開始出現并受到關注。 我國的語音識別起步較晚,但發展速度較快,特別是在漢語語音識別方面取得了可喜的成就。國內中國科學院聲學研究所、清華大學、中國科學院自動化研究所、科大訊飛公司等研究機構對漢語語音識別投入了較多力量。國家863計劃智能計算機主題專門為語音識別立項,同時每1~2年舉行一次全國性的語音識別系統測試。為了在我國的語音識別市場占得先機,國外很多跨國公司和研究機構紛紛進入漢語語音識別領域,如先后有IBM的ViaVoice、微軟公司的SpeechSDK、Intel公司的Spark30等都開始支持漢語語音識別并且提供相關的API。 當前語音識別的研究趨勢是,不再單純關注大詞匯量連續語音識別的精度,而是從實際應用出發,積極探索機器對人類語音進行感知與理解的途徑和方法。從整個計算領域的發展趨勢看,近年的研究熱點之一是普適計算,計算模式和物理位置也從傳統的桌面方式逐漸向嵌入式處理為特征的無處不在的方式發展,典型的如移動計算。因此對語音處理而言,探討在典型的移動方式下的語音感知與理解機制,實現能根據用戶的語音內容及音頻場景,并借助其他輔助信息(如地理位置、時間)自主的感知和理解用戶的意圖及情感傾向,從而提供更智能化、人性化的人機交互手段,具有重要的理論意義和現實意義。 二、語音識別的分類 經過50多年的發展,語音識別已經在諸多領域有了相關的應用,如語音輸入法、語音檢索、語音命令控制等。語音識別系統根據應用范圍、用戶對象、性能要求等有不同的分類,按照語音對象分類有孤立詞識別、連接詞識別、連續語音識別等;按照識別詞匯的規模分為小詞匯量、中等詞匯量、大詞匯量;按照說話人的范圍來分,有特定人系統和非特定人系統。 語音識別所采用的方法也可以作為分類方法,語音識別所采用的方法一般有模板匹配法、隨機模型法和概率語法分析法三種。早期的語音識別系統都是按照模板匹配的原理來構造的,對每個要識別的詞先建立一個特征向量模板,識別時提取輸入語音的特征向量與每個模型比較,相似程度*高者為識別結果。為了解決語音信號的動態不固定性,板倉等人(1970)提出了著名的動態時間規整(Dynamic Time Warping,DTW)算法。但是該方法隨著識別詞規模的擴大就力不從心了,如大規模連續語音識別,因此必須尋求其他方法。隨機模型法是目前主流的語音識別方法,其典型代表就是隱馬爾科夫模型(Hidden Markov Model,HMM)。它有兩個隨機過程,語音信號可以看做一個隨機過程,它在較短的時間段內可以看做平穩信號,而總的過程可以看做從一個穩定時段過渡到下一個穩定時段。馬爾科夫鏈中的另一個隨機過程是狀態之間的轉移,從觀察值的角度看這個狀態轉移是隱含的。目前很多語音識別系統都是基于HMM模型框架的。概率語法分析法用于大長度范圍的連續語音識別,但由于需要大量的語義和語法知識約束,并形成規則引入到知識庫中,該方法并沒有得到廣泛發展和關注。 三、基于統計模型的語音識別 語音識別目前*主流的做法是基于統計概率模型的,其識別過程就可以利用貝葉斯理論,根據觀察值序列A選擇詞串W作為輸出,使得后驗概率P(W|A)*大。其基本原理如圖1-1所示。 圖1-1基于統計模型的語音識別框圖 Fig1-1Block diagram of speech recognition based on statistical models 在連續語音識別系統中,對給定的一段語音信號提取特征后,得到特征矢量序列為A=a1,a2,...,aT,該特征矢量序列可能對應的一個詞序列為W=w1,w2,...,wN,那么語音識別系統要完成的任務就是找到對應的觀察矢量序列A的那個*可能詞序列W^。這個過程根據貝葉斯準則,后驗概率可以通過條件概率P(A|W)以及先驗概率P(W)計算得到: W^=argmaxWPW/A=PA/WPWPA∝argmaxWPA/WPW (11) 其中,PW是獨立于語音特征矢量的語言模型概率,表示在自然語言中詞序列W出現的概率。語言模型可以幫助判斷詞序列是否合理,往往根據語法規則限制搜索空間,減小計算量。PA/W是觀察特性矢量序列A在W下的條件概率,表示在給定的詞序列W的前提下觀察矢量A的條件概率,即語音信號的聲學特征與詞序列W的匹配程度。P(A)與詞序列無關,是一個固定值。 第三節影響語音識別魯棒性的因素 當前的語音識別系統在實驗室環境下已取得了很好的識別效果,在訓練環境和測試環境基本相同的條件下,其性能令人滿意。對于非特定人的大詞匯量語音識別,其識別率達到90%以上,而對于小詞匯量的語音識別也可以達到95%左右。但這些系統的魯棒性并不是很好,當測試環境與訓練環境有差別時,或者在噪聲環境中進行識別時,其性能就會急劇下降。其原因是,在測試環境中提取的語音特征與訓練時不能很好的匹配,其識別性能就難以保證。如果語音識別系統在這種不匹配情況下,識別性能的下降不明顯,則稱這樣的系統為魯棒性(robustness)系統。魯棒性語音識別的任務,就是研究一些實用的補償技術以提高語音識別系統在環境變化時的性能。 雖然實驗室環境下的語音識別取得了較好的效果,但距離實際應用環境尚有一定的差距,并不能簡單直接的應用到實際中。很多因素(圖1-2)會影響語音識別的性能,如實際環境的背景聲音、傳輸線路的信道噪聲、說話人身體狀況和心理的變化,以及特定的應用領域發生變化等都會引起語音識別系統性能的改變,出現不穩定現象。 圖1-2影響魯棒性語音識別的因素 Fig1-2The main factors influencing the robustness of speech recognition 這些因素包括以下幾部分。 (1)說話人。從特定說話人到非特定說話人。 (2)說話方式。從孤立詞識別到連續語音識別。 (3)詞匯量。從中小規模詞匯到大規模詞匯量。 (4)應用領域。從某個特定業務領域詞匯到通用領域詞匯,包括特定文法到不特定文法。 (5)環境變化。從固定環境到一般性環境。 (6)發音變化。語者因生理、年齡、疾病、情緒的影響而產生發音變化。 語音識別系統的魯棒性問題受到研究人員的重視,雖然提出了各種噪聲魯棒性方法,但所做的研究大都有針對性的圍繞某一種或兩種影響因素進行展開,能夠系統的、帶有通用性的綜合方法少之又少,目前仍舊沒有統一的解決方案,因此應對不同任務和具體的應用環境,考慮采用不同的解決方法。
語音識別及其在農業信息采集中的應用 作者簡介
許金普,男,漢族,1979年生,山東博興人。1998年考入山東師范大學電教系,2002年畢業。同年7月,進入天津師范大學計算機與信息工程學院學習,2005年獲得理學碩士學位。2005年7月進入青島農業大學(原萊陽農學院)傳播學院,從事教學和科研工作,主要研究方向為農業信息技術、計算機網絡。
- >
名家帶你讀魯迅:朝花夕拾
- >
巴金-再思錄
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
經典常談
- >
山海經
- >
推拿
- >
人文閱讀與收藏·良友文學叢書:一天的工作
- >
羅曼·羅蘭讀書隨筆-精裝