目 錄
第1章 數字語音處理介紹 1
1.1 語音信號 2
1.2 語音堆 5
1.3 數字語音處理的應用 6
1.3.1 語音編碼 6
1.3.2 文語轉換合成 7
1.3.3 語音識別和其他模式匹配問題 7
1.3.4 其他語音應用 8
1.4 參考文獻評論 9
1.5 小結 10
第2章 數字信號處理基礎回顧 11
2.1 引言 11
2.2 離散時間信號與系統 11
2.3 信號與系統的變換表示 13
2.3.1 連續時間傅里葉變換 14
2.3.2 z變換 14
2.3.3 離散時間傅里葉變換 16
2.3.4 離散傅里葉變換 17
2.3.5 DTFT的采樣 18
2.3.6 DFT的性質 19
2.4 數字濾波器基礎 20
2.4.1 FIR系統 20
2.4.2 FIR濾波器設計方法 21
2.4.3 FIR濾波器實現 23
2.4.4 IIR系統 23
2.4.5 IIR濾波器設計方法 23
2.4.6 IIR系統的實現 24
2.4.7 關于FIR和IIR濾波器設計
方法的說明 27
2.5 采樣 27
2.5.1 采樣原理 27
2.5.2 語音和音頻波形的采樣率 28
2.5.3 改變采樣信號的采樣率 29
2.5.4 抽取 29
2.5.5 插值 32
2.5.6 非整數采樣率變化 33
2.5.7 FIR濾波器的優點 34
2.6 小結 34
習題 34
第3章 人類語音產生基礎 42
3.1 引言 42
3.2 語音產生過程 42
3.2.1 語音產生機理 42
3.2.2 語音特征與語音波形 46
3.2.3 語音生成的聲學理論 49
3.3 語音的短時傅里葉表示 50
3.4 聲音語音學 53
3.4.1 元音 55
3.4.2 雙元音 60
3.4.3 聲音的辨音特質 60
3.4.4 半元音 61
3.4.5 鼻音 62
3.4.6 清擦聲 64
3.4.7 濁擦音 65
3.4.8 濁塞音 67
3.4.9 清塞音 67
3.4.10 破擦聲和耳語音 69
3.5 美式英語音素的辨音特質 70
3.6 小結 70
習題 71
第4章 聽覺、聽感知模型和語音感知 80
4.1 引言 80
4.2 語言鏈 80
4.3 解剖學和耳的功能 82
4.3.1 基底膜機理 84
4.3.2 臨界頻帶 85
4.4 聲音的感知 85
4.4.1 聲音的強度 87
4.4.2 人的聽覺范圍 87
4.4.3 響度級 90
4.4.4 響度 91
4.4.5 音高 91
4.4.6 掩蔽效應――音調 92
4.4.7 掩蔽效應――噪聲 93
4.4.8 時域掩蔽效應 94
4.4.9 語音編碼中的掩蔽效應 95
4.4.10 參數鑒別――JND 95
4.5 聽感知模型 96
4.5.1 感知線性預測 96
4.5.2 Seneff聽感知模型 97
4.5.3 Lyon聽感知模型 99
4.5.4 整體區間直方圖方法 100
4.5.5 聽感知模型小結 101
4.6 人類語音感知實驗 101
4.6.1 噪聲中的聲音感知 102
4.6.2 噪聲中的語音感知 103
4.7 語音質量和可懂度測量 104
4.7.1 主觀測試 105
4.7.2 語音質量的客觀測量 106
4.8 小結 107
習題 107
第5章 聲道中的聲音傳輸 109
5.1 語音產生的聲學原理 109
5.1.1 聲音傳播 109
5.1.2 例子:均勻無損聲管 110
5.1.3 聲道中損耗的影響 114
5.1.4 嘴唇的輻射影響 117
5.1.5 元音的聲道傳輸函數 120
5.1.6 鼻腔耦合的影響 123
5.1.7 聲道中聲音的激勵 123
5.1.8 基于聲學理論的模型 127
5.2 無損聲管模型 128
5.2.1 級聯無損聲管中的波形傳播 128
5.2.2 邊界條件 130
5.2.3 與數字濾波器的關系 134
5.2.4 無損聲管模型的傳輸函數 137
5.3 采樣語音信號的數字模型 141
5.3.1 聲道建模 141
5.3.2 輻射模型 143
5.3.3 激勵模型 144
5.3.4 完整模型 144
5.4 小結 146
習題 146
第6章 語音信號處理的時域方法 153
6.1 引言 153
6.2 語音的短時分析 154
6.2.1 短時分析的通用框架 156
6.2.2 短時分析中的濾波和采樣 156
6.3 短時能量和短時幅度 159
6.3.1 基于短時能量的自動增益
控制 160
6.3.2 短時幅度 162
6.4 短時過零率 163
6.5 短時自相關函數 169
6.6 修正短時自相關函數 173
6.7 短時平均幅度差分函數 176
6.8 小結 177
習題 177
第7章 頻域表示 183
7.1 引言 183
7.2 離散時間傅里葉分析 184
7.3 短時傅里葉分析 186
7.3.1 DTFT解釋 187
7.3.2 DFT實現 188
7.3.3 加窗對分辨率的影響 188
7.3.4 關于短時自相關函數 193
7.3.5 線性濾波解釋 193
7.3.6 時域和頻域中 的
采樣率 197
7.4 頻譜顯示 199
7.5 合成的重疊相加法 206
7.5.1 精確重建的條件 206
7.5.2 合成窗的應用 211
7.6 合成的濾波器組求和方法 212
7.7 時間抽取濾波器組 217
7.7.1 通用FBS抽取系統 218
7.7.2 *大抽取濾波器組 221
7.8 雙通道濾波器組 222
7.8.1 正交鏡像濾波器組 223
7.8.2 QMF濾波器組的多相結構 225
7.8.3 共軛正交濾波器 225
7.8.4 樹形結構濾波器組 226
7.9 使用FFT實現FBS方法 228
7.9.1 FFT分析技術 228
7.9.2 FFT合成技術 230
7.10 OLA再論 232
7.11 修正的STFT 233
7.11.1 乘性修正 233
7.11.2 加性修正 236
7.11.3 時間標度修正:相位聲碼器 237
7.12 小結 242
習題 242
第8章 倒譜和同態語音處理 255
8.1 簡介 255
8.2 卷積同態系統 256
8.2.1 DTFT表示 257
8.2.2 z變換表示 260
8.2.3 復倒譜的性質 260
8.2.4 復倒譜分析實例 262
8.2.5 *小和*大相位信號 264
8.3 語音模型的同態分析 265
8.3.1 濁音模型的同態分析 266
8.3.2 清音模型的同態分析 271
8.4 計算語音的短時倒譜和復倒譜 273
8.4.1 基于離散傅里葉變換的計算 273
8.4.2 基于z變換的計算 276
8.4.3 *小相位和*大相位信號的
遞歸計算 278
8.5 自然語音的同態濾波 279
8.5.1 語音短時倒譜分析模型 280
8.5.2 使用多項式根的短時
分析實例 281
8.5.3 應用DFT的濁音分析 282
8.5.4 *小相位分析 286
8.5.5 應用DFT的清音分析 287
8.5.6 短時倒譜分析小結 289
8.6 全極點模型的倒譜分析 290
8.7 倒譜距離度量 291
8.7.1 線性濾波補償 292
8.7.2 加權倒譜距離度量 292
8.7.3 群時延頻譜 293
8.7.4 mel頻率倒譜系數 294
8.7.5 動態倒譜特征 296
8.8 小結 296
習題 296
第9章 語音信號的線性預測分析 301
9.1 引言 301
9.2 線性預測分析的基本原理 302
9.2.1 線性預測分析方程的基本
公式 304
9.2.2 自相關法 305
9.2.3 協方差法 307
9.2.4 小結 308
9.3 模型增益的計算 309
9.4 線性預測分析的頻域解釋 311
9.4.1 線性預測短時頻譜分析 311
9.4.2 均方預測誤差的頻域解釋 313
9.4.3 模型階數p的作用 316
9.4.4 線性預測語譜圖 318
9.4.5 與其他譜分析方法的對比 320
9.4.6 選擇性線性預測 321
9.5 LPC方程組的解 322
9.5.1 Cholesky分解 322
9.5.2 Levinson-Durbin算法 325
9.5.3 格型公式及其解 328
9.5.4 計算需求比較 334
9.6 預測誤差信號 335
9.6.1 歸一化均方誤差的其他
表示法 338
9.6.2 LPC參數值的實驗評估 339
9.6.3 歸一化誤差隨幀位置的變化 342
9.7 LPC多項式A(z)的一些性質 344
9.7.1 預測誤差濾波器的*小
相位性質 344
9.7.2 PARCOR系數和LPC多項式的
穩定性 344
9.7.3 *佳LP模型根的位置 345
9.8 線性預測分析與無損聲管模型的
關系 348
9.9 LP參數的替代表示 351
9.9.1 預測誤差多項式的根 351
9.9.2 全極點系統 的沖激響應 352
9.9.3 沖激響應的自相關 352
9.9.4 倒譜 352
9.9.5 預測器多項式的自相關系數 353
9.9.6 PARCOR系數 353
9.9.7 對數面積比系數 353
9.9.8 線性譜對參數 355
9.10 小結 357
習題 357
第10章 語音參數的估計算法 368
10.1 引言 368
10.2 中值平滑和語音處理 369
10.3 語音背景/靜音的鑒別 373
10.4 濁音/清音/靜音檢測的一種貝葉斯
方法 378
10.5 基音周期估計(基音檢測) 383
10.5.1 理想的基音周期估計 383
10.5.2 使用一種并行處理方法的
基音周期估計 386
10.5.3 自相關、周期性和中心削波 390
10.5.4 一種基于自相關的基音
估計器 395
10.5.5 頻域中的基音檢測 397
10.5.6 用于基音檢測的同態系統 399
10.5.7 使用線性預測參數的基音
檢測 403
10.6 共振峰估計 405
10.6.1 共振峰估計的同態系統 405
10.6.2 使用線性預測參數的共振峰
分析 410
10.9 小結 412
習題 412
第11章 語音信號數字編碼 424
11.1 引言 424
11.2 語音信號采樣 426
11.3 語音統計模型 427
11.3.1 自相關函數和功率譜 427
11.4 瞬時量化 433
11.4.1 均勻量化噪聲分析 435
11.4.2 瞬時壓擴(壓縮/擴展) 442
11.4.3 *優SNR量化 448
11.5 自適應量化 453
11.5.1 前饋自適應 454
11.5.2 反饋自適應 458
11.5.3 自適應量化的總體評價 461
11.6 語音模型參數的量化 461
11.6.1 語音模型的標量量化 462
11.6.2 向量量化 463
11.6.3 VQ實現的要素 466
11.7 差分量化的一般理論 470
11.8 ?調制 476
11.8.1 線性?調制 476
11.8.2 自適應?調制 479
11.8.3 ?調制中的高階預測器 481
11.8.4 LDM到PCM的轉換 482
11.8.5 Δ-Σ模數轉換 485
11.9 差分脈沖編碼調制 486
11.9.1 自適應量化DPCM 487
11.9.2 自適應預測DPCM 488
11.9.3 ADPCM系統的對比 491
11.10 ADPCM編碼器的改善 492
11.10.1 ADPCM編碼的基音預測 493
11.10.2 DPCM系統中的噪聲整形 495
11.10.3 完全量化的自適應預測
編碼器 498
11.11 綜合分析語音編碼 502
11.11.1 A-b-S語音編碼系統的
基本原理 504
11.11.2 多脈沖LPC 507
11.11.3 碼激勵線性預測(CELP) 509
11.11.4 比特率為4800bps的CELP
編碼器 514
11.11.5 低延時CELP(LD-CELP)
編碼 516
11.11.6 A-b-S語音編碼小結 517
11.12 開環語音編碼器 517
11.12.1 二態激勵模型 518
11.12.2 LPC聲碼器 519
11.12.3 殘差激勵LPC 521
11.12.4 混合激勵系統 522
11.13 語音編碼器的應用 522
11.13.1 語音編碼器的標準化 523
11.13.2 語音編碼器的質量評價 524
11.14 小結 526
習題 526
第12章 語音和音頻的頻域編碼 541
12.1 引言 541
12.2 歷史回顧 542
12.2.1 通道聲碼器 542
12.2.2 相位聲碼器 545
12.2.3 早期的STFT數字編碼
工作 546
12.3 子帶編碼 546
12.3.1 理想的2子帶編碼器 547
12.3.2 子帶編碼的量化器 552
12.3.3 子帶語音編碼器示例 552
12.4 自適應變換編碼 554
12.5 音頻編碼的感知模型 556
12.5.1 短時分析和合成 556
12.5.2 臨界帶理論回顧 557
12.5.3 聽閾 558
12.5.4 STFT的聲壓校正 559
12.5.5 掩蔽效應回顧 560
12.5.6 掩蔽音的識別 562
12.5.7 STFT的量化 564
12.6 MPEG-1音頻編碼標準 566
12.6.1 MPEG-1濾波器組 566
12.6.2 通道信號的量化 571
12.6.3 MPEG-1層II和層III 573
12.7 其他語音編碼標準 574
12.8 小結 574
習題 574
第13章 文語轉換合成方法 582
13.1 簡介 582
13.2 文本分析 582
13.2.1 文檔結構檢測 583
13.2.2 文本正則化 583
13.2.3 語義分析 584
13.2.4 語音學分析 584
13.2.5 多音詞消歧 585
13.2.6 字母-聲音轉換 585
13.2.7 韻律分析 586
13.2.8 韻律指定 586
13.3 語音合成方法的發展 587
13.4 早期的語音合成方法 588
13.4.1 聲碼器 588
13.4.2 終端模擬語音合成 590
13.4.3 發音器官語音合成方法 591
13.4.4 單詞拼接合成 593
13.5 單元選擇方法 595
13.5.1 拼接單元的選擇 595
13.5.2 自然語音中的單元選擇 597
13.5.3 從文本中進行在線單元選擇 597
13.5.4 單元選擇問題 597
13.5.5 轉移代價和單元代價 599
13.5.6 單元邊界平滑和修改 600
13.5.7 單元選擇方法的實驗結果 605
13.6 TTS的未來需求 605
13.7 可視化TTS 605
13.7.1 VTTS處理 606
13.8 小結 608
習題 608
第14章 自動語音識別和自然語言理解 610
14.1 引言 610
14.2 自動語音識別簡述 611
14.3 語音識別的整體過程 611
14.4 構建一個語音識別系統 612
14.4.1 識別任務 613
14.4.2 識別特征集 613
14.4.3 識別訓練 614
14.4.4 測試與性能評估 614
14.5 ASR中的決策過程 614
14.5.1 ASR問題的貝葉斯原理 615
14.5.2 Viterbi算法 618
14.5.3 步驟1:聲學建模 619
14.5.4 步驟2:語言模型 620
14.6 步驟3:搜索問題 623
14.7 簡單的ASR系統:孤立的數字識別 624
14.8 語音識別器的性能評估 625
14.9 口語理解 628
14.10 對話管理和口語生成 629
14.11 用戶界面 631
14.12 多模態用戶界面 631
14.13 小結 632
習題 632
附錄A 語音和音頻處理演示 637
附錄B 頻域微分方程求解 644
術語表 646