-
>
全國計算機等級考試最新真考題庫模擬考場及詳解·二級MSOffice高級應用
-
>
決戰行測5000題(言語理解與表達)
-
>
軟件性能測試.分析與調優實踐之路
-
>
第一行代碼Android
-
>
JAVA持續交付
-
>
EXCEL最強教科書(完全版)(全彩印刷)
-
>
深度學習
終端智能語音處理技術與應用 版權信息
- ISBN:9787121498060
- 條形碼:9787121498060 ; 978-7-121-49806-0
- 裝幀:平裝-膠訂
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
終端智能語音處理技術與應用 本書特色
在AI大模型爆發的今天,語音交互已成為智能設備的核心入口。然而,依賴云端計算的語音處理存在延遲、隱私和成本問題,終端智能語音處理技術才是未來!
《終端智能語音處理技術與應用》是業內頭部專家集20余年研究、工程實踐經驗的典范之作,系統闡述了終端智能語音處理的全棧技術,從基礎理論到工程實踐,幫助讀者掌握降噪、波束成形、盲源分離、回聲消除、模型量化等核心技術,打造高性能、低延遲的語音交互系統。
為什么選擇本書?
? 大模型時代剛需:云端大模型雖強,但端側語音處理才是實時交互的關鍵。本書教你如何優化終端語音技術,與云端AI無縫協同。
? 理論 工程全覆蓋:不僅深入講解算法原理(如STFT、MVDR、IVA),還提供完整工具包和訓練技巧,直接應用于產品開發。
? 解決實際痛點:針對噪聲、混響、多說話人場景,提供可落地的解決方案,提升語音識別和喚醒性能。
? 模型量化與優化:專章講解無數據量化技術,讓深度學習模型在資源受限的終端設備上高效運行。
? 工業級工具包:附贈完整配置參數和示例代碼,大幅降低開發門檻,加速項目落地。
終端智能語音處理技術與應用 內容簡介
語音是*有效的人機交互方式之一。人工智能與傳統語音技術相結合使其在家居、可穿戴、機器人、車載等智能終端設備上得到了普及。終端設備具有低資源、實時性、應用場景復雜多變等特點,對算法提出了更嚴格的要求。本書介紹了面向端側設備的若干智能語音處理技術,書中主要采用了傳統信號處理與深度學習相結合的方法論,并且介紹了在實際工程應用中的若干心得,適合于理工科高年級本科生、研究生,以及語音領域的工程師閱讀。
終端智能語音處理技術與應用終端智能語音處理技術與應用 前言
語音是人與人之間*為自然的交互方式,因而也是*有效的人機交互方式之一。自2014 年開始,以Amazon Echo、Google Home、小米音箱、天貓精靈等智能音箱為代表的硬件終端引發了語音應用的熱潮,智能語音產品和應用呈爆發式增長。如今,語音功能幾乎成為智能產品的標配。越來越多的科學家和工程師投身于語音行業,致力于為人們提供更加自然、便捷的人機交互體驗。
完整的語音技術鏈路極為復雜冗長,其中涉及終端、云端、信號、傳輸、語義、多模態融合等多種算法和工程技術。作者作為從事語音技術的眾多工程師中的一員,主要研究內容涉及面向各種智能家電、可穿戴設備、智能座艙、機器人等終端設備上的語音處理問題。對于終端語音處理而言,首先要解決的便是克服設備回聲、噪聲干擾、房間混響等不利聲學因素對目標語音造成的影響,提升目標語音的信噪比和可懂度,為后續處理流程提供質量更高的信號。除此之外,與云端算法相比,算力、功耗等硬件條件的限制,以及數據處理的實時性要求始終是終端算法必須考慮的問題。另外,不同終端設備的使用場景各異,所面臨的問題也不盡相同,所以場景的復雜化和碎片化也是終端語音處理的痛點所在。
終端智能語音處理技術與應用 目錄
1 終端智能語音處理概述 1
1.1 引言1
1.2 問題和挑戰 3
1.3 發展歷史概要5
1.4 本書的組織結構8
1.5 本書的適用人群10
1.6 常用表示和符號對照10
1.6.1 默認符號 10
1.6.2 對離散時間序列的表示 11
1.6.3 關于索引序號從0 還是1 開始的說明 12
1.7 關于中英文混寫的說明13
1.8 免責聲明 14
1.9 本章小結 14
—理論篇—
2 子帶濾波 21
2.1 離散傅里葉變換與短時傅里葉變換 22
2.1.1 離散傅里葉變換 22
2.1.2 短時傅里葉變換 23
2.1.3 輸出延時26
2.1.4 頻譜泄漏 27
2.1.5 時域卷積與頻域點積的近似關系 30
2.2 多相濾波器組 32
2.2.1 對頻譜泄漏的數學解釋32
2.2.2 扇形損失 34
2.2.3 重采樣35
2.2.4 多相濾波器組 40
2.3 濾波器設計基礎 43
2.4 本章小結45
3 固定波束形成47
3.1 多通道語音增強的基本原理 48
3.1.1 物理解釋 48
3.1.2 幾何解釋50
3.2 遠場模型 52
3.3 波束形成及陣列性能評價 56
3.3.1 beampattern 56
3.3.2 directivity index 60
3.3.3 white noise gain 63
3.3.4 effective rank 65
3.4 波束形成算法的求解形式67
3.4.1 superdirective beamforming 68
3.4.2 差分波束形成69
3.5 本章小結72
4 自適應波束形成 74
4.1 遞推求平均 75
4.2 典型自適應波束形成算法77
4.2.1 MVDR 算法 78
4.2.2 PMWF 算法82
4.3 共軛對稱矩陣求逆 83
4.3.1 1 × 1 和2 × 2 矩陣求逆84
4.3.2 Cholesky 分解84
4.3.3 矩陣求逆引理 87
4.3.4 IQRD 方法 89
4.3.5 誤差與穩定性90
4.4 本章小結 93
5 盲源分離 96
5.1 信號模型97
5.1.1 瞬時模型 97
5.1.2 卷積模型 98
5.2 獨立成分分析 100
5.2.1 獨立性假設與中心極限定理 101
5.2.2 ICA 的目標函數103
5.2.3 AuxICA 算法 107
5.2.4 2 × 2 廣義特征分解問題 112
5.2.5 排列歧義性與尺度歧義性 114
5.3 獨立向量分析 117
5.3.1 IVA 的目標函數 118
5.3.2 AuxIVA 算法121
5.3.3 兩級架構 125
5.4 盲源分離與波束形成的聯系和區別 130
5.5 本章小結 132
6 回聲消除與去混響136
6.1 信號模型 138
6.1.1 回聲消除信號模型 138
6.1.2 去混響信號模型140
6.2 LMS 與NLMS 算法143
6.3 RLS 算法 145
6.3.1 *小二乘法 146
6.3.2 RLS 算法 151
6.4 一種基于盲源分離的回聲消除方法155
6.4.1 問題背景 155
6.4.2 算法推導157
6.4.3 對比實驗 160
6.5 本章小結 162
7 數據模擬 164
7.1 信號模型和系統框架 165
7.2 傳函的模擬與測量167
7.2.1 鏡像法傳函模擬 167
7.2.2 傳函測量 174
7.2.3 分塊卷積176
7.3 非線性回聲模擬 178
7.4 散射噪聲模擬 180
7.5 信噪比和音量 186
7.6 本章小結187
8 深度語音增強 190
8.1 信號模型 192
8.2 時頻掩蔽 193
8.3 損失函數 196
8.4 深度回聲殘余抑制 197
8.4.1 數據準備 198
8.4.2 輸入特征 198
8.4.3 模型結構 199
8.5 多通道語音增強模型 200
8.5.1 基于掩蔽的波束形成算法 201
8.5.2 深度神經網絡空域濾波算法 202
8.6 歌曲成分分離 203
8.7 本章小結 205
9 語音活動性檢測208
9.1 HMMVAD209
9.1.1 HMM 基礎210
9.1.2 前向算法與后向算法 213
9.1.3 Viterbi 算法 216
9.1.4 Baum-Welch 算法 219
9.1.5 下溢問題 220
9.1.6 在線HMMVAD222
9.2 NNVAD 225
9.2.1 一種NNVAD 模型 226
9.2.2 一種NN 和HMM 結合的VAD229
9.3 VAD 性能評價 230
9.4 本章小結 232
10 關鍵詞檢測 234
10.1 特征提取 235
10.2 聲學模型 237
10.2.1 建模單元 237
10.2.2 聲學模型 239
10.2.3 關于聲學模型工作原理的討論242
10.3 解碼器 247
10.3.1 閾值與動態閾值 249
10.3.2 關于ROC 曲線與閾值選擇的討論 253
10.4 虛警問題 255
10.4.1 對虛警現象的直觀解釋 255
10.4.2 減少虛警的方法 256
10.4.3 對比實驗 258
10.5 多通道關鍵詞檢測與通道選擇 260
10.5.1 問題背景 260
10.5.2 模型與訓練方法 262
10.5.3 實驗與分析 263
10.6 本章小結 269
11 聯合優化方法 272
11.1 盲源分離統一框架273
11.1.1 信號模型 273
11.1.2 問題拆解 275
11.1.3 對比實驗 276
11.2 語音增強與關鍵詞檢測聯合優化 279
11.2.1 系統框架 280
11.2.2 語音增強模塊 282
11.2.3 關鍵詞檢測模塊 282
11.2.4 實驗現象 284
11.3 本章小結 285
12 模型量化 288
12.1 模型量化方法 288
12.1.1 訓練后量化 288
12.1.2 訓練時量化 290
12.1.3 無數據量化 291
12.2 關鍵詞檢測模型的無數據量化方法 292
12.2.1 時序數據生成器 293
12.2.2 中心距離約束與雙生成器 293
12.2.3 高質量篩選 295
12.2.4 時間掩碼量化蒸餾 296
12.2.5 無數據量化流程 297
12.2.6 無數據量化實驗 299
12.3 本章小結 303
—工程篇—
13 終端智能語音處理工具包307
13.1 系統框架 308
13.2 配置參數詳解 310
13.2.1 通用參數 310
13.2.2 回聲消除 313
13.2.3 去混響 314
13.2.4 多通道語音增強 314
13.2.5 深度語音增強 315
13.2.6 后濾波 316
13.2.7 自動增益控制 316
13.2.8 音量計算 317
13.2.9 聲源定位 317
13.2.10 語音活動性檢測 318
13.2.11 關鍵詞檢測319
13.2.12 命令詞檢測321
13.2.13 產線測試,模型訓練321
13.3 主要離線工具示例322
13.3.1 SoundConnect 離線工具 322
13.3.2 批處理工具 322
13.4 示例程序 323
13.4.1 從配置文件初始化 323
13.4.2 從Params.c 文件初始化 324
13.5 本章小結 326
14 模型訓練 327
14.1 數據準備 328
14.1.1 正樣本數據 329
14.1.2 負樣本和噪聲數據 332
14.2 環境配置 333
14.2.1 傳函模擬 335
14.2.2 目標語音模擬 336
14.2.3 干擾信號模擬 338
14.2.4 回聲模擬 339
14.2.5 噪聲模擬 339
14.2.6 音量和增益 340
14.2.7 生成模擬音頻 340
14.3 模型訓練 342
14.3.1 訓練環境 342
14.3.2 訓練流程 343
14.3.3 模型訓練技巧總結 345
14.4 模型測試 348
14.4.1 測試環境 348
14.4.2 評價指標 349
14.4.3 測試集的錄制與準備 350
14.4.4 測試流程 352
14.5 模型發布 355
14.6 本章小結 356
附錄A 358
A.1 復數求偏導和共軛偏導 358
A.2 共軛求導示例 359
A.2.1 向量求導 359
A.2.2 二次型求導 360
終端智能語音處理技術與應用 相關資料
《終端智能語音處理技術與應用》是一本融合語音處理理論、方法與實踐經的專著,書中介紹的許多方法,無論是基于經典信號處理和統計理論的技術,還是基于深度學習的算法,都在實際系統中得到了廣泛應用。相信讀者,特別是從事相關理論與方法研究的學生,以及從事技術與產品研發的工程師,必定能夠從中獲得寶貴的啟發與收獲。——陳景東 西北工業大學教授,IEEE Fellow 端側復雜聲學場景的語音處理是物聯網智能硬件時代的關鍵技術,本書不僅全面系統地介紹了端側語音處理的經典和前沿算法,也介紹了以工具包為代表的實戰知識,對研究者和從業者都有很好的參考價值。——俞凱 上海交通大學計算機系特聘教授,思必馳聯合創始人、首席科學家 本書是理論和實踐密切結合的智能終端語音處理的典范之作,必將推動各類智能設備的應用和普及。
終端智能語音處理技術與應用 作者簡介
納躍躍,博士,畢業于北京交通大學計算機科學與技術專業,2014年在中國科學院聲學研究所語言聲學與內容理解重點實驗室完成博士后工作。目前就職于吉利汽車研究院,主要研究和工作方向包括數字信號處理、機器學習、面向智能終端的語音交互等。王子騰,高級工程師,中國科學院聲學研究所獲信號與信息處理專業博士學位,曾任職阿里巴巴達摩院語音實驗室,現就職于北京歐珀通信有限公司。付強博士,研究員,之江實驗室高級研究專家。博士畢業于西安電子科技大學,美國OGI口語中心、愛爾蘭Limeirck大學博士后。曾任阿里巴巴達摩院研究員(P10),中科院聲學所研究員,并曾創辦北京先聲互聯科技有限公司,后被阿里巴巴全資收購。長期從事語音處理\機器聽覺研究和應用,是國內聲學前端處理領域的開拓者,具有豐富的從學術研究到產品量產的產學研一體化經驗。
- >
有舍有得是人生
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
史學評論
- >
苦雨齋序跋文-周作人自編集
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
月亮與六便士
- >
二體千字文
- >
中國人在烏蘇里邊疆區:歷史與人類學概述