中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
語音識別服務實戰

包郵 語音識別服務實戰

作者:楊學銳
出版社:電子工業出版社出版時間:2022-02-01
開本: 其他 頁數: 364
中 圖 價:¥62.4(4.9折) 定價  ¥128.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個別圖書品相8-9成新、切口
有劃線標記、光盤等附件不全詳細品相說明>>
本類五星書更多>

語音識別服務實戰 版權信息

  • ISBN:9787121425905
  • 條形碼:9787121425905 ; 978-7-121-42590-5
  • 裝幀:一般膠版紙
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

語音識別服務實戰 本書特色

語音識別算法到工程全鏈路覆蓋,從零構建高性能、可商用的語音服務《語音識別服務實戰》系統介紹語音交互流程中的語音前端處理、語音識別和說話人日志等算法原理,重點介紹如何基于WebRTC,Kaldi和gRPC,從零構建產業界穩定、高性能、可商用的語音服務,具有很強的實踐性。 近年來,隨著聲傳感、聲信號處理、模式識別、機器學習、云計算理論與方法的快速發展,以及不同場景下大規模帶標注語音數據的出現,語音識別技術再次經歷了跨越式發展,也逐漸被大規模推廣應用。本領域中介紹*新技術和應用的著作不少,但大多數主要專注于某些專題的方法和算法。相比而言,本書涵蓋的內容比較廣泛,既包括前端語音信號處理的基礎方法,如端點檢測、降噪、回聲消除、麥克風陣列和聲源測向/定位等,也包括語音識別、模型訓練、聲紋識別等后端處理技術。書中還介紹了前端和后端處理常用的基礎工具,并提供了大量應用的實例。相信讀者,尤其是工作在該領域一線的系統、產品與應用研發人員,一定能獲益匪淺。 陳景東 西北工業大學教授、博導、智能聲學與臨境通信中心主任,國家特聘專家,IEEE Fellow,“杰出青年科學基金”獲得者一套完整的語音識別系統需要采集設備、前端處理、后端模型前后打通、整體優化,才能達到理想的識別效果。本書作者從事語音算法研究多年,具有豐富的工業應用經驗,把項目實戰過程和Kaldi開源代碼完整詳細地總結到書中,技術人員可從中受益,搭建工業級的語音識別系統。 洪青陽 廈門大學副教授、天聰智能創始人 《語音識別服務實戰》是一本面向語音識別從業人員的參考書,既包括語音信號的基礎知識,也包括構造實用識別系統的全棧過程,內容完整豐富。特別是,該書以開源數據和開源代碼為基礎進行技術描述,具有很強的實操性,有利于打破知識壁壘,幫助更多青年、學生和非語音方向的工程師快速進入該領域,對行業的發展產生積極的促進作用。 王東清華大學 在過去的十多年中,語音識別技術的發展速度超出了很多人的想象。隨著神經網絡等技術帶來識別效果的突破,語音識別也從十多年前的一個小眾研究領域,發展到已經滲透在人們生活的方方面面,在交互、出行、通行等領域都扮演著不可或缺的角色。隨之而來的問題是語音識別領域相關資料的陳舊和匱乏,其中的經典圖書已經不能滿足大部分從業者、科研工作者和工業應用的需求。《Kaldi語音識別實戰》一書圍繞語音識別領域知名的開源工具包Kaldi,講述語音識別技術的*新進展,從某種程度上彌補了資料的不足。而《語音識別服務實戰》一書則跟進一步,從語音識別落地應用的視角切入,詳細闡述了如何用語音識別技術搭建相關的應用服務。 本書作者都具有豐富的語音識別技術落地應用經驗,深入淺出地講解了語音識別技術從原理到應用落地的全過程。本書是一本很好的語音識別技術落地的參考用書。 陳果果 《Kaldi語音識別實戰》作者云從科技在打造人機協同平臺的過程中,也基于Kaldi構建了眾多語音交互基礎算法,在很多項目中取得了非常好的效果,并落地在不同的實際應用場景。 本書作者長期工作在語音算法一線,具備豐富的實戰經驗。書中描述的絕大多數算法在商業語音服務平臺都有具體的應用。很高興看到作者能夠通過本書把他們在實踐中積累的寶貴經驗分享給廣大讀者,也希望本書能夠對推動語音技術的發展與落地起到顯著的作用。 劉瓊 云從集團首席科學家 人工智能的快速發展使得機器開始逐漸理解人類的語言。機器具備了接近人類的認知能力,這也讓我們人類在宇宙中增加了一個新的“伙伴”,從此人類不再孤獨。自然語言理解,尤其是語音識別,也在經歷著技術上的范式改變,從原來基于統計和規則,逐步轉變為依賴深度神經網絡技術。數據不僅被用來計算概率模型,而且更多地被用來訓練深度學習模型,尤其是近些年興起的基于自注意力結構的Transformer模型。在大數據、重計算和深模型的共同推動下,才有了語音識別技術質的飛躍,也支撐了智能客服、語音助理、智能家居等產業的繁榮發展。 《語音識別服務實戰》一書是新時代的產物,從實踐的角度,很好地闡述了語音識別領域正在發生的變化。 張家興 IDEA研究院講席科學家,認知計算與自然語言研究中心負責人

語音識別服務實戰 內容簡介

隨著語音算法技術的不斷發展與完善,如何進行工程落地成為語音商業應用中普遍面臨的問題。工程落地不僅要考慮模型效果,還要考慮資源占用、模塊聯調且整個架構要具有可靠性、可擴展性和可維護性。本書圍繞如何從零構建一個完整的語音識別系統,深入淺出地介紹了語音識別前端算法、語音識別算法及說話人日志算法原理;基于Kaldi的模型訓練;語音識別工程落地和服務搭建。本書適合作為語音技術研究人員及對語音技術感興趣的開發人員的參考用書。

語音識別服務實戰 目錄

目 錄


第1章 語音識別概述 1

1.1 語音識別發展歷程 2

1.2 語音識別產業與應用 6

1.2.1 消費級市場 7

1.2.2 企業級市場 8

1.3 常用語音處理工具 10

1.3.1 WebRTC 10

1.3.2 Kaldi 12

1.3.3 端到端語音識別工具包 14

第2章 語音信號基礎 16

2.1 語音信號的聲學基礎 17

2.1.1 語音產生機理 17

2.1.2 語音信號的產生模型 19

2.1.3 語音信號的感知 20

2.2 語音信號的數字化和時頻變換 22

2.2.1 語音信號的采樣、量化和編碼 22

2.2.2 語音信號的時頻變換 25

2.3 本章小結 31

第3章 語音前端算法 32

3.1 語音前端算法概述 33

3.2 VAD 35

3.2.1 基于門限判決的VAD 36

3.2.2 基于高斯混合模型的VAD 38

3.2.3 基于神經網絡的VAD 40

3.3 單通道降噪 43

3.3.1 譜減法 44

3.3.2 維納濾波法 46

3.3.3 音樂噪聲和參數譜減法 48

3.3.4 貝葉斯準則下的MMSE 51

3.3.5 噪聲估計 56

3.3.6 基于神經網絡的單通道降噪 61

3.4 回聲消除 65

3.4.1 回聲消除概述 66

3.4.2 線性自適應濾波 69

3.4.3 分塊頻域自適應濾波器 70

3.4.4 雙講檢測 72

3.4.5 延遲估計 75

3.4.6 殘留回聲消除 76

3.4.7 基于神經網絡的回聲消除 78

3.5 麥克風陣列與波束形成 79

3.5.1 麥克風陣列概述 80

3.5.2 延遲求和波束形成 86

3.5.3 *小方差無失真響應波束形成 89

3.5.4 廣義旁瓣對消波束形成 92

3.5.5 后置濾波 98

3.5.6 基于神經網絡的波束形成 101

3.6 聲源定位 103

3.6.1 GCC-PHAT 104

3.6.2 基于自適應濾波的聲源定位 105

3.6.3 SRP-PHAT 108

3.6.4 子空間聲源定位算法 108

3.6.5 基于神經網絡的聲源定位 111


3.7 其他未盡話題 111

3.8 本章小結 113

第4章 語音識別原理 114

4.1 特征提取 116

4.1.1 特征預處理 116

4.1.2 常見的語音特征 119

4.2 傳統聲學模型 124

4.2.1 聲學建模單元 124

4.2.2 GMM-HMM 126

4.2.3 強制對齊 131

4.3 DNN-HMM 131

4.3.1 語音識別中的神經網絡基礎 132

4.3.2 常見的神經網絡結構 137

4.4 語言模型 145

4.4.1 n-gram語言模型 145

4.4.2 語言模型的評價指標 148

4.4.3 神經語言模型 148

4.5 WFST解碼器 151

4.5.1 WFST原理 151

4.5.2 常見的WFST運算 152

4.5.3 語音識別中的WFST解碼器 155

4.5.4 令牌傳遞算法 157

4.5.5 Beam Search 159

4.6 序列區分性訓練 160

4.6.1 MMI和bMMI 161

4.6.2 MPE和sMBR 161

4.6.3 詞圖 161

4.6.4 LF-MMI 162

4.7 端到端語音識別 163

4.7.1 CTC 163

4.7.2 Seq2Seq 166

4.8 語音識別模型評估 169

4.9 本章小結 171

第5章 中文普通話模型訓練——以multi_cn為例 172

5.1 Kaldi安裝與環境配置 173

5.2 Kaldi中的數據格式與數據準備 174

5.3 語言模型訓練 178

5.4 發音詞典準備 180

5.5 特征提取 184

5.6 Kaldi中的Transition模型 186

5.7 預對齊模型訓練 187

5.7.1 單音素模型訓練 187

5.7.2 delta特征模型訓練 190

5.7.3 lda_mllt特征變換模型訓練 191

5.7.4 說話人自適應訓練 192

5.8 數據增強 193

5.8.1 數據清洗及重分割 194

5.8.2 速度增強和音量增強 194

5.8.3 SpecAugment 196

5.9 I-Vector訓練 197

5.9.1 對角UBM 197

5.9.2 I-Vector提取器 198

5.9.3 提取訓練數據的I-Vector 199

5.10 神經網絡訓練 199

5.10.1 Chain模型 200

5.10.2 Chain模型數據準備 202

5.10.3 神經網絡配置與訓練 203

5.11 解碼圖生成 209

5.12 本章小結 210

5.13 附錄 211

5.13.1 xconfig中的描述符及網絡配置表 211

5.13.2 Chain模型中的egs 215

5.13.3 Kaldi nnet3中迭代次數和學習率調整 217

第6章 基于Kaldi的說話人日志 219

6.1 說話人日志概述 220

6.1.1 什么是說話人日志 220

6.1.2 說話人日志技術 220

6.1.3 說話人日志評價指標 227

6.2 聲紋模型訓練——以CNCeleb為例 229

6.2.1 聲紋數據準備 230

6.2.2 I-Vector訓練 240

6.2.3 X-Vector訓練 243

6.2.4 LDA/PLDA后端模型訓練 248

6.2.5 說話人日志后端模型訓練 250

6.3 本章小結 253

第7章 基于Kaldi的語音SDK實現 254

7.1 語音特征提取 258

7.1.1 音頻讀取 258

7.1.2 音頻特征提取 261

7.2 基于WebRTC的語音活動檢測 268

7.3 說話人日志模塊 273

7.3.1 I-Vector提取 275

7.3.2 X-Vector提取 287

7.3.3 說話人日志算法實現 299

7.4 語音識別解碼 313

7.5 本章小結 324


第8章 基于gRPC的語音識別服務 325

8.1 gRPC語音服務 326

8.2 ProtoBuf協議定義 327

8.3 基于gRPC的語音服務實現 329

8.3.1 gRPC Server實現 330

8.3.2 gRPC Client實現 337

8.3.3 gRPC語音服務的編譯與測試 343

8.4 本章小結 346

參考文獻 347


展開全部

語音識別服務實戰 作者簡介

楊學銳 大疆創新語音交互算法負責人,復旦大學及Turku大學碩士,長期從事語音算法、深度學習、人工智能等領域的研究與商業落地,在相關領域發表多篇論文及專利。 晏超 北京郵電大學碩士,曾任職于HP Labs, Cisco, Technicolor等公司。現為云從科技語音算法負責人,從事語音識別、聲紋識別、說話人日志、語音合成等方向的算法研發工作,構建了云從科技整套語音算法引擎與應用服務平臺。 劉雪松 OPPO音頻算法專家,復旦大學碩士,曾任職于美國國家儀器、聲網、云從科技等公司。在信號處理、音頻算法和語音算法等領域有豐富的實戰經驗,在相關領域發表多篇論文及專利。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 专业的新乡振动筛厂家-振动筛品质保障-环保振动筛价格—新乡市德科筛分机械有限公司 | 环氧树脂地坪漆_济宁市新天地漆业有限公司 | 科普仪器菏泽市教育教学仪器总厂| 钢托盘,钢制托盘,立库钢托盘,金属托盘制造商_南京飞天金属制品实业有限公司 | 河南生物显微镜,全自动冰冻切片机-河南荣程联合科技有限公司 | 不锈钢轴流风机,不锈钢电机-许昌光维防爆电机有限公司(原许昌光维特种电机技术有限公司) | 奥因-光触媒除甲醛公司-除甲醛加盟公司十大品牌 | 楼梯定制_楼梯设计施工厂家_楼梯扶手安装制作-北京凌步楼梯 | 3dmax渲染-效果图渲染-影视动画渲染-北京快渲科技有限公司 | 滑板场地施工_极限运动场地设计_滑板公园建造_盐城天人极限运动场地建设有限公司 | 微型气象仪_气象传感器_防爆气象传感器-天合传感器大全 | 小型气象站_车载气象站_便携气象站-山东风途物联网 | 酒吧霸屏软件_酒吧霸屏系统,酒吧微上墙,夜场霸屏软件,酒吧点歌软件,酒吧互动游戏,酒吧大屏幕软件系统下载 | ALC墙板_ALC轻质隔墙板_隔音防火墙板_轻质隔墙材料-湖北博悦佳 | 全自动五线打端沾锡机,全自动裁线剥皮双头沾锡机,全自动尼龙扎带机-东莞市海文能机械设备有限公司 | 北京公寓出租网-北京酒店式公寓出租平台 | 厂房出售_厂房仓库出租_写字楼招租_土地出售-中苣招商网-中苣招商网 | 济南展厅设计施工_数字化展厅策划设计施工公司_山东锐尚文化传播有限公司 | 一体化污水处理设备_生活污水处理设备_全自动加药装置厂家-明基环保 | 碳纤维复合材料制品生产定制工厂订制厂家-凯夫拉凯芙拉碳纤维手机壳套-碳纤维雪茄盒外壳套-深圳市润大世纪新材料科技有限公司 | 小型手持气象站-空气负氧离子监测站-多要素微气象传感器-山东天合环境科技有限公司 | 撕碎机_轮胎破碎机_粉碎机_回收生产线厂家_东莞华达机械有限公司 | 智慧农业|农业物联网|现代农业物联网-托普云农物联网官方网站 | 裹包机|裹膜机|缠膜机|绕膜机-上海晏陵智能设备有限公司 | 薄壁轴承-等截面薄壁轴承生产厂家-洛阳薄壁精密轴承有限公司 | 招商帮-一站式网络营销服务|搜索营销推广|信息流推广|短视视频营销推广|互联网整合营销|网络推广代运营|招商帮企业招商好帮手 | 等离子表面处理机-等离子表面活化机-真空等离子清洗机-深圳市东信高科自动化设备有限公司 | 污水处理设备维修_污水处理工程改造_机械格栅_过滤设备_气浮设备_刮吸泥机_污泥浓缩罐_污水处理设备_污水处理工程-北京龙泉新禹科技有限公司 | 六自由度平台_六自由度运动平台_三自由度摇摆台—南京全控科技 | 工控机-图像采集卡-PoE网卡-人工智能-工业主板-深圳朗锐智科 | 蔡司三坐标-影像测量机-3D扫描仪-蔡司显微镜-扫描电镜-工业CT-ZEISS授权代理商三本工业测量 | 广州中央空调回收,二手中央空调回收,旧空调回收,制冷设备回收,冷气机组回收公司-广州益夫制冷设备回收公司 | 意大利Frascold/富士豪压缩机_富士豪半封闭压缩机_富士豪活塞压缩机_富士豪螺杆压缩机 | 东莞工作服_东莞工作服定制_工衣订做_东莞厂服 | 动力配电箱-不锈钢配电箱-高压开关柜-重庆宇轩机电设备有限公司 聚天冬氨酸,亚氨基二琥珀酸四钠,PASP,IDS - 远联化工 | 北京模型公司-军事模型-工业模型制作-北京百艺模型沙盘公司 | 塑胶跑道_学校塑胶跑道_塑胶球场_运动场材料厂家_中国塑胶跑道十大生产厂家_混合型塑胶跑道_透气型塑胶跑道-广东绿晨体育设施有限公司 | 淬火设备-钎焊机-熔炼炉-中频炉-锻造炉-感应加热电源-退火机-热处理设备-优造节能 | 仓储笼_金属箱租赁_循环包装_铁网箱_蝴蝶笼租赁_酷龙仓储笼租赁 测试治具|过炉治具|过锡炉治具|工装夹具|测试夹具|允睿自动化设备 | led全彩屏-室内|学校|展厅|p3|户外|会议室|圆柱|p2.5LED显示屏-LED显示屏价格-LED互动地砖屏_蕙宇屏科技 | 武汉高低温试验机-现货恒温恒湿试验箱-高低温湿热交变箱价格-湖北高天试验设备 |