中图网(原中国图书网):网上书店,尾货特色书店,30万种特价书低至2折!

歡迎光臨中圖網 請 | 注冊
> >
Kaldi語音識別實戰

包郵 Kaldi語音識別實戰

作者:陳果果等
出版社:電子工業出版社出版時間:2020-04-01
開本: 24cm 頁數: 20,316頁
中 圖 價:¥43.7(4.9折) 定價  ¥89.0 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
溫馨提示:5折以下圖書主要為出版社尾貨,大部分為全新(有塑封/無塑封),個別圖書品相8-9成新、切口
有劃線標記、光盤等附件不全詳細品相說明>>
本類五星書更多>

Kaldi語音識別實戰 版權信息

  • ISBN:9787121378744
  • 條形碼:9787121378744 ; 978-7-121-37874-4
  • 裝幀:平裝-膠訂
  • 冊數:暫無
  • 重量:暫無
  • 所屬分類:>

Kaldi語音識別實戰 本書特色

Kaldi是目前語音識別領域,廣受歡迎并流行的開源工具包。Kaldi設計之初對通用性,可拓展性等一系列源代碼層次的考量,大大降低了Kaldi作為語音識別工具包的門檻, 同時擁有非常完整的語音識別系統訓練腳本。本書通過對Kaldi已有訓練腳本的梳理和引導,幫助讀者快速搭建可用的語音識別系統。

Kaldi語音識別實戰 內容簡介

本書通過對Kaldi已有訓練腳本的梳理和引導, 幫助讀者快速搭建可用的語音識別系統。主要內容包括: 語音識別技術基礎 ; 數據整理 ; 經典聲學建模技術 ; 構圖和解碼 ; 關鍵詞搜索與語音喚醒等。

Kaldi語音識別實戰 目錄

1 語音識別技術基礎1
1.1 語音識別極簡史1
1.1.1 語音識別早期探索2
1.1.2 概率模型一統江湖2
1.1.3 神經網絡異軍突起3
1.1.4 商業應用推波助瀾4
1.2 語音識別系統架構6
1.2.1 經典方法的直觀理解6
1.2.2 概率模型7
1.2.3 端到端語音識別10
1.3 一些其他細節11
1.3.1 語音信號處理11
1.3.2 發音和語言學12
1.3.3 語音識別系統的評價13
2 Kaldi概要介紹15
2.1 發展歷史15
2.1.1 名字的由來15
2.1.2 約翰霍普金斯大學夏季研討會16
2.1.3 Kaldi發展簡史17
2.2 設計思想18
2.2.1 初衷18
2.2.2 開源19
2.2.3 訓練腳本19
2.3 安裝20
2.3.1 下載Kaldi代碼20
2.3.2 安裝CUDA20
2.3.3 安裝編譯依賴庫21
2.3.4 安裝第三方工具21
2.3.5 選擇其他的矩陣庫23
2.3.6 編譯Kaldi代碼23
2.3.7 配置并行環境25
2.4 一個簡單的示例26
2.4.1 運行run.sh26
2.4.2 腳本解析28
2.5 示例介紹34
2.5.1 數據示例34
2.5.2 競賽示例38
2.5.3 其他示例40
2.5.4 示例結構41
3 數據整理44
3.1 數據分集44
3.1.1 Librispeech示例的數據處理過程45
3.1.2 數據下載和解壓46
3.2 數據預處理49
3.2.1 環境檢查51
3.2.2 生成表單文件52
3.2.3 數據檢查55
3.3 輸入和輸出機制56
3.3.1 列表表單57
3.3.2 存檔表單60
3.3.3 讀寫聲明符60
3.3.4 表單屬性64
3.4 常用數據表單與處理腳本69
3.4.1 列表類數據表單70
3.4.2 存檔類數據表單72
3.4.3 數據文件夾處理腳本77
3.4.4 表單索引的一致性78
3.5 語言模型相關文件79
3.5.1 發音詞典與音素集80
3.5.2 語言文件夾85
3.5.3 生成與使用語言文件夾92
4 經典聲學建模技術94
4.1 特征提取95
4.1.1 用 Kaldi 提取聲學特征95
4.1.2 特征在 Kaldi 中的存儲99
4.1.3 特征的使用104
4.1.4 常用特征類型106
4.2 單音子模型的訓練107
4.2.1 聲學模型的基本概念108
4.2.2 將聲學模型用于語音識別112
4.2.3 模型初始化113
4.2.4 對齊115
4.2.5 Transition 模型118
4.2.6 GMM 模型的迭代124
4.3 三音子模型訓練128
4.3.1 單音子模型假設的問題128
4.3.2 上下文相關的聲學模型129
4.3.3 三音子的聚類裁剪130
4.3.4 Kaldi中的三音子模型訓練流程130
4.4 特征變換技術139
4.4.1 無監督特征變換139
4.4.2 有監督特征變換141
4.5 區分性訓練143
4.5.1 聲學模型訓練流程的變遷143
4.5.2 區分性目標函數144
4.5.3 分子、分母145
4.5.4 區分性訓練在實踐中的應用146
5 構圖和解碼147
5.1 N元文法語言模型148
5.2 加權有限狀態轉錄機151
5.2.1 概述151
5.2.2 OpenFst153
5.3 用WFST表示語言模型156
5.4 狀態圖的構建158
5.4.1 用 WFST 表示發音詞典158
5.4.2 WFST 的復合運算163
5.4.3 詞圖的按發音展開165
5.4.4 LG 圖對上下文展開166
5.4.5 用 WFST 表示 HMM 拓撲結構169
5.5 圖的結構優化170
5.5.1 確定化170
5.5.2 *小化173
5.5.3 圖的stochastic性質174
5.6 *終狀態圖的生成174
5.7 基于令牌傳遞的維特比搜索176
5.8 SimpleDecoder源碼分析178
5.9 Kaldi 解碼器家族187
5.10 帶詞網格生成的解碼189
5.11 用語言模型重打分提升識別率192

6 深度學習聲學建模技術195
6.1 基于神經網絡的聲學模型195
6.1.1 神經網絡基礎196
6.1.2 激活函數198
6.1.3 參數更新199
6.2 神經網絡在Kaldi中的實現200
6.2.1 nnet1(nnet)200
6.2.2 nnet2203
6.2.3 nnet3208
6.3 神經網絡模型訓練214
6.3.1 輸入特征的處理214
6.3.2 神經網絡的初始化215
6.3.3 訓練樣本的分批與隨機化217
6.3.4 學習率的調整222
6.3.5 并行訓練224
6.3.6 數據擴充227
6.4 神經網絡的區分性訓練228
6.4.1 區分性訓練的基本思想228
6.4.2 區分性訓練的目標函數229
6.4.3 區分性訓練的實用技巧231
6.4.4 Kaldi神經網絡區分性訓練示例232
6.4.5 chain模型234
6.5 與其他深度學習框架的結合242
6.5.1 聲學模型242
6.5.2 語言模型243
6.5.3 端到端語音識別243
7 關鍵詞搜索與語音喚醒245
7.1 關鍵詞搜索技術介紹245
7.1.1 關鍵詞搜索技術的主流方法245
7.1.2 關鍵詞搜索技術的主流應用247
7.2 語音檢索247
7.2.1 方法描述248
7.2.2 一個簡單的語音檢索系統248
7.2.3 集外詞處理之詞表擴展254
7.2.4 集外詞處理之關鍵詞擴展255
7.2.5 集外詞處理之音素/音節系統256
7.2.6 一個實用的語音檢索系統258
7.3 語音喚醒263
7.3.1 語音喚醒經典框架264
7.3.2 語音喚醒進階優化266
7.3.3 語音喚醒的Kaldi實現思路267
8 說話人識別269
8.1 概述269
8.2 基于i-vector和PLDA的說話人識別技術271
8.2.1 整體流程271
8.2.2 i-vector 的提取272
8.2.3 基于余弦距離對 i-vector 分類274
8.2.4 基于 PLDA 對 i-vector 分類276
8.3 基于深度學習的說話人識別技術280
8.3.1 概述280
8.3.2 x-vector280
8.3.3 基于 x-vector 的說話人識別示例283
8.4 語種識別288
9 語音識別應用實踐292
9.1 語音識別基本應用292
9.1.1 離線語音識別與實時在線語音識別292
9.1.2 語音識別應用模塊293
9.1.3 小結296
9.2 話音檢測模塊296
9.2.1 VAD算法296
9.2.2 離線VAD297
9.2.3 流式在線VAD298
9.3 模型的適應299
9.3.1 聲學模型的適應299
9.3.2 詞表的擴展300
9.3.3 語言模型的適應301
9.3.4 小結301
9.4 解碼器的選擇及擴展302
9.4.1 Kaldi中的解碼器302
9.4.2 實際應用中的常見問題及擴展303
9.4.3 小結305
附錄A 術語列表306
附錄B 常見問題解答308
參考文獻313
展開全部

Kaldi語音識別實戰 作者簡介

陳果果清華大學本科學位,約翰霍普金斯大學博士學位,主要研究方向是語音識別及關鍵詞檢索,師從語音識別開源工具Kaldi主要開發者Daniel Povey,以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。博士期間為Google開發了Google的喚醒詞Okay Google的原型,現在已經用到數以億計的安卓設備及Google智能語音交互設備上。博士期間同時參與開發語音識別開源工具Kaldi,以及神經網絡開源工具CNTK。博士畢業以后聯合創辦KITT.AI,專注于語音識別及自然語言處理,公司于2017年被百度收購,目前擔任百度智能生活事業群組(SLG)主任架構師。都家宇本科畢業于大連理工大學,后于澳大利亞新南威爾士大學電子信息工程學院學習,取得信號處理專業碩士學位。研究生期間在導師 Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。畢業后先后任職于清華大學語音技術實驗室、百度語音技術部,以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、語音喚醒等方面的研發工作。參與過與 Kaldi 相關的工作有:Kaldi nnet1神經網絡框架中 lstm 作者;發起并推動全球最大規模的中文開源數據集語音項目AISHELL-1、AISHELL-2,已服務于清華大學、北京大學、南洋理工大學、哥倫比亞大學等近200所國內外高校的科研項目。那興宇本科和博士均畢業于北京理工大學,主要研究方向是語音識別和語音合成。先后任職于中國科學院聲學研究所和阿里巴巴機器人,從事語音識別模型訓練系統和語音交互系統的開發。目前就職于微軟,擔任資深應用科學家,從事語音識別算法和技術架構的開發及業務支持工作。2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發工作,并維護其中若干示例及OpenSLR的中文語音識別模型。張俊博博士畢業于中國科學院聲學研究所,師從顏永紅研究員。在小米公司從零起主導構建了整套語音算法研究框架,包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、用于語音應用的神經網絡部署,均達到了當時的先進水平,并發表頂會論文若干篇,為后續的語音研發工作建立了基礎。近期上線了用于外語學習的發音質量評測引擎,并給Kaldi貢獻了發音良好度評分的代碼。陳果果清華大學本科學位,約翰霍普金斯大學博士學位,主要研究方向是語音識別及關鍵詞檢索,師從語音識別開源工具Kaldi主要開發者Daniel Povey,以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。博士期間為Google開發了Google的喚醒詞Okay Google的原型,現在已經用到數以億計的安卓設備及Google智能語音交互設備上。博士期間同時參與開發語音識別開源工具Kaldi,以及神經網絡開源工具CNTK。博士畢業以后聯合創辦KITT.AI,專注于語音識別及自然語言處理,公司于2017年被百度收購,目前擔任百度智能生活事業群組(SLG)主任架構師。都家宇本科畢業于大連理工大學,后于澳大利亞新南威爾士大學電子信息工程學院學習,取得信號處理專業碩士學位。研究生期間在導師 Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。畢業后先后任職于清華大學語音技術實驗室、百度語音技術部,以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、語音喚醒等方面的研發工作。參與過與 Kaldi 相關的工作有:Kaldi nnet1神經網絡框架中 lstm 作者;發起并推動全球最大規模的中文開源數據集語音項目AISHELL-1、AISHELL-2,已服務于清華大學、北京大學、南洋理工大學、哥倫比亞大學等近200所國內外高校的科研項目。那興宇本科和博士均畢業于北京理工大學,主要研究方向是語音識別和語音合成。先后任職于中國科學院聲學研究所和阿里巴巴機器人,從事語音識別模型訓練系統和語音交互系統的開發。目前就職于微軟,擔任資深應用科學家,從事語音識別算法和技術架構的開發及業務支持工作。2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發工作,并維護其中若干示例及OpenSLR的中文語音識別模型。張俊博博士畢業于中國科學院聲學研究所,師從顏永紅研究員。在小米公司從零起主導構建了整套語音算法研究框架,包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、用于語音應用的神經網絡部署,均達到了當時的先進水平,并發表頂會論文若干篇,為后續的語音研發工作建立了基礎。近期上線了用于外語學習的發音質量評測引擎,并給Kaldi貢獻了發音良好度評分的代碼。

商品評論(0條)
暫無評論……
書友推薦
本類暢銷
編輯推薦
返回頂部
中圖網
在線客服
主站蜘蛛池模板: 丝印油墨_水性油墨_环保油墨油漆厂家_37国际化工 | 碳钢法兰厂家,非标法兰,定制异型,法兰生产厂家-河北九瑞管道 | 欧洲MV日韩MV国产_人妻无码一区二区三区免费_少妇被 到高潮喷出白浆av_精品少妇自慰到喷水AV网站 | 在线PH计-氧化锆分析仪-在线浊度仪-在线溶氧仪- 无锡朝达 | 新中天检测有限公司青岛分公司-山东|菏泽|济南|潍坊|泰安防雷检测验收 | 广州二手电缆线回收,旧电缆回收,广州铜线回收-广东益福电缆线回收公司 | 高压贴片电容|贴片安规电容|三端滤波器|风华电容代理南京南山 | 昆山PCB加工_SMT贴片_PCB抄板_线路板焊接加工-昆山腾宸电子科技有限公司 | 西装定制/做厂家/公司_西装订做/制价格/费用-北京圣达信西装 | 重庆磨床过滤机,重庆纸带过滤机,机床伸缩钣金,重庆机床钣金护罩-重庆达鸿兴精密机械制造有限公司 | 双齿辊破碎机-大型狼牙破碎机视频-对辊破碎机价格/型号图片-金联机械设备生产厂家 | 上海APP开发-APP制作-APP定制开发-上海APP开发制作公司-咏熠科技 | 无硅导热垫片-碳纤维导热垫片-导热相变材料厂家-东莞市盛元新材料科技有限公司 | 威实软件_软件定制开发_OA_OA办公系统_OA系统_办公自动化软件 | 锯边机,自动锯边机,双面涂胶机-建业顺达机械有限公司 | 济南轻型钢结构/济南铁艺护栏/济南铁艺大门-济南燕翔铁艺制品有限公司 | 蒸压釜-陶粒板隔墙板蒸压釜-山东鑫泰鑫智能装备有限公司 | 联系我们老街华纳娱乐公司官网19989979996(客服) | 水厂污泥地磅|污泥处理地磅厂家|地磅无人值守称重系统升级改造|地磅自动称重系统维修-河南成辉电子科技有限公司 | 低温等离子清洗机(双气路进口)-嘉润万丰 | 缠绕机|缠绕膜包装机|缠绕包装机-上海晏陵智能设备有限公司 | 劳动法网-专业的劳动法和劳动争议仲裁服务网 | cnc精密加工_数控机械加工_非标平键定制生产厂家_扬州沃佳机械有限公司 | 废旧物资回收公司_广州废旧设备回收_报废设备物资回收-益美工厂设备回收公司 | 河北凯普威医疗器材有限公司,高档轮椅系列,推车系列,座厕椅系列,协步椅系列,拐扙系列,卫浴系列 | 冷库安装厂家_杭州冷库_保鲜库建设-浙江克冷制冷设备有限公司 | 工控机-图像采集卡-PoE网卡-人工智能-工业主板-深圳朗锐智科 | 自动部分收集器,进口无油隔膜真空泵,SPME固相微萃取头-上海楚定分析仪器有限公司 | 游戏版号转让_游戏资质出售_游戏公司转让-【八九买卖网】 | 一点车讯-汽车网站,每天一点最新车讯!| 不锈钢列管式冷凝器,换热器厂家-无锡飞尔诺环境工程有限公司 | 工业用品一站式采购平台|南创工品汇-官网|广州南创 | 上海佳武自动化科技有限公司 | 板式换热器_板式换热器价格_管式换热器厂家-青岛康景辉 | 水平垂直燃烧试验仪-灼热丝试验仪-漏电起痕试验仪-针焰试验仪-塑料材料燃烧检测设备-IP防水试验机 | 建筑资质代办-建筑资质转让找上海国信启航 | 长沙发电机-湖南发电机-柴油发电机供应厂家-长沙明邦智能科技 | 干式变压器厂_干式变压器厂家_scb11/scb13/scb10/scb14/scb18干式变压器生产厂家-山东科锐变压器有限公司 | 聚合氯化铝-碱式氯化铝-聚合硫酸铁-聚氯化铝铁生产厂家多少钱一吨-聚丙烯酰胺价格_河南浩博净水材料有限公司 | 国际线缆连接网 - 连接器_线缆线束加工行业门户网站 | 自清洗过滤器_全自动过滤器_全自动反冲洗过滤器_量子过滤器-滑漮滴 |