网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 语音识别基本法(Kaldi实践与探索)
分类 科学技术-工业科技-电子通讯
作者 汤志远//李蓝天//王东//蔡云麒//石颖等
出版社 电子工业出版社
下载
简介
内容推荐
语音是新一代人机交互的方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。
本书结合当下使用广泛的Kaldi工具,对语音识别的基本概念和流程进行了详细的讲解,包括GMM-HMM、DNN-HMM、端到端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等,也对语音识别技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、情绪识别、语音合成等。
本书的写作以让读者快速、直观地理解概念为目标,只展示最基本的数学公式,同时注重理论与实践相结合,在对语音技术各个概念的讲解中都展示了相应的Kaldi语音处理命令,以便让读者进一步融会贯通。
本书适用于语音识别及相关技术的初学者、在校学生,以及基于Kaldi进行产品研发的同仁,也可以作为语音技术从业者的参考书籍。
作者简介
汤志远,中国科学院大学与清华大学联合培养博士,清华博士后。专注于语音技术,研究领域涉及语音识别、声纹识别、语种识别、口语测评等,在国际重要期刊或会议上累计发表论文数十篇。
个人主页:http://tangzy.cslt.org。
目录
Ⅰ 语音识别基础
1 语音是什么
1.1 大音希声
1.2 产生语音
1.3 看见语音
1.4 小结
2 语音识别方法
2.1 总体思路
2.2 声学模型GMM-HMM
2.2.1 HMM
2.2.2 GMM
2.2.3 训练
2.3 声学模型DNN-HMM
2.4 语言模型
2.4.1 N-Gram
2.4.2 RNN语言模型
2.5 解码器
2.6 端到端结构
2.6.1 CTC
2.6.2 RNN
2.6.3 Attention
2.6.4 Self-Attention
2.6.5 CTC+Attension
2.7 开源工具和硬件平台
2.7.1 深度学习平台
2.7.2 语音识别工具
2.7.3 硬件加速
2.8 小结
3 完整的语音识别实验
3.1 语音识别实验的步骤
3.2 语音识别实验的运行
3.3 其他语音任务案例
3.4 小结
4 前端处理
4.1 数据准备
4.2 声学特征提取
4.2.1 预加重(Pre-Emphasis)
4.2.2 加窗(Windowing)
4.2.3 离散傅里叶变换(DFT)
4.2.4 FBank特征
4.2.5 MFCC特征
4.3 小结
5 训练与解码
5.1 GMM-HMM基本流程
5.1.1 训练
5.1.2 解码
5.1.3 强制对齐
5.2 DNN-HMM基本流程
5.3 DNN配置详解
5.3.1 component和component-node
5.3.2 属性与描述符
5.3.3 不同组件的使用方法
5.3.4 LSTM配置范例
5.4 小结
Ⅱ 语音识别实际问题
6 说话人自适应
6.1 什么是说话人自适应
6.2 特征域自适应与声道长度规整
6.3 声学模型自适应:HMM-GMM系统
6.3.1 基于MAP的自适应方法
6.3.2 基于MLLR的自适应方法
6.4 声学模型自适应:DNN系统
6.4.1 模型参数自适应学习
6.4.2 基于说话人向量的条件学习
6.5 领域自适应
6.6 小结
7 噪声对抗与环境鲁棒性
7.1 环境鲁棒性简介
7.2 前端信号处理方法
7.2.1 语音增强方法
7.2.2 特征域补偿方法
7.2.3 基于DNN的特征映射
7.3 后端模型增强方法
7.3.1 简单模型增强方法
7.3.2 模型自适应方法
7.3.3 多场景学习和数据增强方法
7.4 小结
8 小语种语音识别
8.1 小语种语音识别面临的主要困难
8.2 基于音素共享的小语种语音识别
8.3 基于参数共享的小语种语音识别方法
8.4 其他小语种语音识别方法
8.4.1 Grapheme建模
8.4.2 网络结构与训练方法
8.4.3 数据增强
8.5 小语种语音识别实践
8.5.1 音频数据采集
8.5.2 文本数据采集
8.5.3 文本正规化
8.5.4 发音词典设计
8.6 小结
9 关键词识别与嵌入式应用
9.1 基本概念
9.2 评价指标
9.3 实现方法
9.3.1 总体框架
9.3.2 基于LVCSR的KWS系统
9.3.3 基于示例的KWS
9.3.4 端到端KWS
9.3.5 滑动窗口
9.4 嵌入式应用
9.4.1 模型压缩
9.4.2 迁移学习
9.4.3 网络结构搜索与设计
9.5 小结
Ⅲ 前沿课题
10 说话人识别
10.1 什么是说话人识别
10.1.1 基本概念
10.1.2 技术难点
10.1.3 发展历史
10.2 基于知识驱动的特征设计
10.3 基于线性高斯的统计模型
10.3.1 GMM-UBM
10.3.2 因子分析
10.4 基于数据驱动的特征学习
10.4.1 模型结构
10.4.2 训练策略
10.4.3 多任务学习
10.5 基于端到端的识别模型
10.6 小结
11 语种识别
11.1 什么是语种识别
11.2 语言的区分性特征
11.3 统计模型方法
11.3.1 基于声学特征的识别方法
11.3.2 基于发音单元的语种识别方法
11.4 深度学习方法
11.4.1 基于DNN的统计模型方法
11.4.2 基于DNN的端到端建模
11.4.3 基于DNN的语言嵌入
11.5 Kaldi中的语种识别
11.6 小结
12 语音情绪识别
12.1 什么是语音情绪识别
12.2 语音情绪模型
12.2.1 离散情绪模型
12.2.2 连续情绪模型
12.3 语音情绪特征提取
12.3.1 语音情绪识别中的典型特征
12.3.2 局部特征与全局特征
12.4 语音情绪建模
12.4.1 离散情绪模型
12.4.2 连续情绪模型
12.5 深度学习方法
12.5.1 基础DNN方法
12.5.2 特征学习
12.5.3 迁移学习
12.5.4 多任务学习
12.6 小结
13 语音合成
13.1 激励-响应模型
13.2 参数合成
13.3 拼接合成
13.4 统计模型合成
13.5 神经模型合成
13.6 基于注意力机制
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/5 3:52:03