部分了解自然语言处理
章自然语言处理初探
1.1自然语言处理概述
1.1.1自然语言处理早期发展史
1.1.2新世纪的里程碑事件
1.2自然语言处理的挑战
1.2.1词义消歧
1.2.2指代消解
1.2.3上下文理解
1.2.4语义与语用的不对等
1.3自然语言处理的应用领域
1.3.1医疗
1.3.2教育
1.3.3媒体
1.3.4金融
1.3.5法律
1.4自然语言处理的常见工具
1.4.1基础任务工具包
1.4.2科学计算及机器学习框架
1.4.3深度学习框架
本章小结
思考题
第二部分自然语言处理核心技术
第2章自然语言处理与机器学习
2.1逻辑回归
2.1.1逻辑回归基本原理
2.1.2逻辑回归在实践中的注意要点
2.1.3逻辑回归的优势与不足
2.2朴素贝叶斯
2.2.1朴素贝叶斯基本原理
2.2.2朴素贝叶斯的类型
2.2.3朴素贝叶斯的优势与不足
2.3Kmeans算法
2.3.1Kmeans算法基本原理
2.3.2Kmeans算法实践
2.3.3Kmeans算法的优势与不足
2.4决策树
2.4.1决策树的属性划分
2.4.2随机森林的基本原理
2.4.3随机森林在应用中的注意细节
2.5主成分分析
2.5.1梯度上升法解PCA
2.5.2协方差矩阵解PCA
2.5.3实战PCA
本章小结
思考题
第3章自然语言处理与神经网络
3.1神经网络初探
3.1.1神经元结构
3.1.2常见的激活函数
3.1.3误差反向传播算法
3.2常见的神经网络结构
3.2.1多层感知机
3.2.2循环神经网络的基本原理
3.2.3卷积神经网络的基本原理
3.2.4神经网络的优势与不足
3.3神经网络算法的改进与提升
3.3.1防止过拟合的方法
3.3.2训练速度与精度的提高方法
3.3.3注意力机制
本章小结
思考题
第三部分自然语言处理基本任务
第4章文本预处理
4.1文本预处理的基础项目
4.1.1文本规范化
4.1.2语义分析
4.1.3分词
4.1.4文本纠错
4.2关键词提取
4.2.1基于特征统计
4.2.2基于主题模型
4.2.3基于图模型
4.3数据不平衡的处理
4.3.1常见方法
4.3.2数据不平衡问题实战
本章小结
思考题
第5章文本的表示技术
5.1词袋模型
5.1.1基于频次的词袋模型
5.1.2基于TFIDF的词袋模型
5.1.3相关工具的使用
5.2Word2Vec词向量
5.2.1Word2Vec的基本原理
5.2.2Word2Vec模型细节及代码演示
5.2.3应用工具训练Word2Vec
5.3改进后的词表征
5.3.1GloVe模型
5.3.2FastText模型
5.3.3ELMo模型
5.4句向量
5.4.1基于词向量的平均
5.4.2沿用Word2Vec思想
5.4.3有监督方式
本章小结
思考题
第6章序列标注
6.1序列标注基础
6.1.1序列标注的应用场景
6.1.2基线方式
6.1.3序列标注任务的难点
6.2基于概率图的模型
6.2.1隐马尔科夫模型(HMM)
6.2.2优选熵马尔科夫模型(MEMM)
6.2.3条件随机场模型(CRF)
6.2.4天气预测实例
6.3基于深度学习的方式
6.3.1数据表征形式
6.3.2序列处理模型
本章小结
思考题
第7章关系抽取
7.1关系抽取基础
7.1.1关系抽取概述
7.1.2关系抽取的主要方法
7.1.3深度学习与关系抽取
7.1.4强化学习与关系抽取
7.2基于半监督的关系抽取模式:Snowball系统
7.2.1Patterns及Tuples的生成
7.2.2Patterns及Tuples的评估
7.2.3Snowball的实现细节
7.3关系抽取工具——DeepDive
7.3.1DeepDive概述
7.3.2DeepDive工作流程
7.3.3概率推断与因子图
本章小结
思考题
第四部分自然语言处理不错任务
第8章知识图谱
8.1知识图谱基本概念
8.1.1从语义网络到知识图谱
8.1.2知识的结构化、存储及查询
8.1.3几个开源的知识图谱
8.2知识图谱的关键构建技术
8.2.1本体匹配
8.2.2实体链接
8.2.3知识推理
8.3知识图谱应用
8.3.1反欺诈
8.3.2个性化推荐
8.3.3知识库问答
本章小结
思考题
第9章文本分类
9.1文本分类的常见方法
9.1.1机器学习
9.1.2模型融合
9.1.3深度学习
9.2文本分类的不同应用场景
9.2.1二分类
9.2.2多分类
9.2.3多标签多分类
9.3案例:搭建一款新闻主题分类器
9.3.1数据预处理
9.3.2训练与预测
9.3.3改进
本章小结
思考题
0章文本摘要
10.1抽取式摘要
10.1.1传统方法
10.1.2基于深度学习的方法
10.1.3抽取式摘要的训练数据问题
10.2生成式摘要
10.2.1基础模型
10.2.2前沿模型中的技巧
10.2.3强化学习与生成式摘要
10.3案例:搭建网球新闻摘要生成器
10.3.1基于词频统计的摘要生成器
10.3.2基于图模型的摘要生成器
10.3.3结果分析
本章小结
思考题
1章机器翻译
11.1传统机器翻译
11.1.1源起
11.1.2基于规则
11.1.3基于大规模语料
11.2统计机器翻译
11.2.1相关流派
11.2.2基于信源信道的统计机器翻译
11.2.3案例:外星语的翻译实战
11.3神经机器翻译
11.3.1基本原理
11.3.2改进机制
11.3.3前沿与挑战
本章小结
思考题
2章聊天系统
12.1聊天系统的类型
12.1.1闲聊式机器人
12.1.2知识问答型机器人
12.1.3任务型聊天机器人
12.2聊天系统的关键技术
12.2.1检索技术
12.2.2意图识别和词槽填充
12.2.3对话管理
12.2.4强化学习与多轮对话
12.3案例:闲聊机器人实战
12.3.1技术概要
12.3.2基本配置及数据预处理
12.3.3闲聊机器人模型的搭建
12.3.4模型训练、预测以及优化
本章小结
思考题
第五部分自然语言处理求职
3章自然语言处理技术的现在、未来及择业
13.1自然语言处理组织及人才需求介绍
13.1.1学术界
13.1.2工业界
13.1.3人才需求现状
13.2未来与自然语言处理
13.2.1自然语言处理热点技术方向
13.2.2自然语言处理的应用畅想
13.2.3自然语言处理带来的行业冲击
13.3面试题
13.3.1数据结构与算法
13.3.2数学基础
13.3.3机器学习与深度学习
13.3.4自然语言处理专业
13.3.5实际问题解决及技术领域见解
本章小结
思考题
附录A思考题参考答案
附录B面试题答案