前言
第1章 引言
1.1 文本分析简介
1.2 技术发展历程
1.3 应用现状
1.4 小结
第2章 常用的数学基础
2.1 机器学习的处理过程
2.2 数学工具
2.3 归一化与正则化
第3章 分词
3.1 分词的基本原理
3.2 分词中的序列标注方法
3.3 深度学习下的分词
3.4 词性标注
3.5 分词技术面临的挑战
3.6 小结
第4章 文本向量化
4.1 词向量介绍
4.2 word2vec词向量工具
4.3 词袋模型
4.4 BoW向量化
4.5 散列技巧
4.6 小结
第5章 文本特征简介与选择
5.1 特征简介
5.2 特征选择方法
5.3 逆文本词频
5.4 特征选择实践
5.5 小结
第6章 文本相似度
6.1 引言
6.2 算法介绍
6.3 利用word2vec实现句子相似度计算
第7章 朴素贝叶斯文本分类
7.1 引言
7.2 一般概念
7.3 关键字过滤
7.4 贝叶斯模型
7.5 小结
第8章 fastText原理及文本分类实践
8.1 引言
8.2 fastText的技术依赖
8.3 fastText原理
8.4 利用fastText实现文本内容鉴别
8.5 小结
第9章 文本摘要技术
9.1 引言
9.2 基于句子评分的文本摘要技术
9.3 基于Word Embedding构造文本摘要
9.4 小结
第10章 文本主题建模
10.1 引言
10.2 基于统计特征的关键词抽取
10.3 基于词图模型的关键词抽取
10.4 基于LDA的主题建模
10.5 主题模型实践
10.6 LDA模型优化
10.7 小结
第11章 文本情感分析
11.1 情感分析技术
11.2 情感分析研究任务
11.3 情感词典自动扩充方法
11.4 情感分析模型设计
11.5 小结
参考文献
附录1 中文文本相似度计算工具集
附录2 实用的文本分析工具