前言
第1章 语言与计算
数据科学范式
语言感知数据产品
语言即数据
小结
第2章 构建自定义语料库
语料库是什么?
语料库数据管理
语料库读取器
小结
第3章 语料库预处理与处置
分解文档
语料库的转换
小结
第4章 文本向量化和转换流水线
空间中的词
Scikit-Learn API
流水线
小结
第5章 面向文本分析的文本分类
文本分类
构建文本分类应用
小结
第6章 文本相似性聚类
文本上的无监督学习
文档相似性聚类
文档主题建模
小结
第7章 上下文感知文本分析
基于语法的特征提取
n-Gram特征提取
n-Gram语言模型
小结
第8章 文本可视化
可视化特征空间
模型诊断
可视化操纵
小结
第9章 文本的图分析
图计算与分析
从文本中抽取图
实体解析
小结
第10章 聊天机器人
对话基础
礼貌对话规则
有趣的问题
学习帮助
小结
第11章 利用多处理和Spark扩展文本分析
Python多处理
Spark集群计算
小结
第12章 深度学习与未来
应用神经网络
神经网络语言模型
情感分析
未来(几乎)已来
词汇表