![]()
内容推荐 文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法,理解、分析和挖掘文本的内容,从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。本书主要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法,包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等,最后通过具体实例展示相关技术在实际应用中的使用方法。 本书可作为高等院校计算机、自动化、网络安全、大数据分析等专业,以及利用到文本信息处理的交叉学科(如金融财经、社会人文、生物医药等)的高年级本科生或研究生从事相关研究的入门参考书,也可供相关技术研发人员阅读和参考。 作者简介 宗成庆,中科院自动化所研究员、博士生导师,中国科学院大学岗位教授(A类),ACL/CAAI/CCF Fellow。他主要从事自然语言处理、机器翻译和语言认知计算等研究,主持国家项目10余项,发表论文200余篇,出版《统计自然语言处理》等专著三部和译著一部。他是国际计算语言学委员会(ICCL)委员、亚洲自然语言处理学会(AFNLP)主席和中国中文信息学会副理事长。曾任国际一流学术会议ACL'2015程序委员会主席和ACL'2021大会主席。荣获国家科技进步奖二等奖和北京市科学技术奖一等奖等,曾获北京市优秀教师、中科院优秀导师、李佩教学名师和宝钢优秀教师奖等若干荣誉。享受国务院特殊津贴。 目录 第1章 绪论 1.1 基本概念 1.2 文本挖掘任务 1.3 文本挖掘面临的困难 1.4 方法概述与本书的内容组织 1.5 进一步阅读 习题 第2章 数据预处理和标注 2.1 概述 2.2 数据获取 2.3 数据预处理 2.4 数据标注 2.5 基本工具 2.5.1 汉语自动分词与词性标注 2.5.2 句法分析 2.5.3 n元语法模型 2.6 进一步阅读 习题 第3章 文本表示 3.1 概述 3.2 向量空间模型 3.2.1 向量空间模型的基本概念 3.2.2 特征项的构造与权重 3.2.3 文本长度规范化 3.2.4 特征工程 3.2.5 其他文本表示方法 3.3 词的分布式表示 3.3.1 神经网络语言模型 3.3.2 C&W模型 3.3.3 CBOW与Skip-gram模型 3.3.4 噪声对比估计与负采样 3.3.5 字词混合的分布式表示方法 3.4 短语的分布式表示 3.4.1 基于词袋的分布式表示 3.4.2 基于自动编码器的分布式表示 3.5 句子的分布式表示 3.5.1 通用的句子表示 3.5.2 任务相关的句子表示 3.6 文档的分布式表示 3.6.1 通用的文档分布式表示 3.6.2 任务相关的文档分布式表示 3.7 进一步阅读 习题 第4章 预训练语言模型 4.1 概述 4.2 ELMo:源自语言模型的语境化分布式向量表示 4.2.1 基于双向LSTM的语言模型 4.2.2 适应下游任务的语境化ELMo词向量 4.3 GPT:生成式预训练模型 4.3.1 Transformer 4.3.2 GPT预训练 4.3.3 GPT微调 4.4 BERT:双向Transformer编码表示 4.4.1 BERT预训练 4.4.2 BERT微调 4.4.3 XLNet:广义自回归预训练模型 4.4.4 UniLM 4.5 进一步阅读 习题 第5章 文本分类 5.1 概述 5.2 传统文本表示 …… 第6章 文本聚类 第7章 主题模型 第8章 情感分析与观点挖掘 第9章 话题检测与跟踪 第10章 信息抽取 第11章 文本自动摘要 第12章 技术应用 参考文献 名词术语索引 |