网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 文本数据挖掘/中国科学院大学研究生教学辅导书系列
分类
作者 宗成庆//夏睿//张家俊
出版社 清华大学出版社
下载
简介
内容推荐
本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。
目录
第 1章绪论 .1
1.1基本概念 1
1.2文本挖掘任务 .2
1.3文本挖掘面临的困难 .5
1.4方法概述与本书的内容组织 .7
1.5进一步阅读 .9
第 2章数据预处理和标注 . 11
2.1数据获取 11
2.2数据预处理 . 15
2.3数据标注 17
2.4基本工具 19
2.4.1汉语自动分词与词性标注 19
2.4.2句法分析 . 20
2.4.3 n元语法模型 . 21
2.5进一步阅读 . 22
第 3章文本表示 . 23
3.1向量空间模型 . 23
3.1.1向量空间模型的基本概念 23
3.1.2特征项的构造与权重 . 24
3.1.3文本长度规范化 . 25
3.1.4特征工程 . 26
3.1.5其他文本表示方法 27
3.2词的分布式表示 29
3.2.1神经网络语言模型 29
3.2.2 C&W模型 . 32
3.2.3 CBOW与 Skip-gram模型 34
3.2.4噪声对比估计与负采样 . 35
3.2.5字词混合的分布式表示方法 . 37
3.3短语的分布式表示 . 38
3.3.1基于词袋的分布式表示 . 39
3.3.2基于自动编码器的分布式表示 . 39
3.4句子的分布式表示 . 42
3.4.1通用的句子表示 . 42
3.4.2任务相关的句子表示 . 45
3.5文档的分布式表示 . 48
3.5.1通用的文档分布式表示 . 48
3.5.2任务相关的文档分布式表示 . 49
3.6进一步阅读 . 52
第 4章文本分类 . 53
4.1概述 . 53
4.2传统文本表示 . 54
4.3特征选择 55
4.3.1互信息法 . 55
4.3.2信息增益法 58
4.3.3卡方统计量法 . 59
4.3.4其他方法 . 60
4.4传统分类算法 . 61
4.4.1朴素贝叶斯模型 . 61
4.4.2 Logistic回归、 Softmax回归与最大熵模型 . 63
4.4.3支持向量机 65
4.4.4集成学习 . 67
4.5深度神经网络方法 . 68
4.5.1多层前馈神经网络 68
4.5.2卷积神经网络 . 69
4.5.3循环神经网络 . 71
4.6文本分类性能评估 . 78
4.7进一步阅读 . 81
第 5章文本聚类 . 83
5.1概述 . 83
5.2文本相似性度量 83
5.2.1样本间的相似性 . 83
5.2.2簇间的相似性 . 86
目录 IX
5.2.3样本与簇之间的相似性 . 87
5.3文本聚类算法 . 87
5.3.1 K-均值聚类 . 87
5.3.2单遍聚类 . 91
5.3.3层次聚类 . 92
5.3.4密度聚类 . 95
5.4性能评估 97
5.4.1外部标准 . 97
5.4.2内部标准 . 99
5.5进一步阅读 . 99
第 6章主题模型 . 101
6.1概述 . 101
6.2潜在语义分析 . 102
6.2.1奇异值分解 102
6.2.2词项 -文档矩阵的奇异值分解 103
6.2.3词项和文档的概念表示及相似度计算 . 104
6.3概率潜在语义分析 . 106
6.3.1模型假设 . 106
6.3.2参数学习 . 107
6.4潜在狄利克雷分布 . 108
6.4.1模型假设 . 108
6.4.2词项和主题序列的联合概率 . 110
6.4.3模型推断 . 112
6.4.4新文档的推断 . 114
6.4.5 PLSA与 LDA的联系与区别 . 115
6.5进一步阅读 . 115
第 7章情感分析与观点挖掘 117
7.1概述 . 117
7.2情感分析任务类型 . 118
7.2.1按目标形式划分 . 118
7.2.2按分析粒度划分 . 119
7.3文档或句子级情感分析方法 . 121
7.3.1基于规则的无监督情感分类 . 122
7.3.2基于传统机器学习的监督情感分类 . 123
7.3.3深度神经网络方法 126
文本数据挖掘
7.4词语级情感分析与情感词典构建 . 131
7.4.1基于语义知识库的方法 . 131
7.4.2基于语料库的方法 131
7.4.3情感词典性能评估 134
7.5属性级情感分析 134
7.5.1属性抽取 . 135
7.5.2属性情感分类 . 138
7.5.3主题与情感的生成式建模 141
7.6情感分析中的特殊问题 143
7.6.1情感极性转移问题 143
7.6.2领域适应问题 . 145
7.7进一步阅读 . 147
第 8章话题检测与跟踪 . 149
8.1概述 . 149
8.2术语与任务 . 151
8.2.1术语 151
8.2.2任务 152
8.3报道或话题的表示与相似性计算 . 154
8.4话题检测 156
8.4.1话题在线检测 . 157
8.4.2话题回溯检测 . 158
8.5话题跟踪 159
8.6评估方法 160
8.7社交媒体话题检测与跟踪 . 161
8.7.1社交媒体话题检测 162
8.7.2社交媒体话题跟踪 163
8.8突发话题检测 . 163
8.8.1突发状态识别 . 164
8.8.2以文档为中心的方法:先检测话题后评估突发性 . 167
8.8.3以特征为中心的方法:先识别突发特征后生成突发话题 . 168
8.9进一步阅读 . 169
第 9章信息抽取 . 171
9.1概述 . 171
9.2命名实体识别 . 173
9.2.1基于规则的命名实体识别方法 . 174
目录 XI
9.2.2有监督的命名实体识别方法 . 175
9.2.3半监督的命名实体识别方法 . 181
9.2.4命名实体识别方法评价 . 183
9.3共指消解 184
9.3.1基于规则的共指消解方法 185
9.3.2数据驱动的共指消解方法 187
9.3.3共指消解评价 . 190
9.4实体消歧 193
9.4.1基于聚类的实体消歧方法 193
9.4.2基于链接的实体消歧 . 197
9.4.3实体消歧任务的评价方法 203
9.5关系抽取 204
9.5.1基于离散特征的关系分类方法 . 206
9.5.2基于分布式特征的关系分类方法 212
9.5.3基于远程监督的关系分类方法 . 214
9.5.4关系分类性能评价 215
9.6事件抽取 215
9.6.1事件描述模板 . 215
9.6.2事件抽取方法 . 217
9.6.3事件抽取评价 . 224
9.7
序言
随着互联网和移动通信技术的快速发展和普及应用
,文本数据挖掘技术备受关注,尤其随着云计算、大数
据和深度学习等一系列新技术的广泛使用,文本挖掘技
术已经在众多领域(如舆情分析、医疗和金融数据分析
等)发挥了重要作用,表现出广阔的应用前景。虽然十
多年前我就指导博士生开展文本分类和自动文摘等相关
技术的研究,但对文本数据挖掘的整体概念并没有一个
清晰的认识,只是将研究的单项技术视为自然语言处理
的具体应用。韩家炜教授主笔的《数据挖掘 ——概念
与技术》和刘兵教授撰写的“Web Data Mining”等专
著曾让我大获裨益,每次聆听他们的学术报告和与他们
当面交谈也都受益匪浅。促使我萌生撰写这部专著念头
的是中国科学院大学让我开设的“文本数据挖掘”课程
。 2015年底我接受中国科学院大学计算机与控制学院
的邀请,开始准备“文本数据挖掘”课程的内容设计和
课件编写工作,我不得不静下心来查阅大量的文献资料
,认真思考这一术语所蕴藏的丰富内涵和外延,经过几
年的学习、思考和教学实践,文本数据挖掘的概念轮廓
渐渐清晰起来。夏睿和张家俊两位青年才俊的加盟让我
萌生的写作计划得以实现。夏睿于 2007年硕士毕业,
以优异成绩考入中科院自动化所跟随我攻读博士学位,
从事情感文本分析研究,在情感分析和观点挖掘领域以
第一作者身份在国际一流学术期刊和会议上发表了一系
列有影响力的论文,其中两篇论文入选 ESI高被引论文
,攻读博士学位期间完成的关于情感分类特征发现与集
成学习的论文被引 400余次。此外,他在文本分类与聚
类、主题模型、话题检测与跟踪等多个领域都颇有见地
。张家俊于 2006年本科毕业后被免试推荐到中科院自
动化所跟随我攻读博士学位,主要从事机器翻译研究,
之后在多语言自动摘要、信息获取和人机对话等多个研
究方向都有出色的表现。自 2016年起他同我一道在中
国科学院大学讲授“自然语言处理”课程的机器翻译、
自动文摘和文本分类等部分内容,颇受学生的欢迎。仰
仗两位弟子扎实的理论功底和敏锐的科研悟性,很多最
新的技术方法和研究成果能够得到及时的验证和实践,
并被收入本书,使我倍感欣慰。自 2016年初动笔,到
此时收官,全书耗时两年多,当然大部分写作都是在节
假日、周末和其他本该休息的时间里完成的,其间进行
了无数次的修改、补充和调整,所花费的时间和精力及
其感受到的快乐和烦恼难以言表,正所谓“痛并快乐着
”。在写作过程中和初稿完成之后,得到了很多同行专
家的大力支持和帮助,他们是(以姓氏拼音顺序排列)
:韩先培、洪宇、李寿山、刘康、万小军、徐康、章成
志、赵鑫、周玉。他们分别审阅了部分章节的内容,提
出了宝贵的修改意见和建议。另外,部分研究生和博士
生也为本文本数据挖掘书的写作提供了力所能及的帮助
,他们是:白赫、蔡鸿杰、丁子祥、何烩烩、金晓、李
俊杰、马聪、王乐义、向露、郑士梁、朱军楠。他们帮
助作者收集整理了部分文献资料,绘制了书中的部分图
表,为作者节省了宝贵的时间。在此一并向他们表示衷
心的感谢!由衷地感谢韩家炜教授对本书提出的指导性
意见和建议!他能够在百忙之中为本书撰序,是我们的
荣幸,不胜感激!本书的撰写工作得到了中国科学院大
学教材出版中心的资助和国家自然科学基金重点项目的
资助(项目编号: 61333018)。另外,不得不说的是
,由于作者的水平和能力所限,加之时间和精力的不足
,书中一定存在疏漏或错误,衷心地欢迎读者给予批评
指正!宗成庆 2018年国庆节期间
导语
随着计算机网络和移动通信技术的快速发展和普及,面向网络或移动终端用户的文本大数据挖掘技术越来越多地受到各个领域的高度关注,具有极其广阔的应用,同时这项研究涉及机器学习、自然语言处理和人工智能等多个领域和学科,开展这项研究对于推动相关学科的发展具有重要的理论意义。
本书阐述文本数据挖掘的理论模型、实现算法和相关应用,通过实例从原理上对相关技术的理论方法和实现算法进行阐述,言简意赅,深入浅出,使读者能够在充分理解基本原理的基础上掌握应用系统的实现方法。
本书列入“中国科学院大学研究生教学辅导书系列”,可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/19 16:17:35