目 录
译者序
原书序
第1章 独立文档的关键词的自动提取
1.1 简介
1.1.1 关键词提取方法
1.2 快速自动关键词提取
1.2.1 候选关键词
1.2.2 关键词得分
1.2.3 邻接关键词
1.2.4 提取关键词
1.3 基准评估
1.3.1 准确率和召回率评估
1.3.2 效率评估
1.4 停用词列表生成
1.5 新闻消息的评估
1.5.1 MPQA语料库
1.5.2 从新闻消息中提取关键词
1.6 总结
参考文献
第2章 利用数学方法进行多语言文档聚类
2.1 简介
2.2 背景
2.3 实验设置
2.4 多语言LSA
2.5 Tucker1方法
2.6 PARAFAC2方法
2.7 词对齐的LSA
2.8 潜在形态语义分析(LMSA)
2.9 词对齐的LMSA
2.10 对技术和结果的讨论
参考文献
第3章 使用机器学习算法对基于内容的垃圾邮件进行分类
3.1 简介
3.2 机器学习算法
3.2.1 朴素贝叶斯
3.2.2 LogitBoost
3.2.3 支持向量机
3.2.4 增广的潜在语义索引空间
3.2.5 径向基函数网络
3.3 数据预处理
3.3.1 特征选择
3.3.2 信息表示
3.4 邮件分类的评估
3.5 实验
3.5.1 使用PU1的实验
3.5.2 使用ZH1的实验
3.6 分类器特点
3.7 结束语
参考文献第4章 利用非负矩阵分解研究邮件分类问题
4.1 简介
4.1.1 相关工作
4.1.2 概要
4.2 研究背景
4.2.1 非负矩阵分解
4.2.2 计算NMF的算法
4.2.3 数据集
4.2.4 解释
4.3 基于特征排序的NMF初始化
4.3.1 特征子集选择
4.3.2 FS初始化
4.4 基于NMF的分类方法
4.4.1 使用基础特征分类
4.4.2 基于NMF的一般化LSI
4.5 结束语
参考文献
第5章 使用k-均值算法进行约束聚类
5.1 简介
5.2 表示法和古典k-均值算法
5.3 具有布莱格曼散度的k-均值约束聚类算法
5.3.1 具有“不能链接”约束关系的二次k-均值聚类
5.3.2 “必须链接”约束关系的移除
5.3.3 使用布莱格曼散度进行聚类
5.4 smoka 类型约束聚类
5.5 球形k-均值约束聚类
5.5.1 仅有“不能链接”约束关系的球形k-均值聚类算法
5.5.2 具有“不能链接”和“必须链接”约束关系的球形k-均值聚类
5.6 数值实验
5.6.1 二次k-均值聚类
5.6.2 球形k-均值聚类
5.7 总结
参考文献
第6章 文本可视化技术的研究
6.1 文本分析的可视化
6.2 标签云图
6.3 著作权及其变更的追踪
6.4 数据探索和novel模式的探索
6.5 情绪追踪
6.6 可视化分析和FutureLens
6.7 场景发现
6.7.1 场景
6.7.2 评估策略
6.8 早期版本
6.9 FutureLens 的特征
6.10 场景发现举例:生态恐怖主义
6.11 场景发现举例:毒品走私
6.12 未来的工作
参考文献
第7章 新颖性挖掘的自适应阈值设置 7.1 简介
7.2 新颖性挖掘中的自适应阈值设置
7.2.1 背景
7.2.2 动机
7.2.3 基于高斯分布的自适应阈值设置
7.2.4 实现过程中的问题
7.3 实验研究
7.3.1 数据集
7.3.2 加工实例
7.3.3 实验及结果
7.4 总结
参考文献
第8章 文本挖掘与网络犯罪
8.1 简介
8.2 网络欺凌和网络捕食研究的现状
8.2.1 获取即时通信和在线聊天
8.2.2 当前用于分析的收集
8.2.3 对即时通信和在线聊天的分析
8.2.4 网络捕食检测
8.2.5 网络欺凌检测
8.2.6 法律问题
8.3 监控聊天的商业软件
8.4 结论与未来的方向
参考文献
第9章 文本流中的事件和发展趋势
9.1 引言
9.2 文本流
9.3 特征提取和数据还原
9.4 事件监测
9.5 趋势检测
9.6 事件和趋势描述
9.7 相关讨论
9.8 总结
参考文献
第10章 在LDA主题模型中嵌入语义
10.1 简介
10.2 背景
10.2.1 向量空间模型
10.2.2 潜在语义分析
10.2.3 概率潜在语义分析
10.3 潜在狄利克雷分配
10.3.1 图模型和生成过程
10.3.2 后验推断
10.3.3 在线潜在狄利克雷分配(OLDA)
10.3.4 算例分析
10.4 在维基百科中嵌入外部语义
10.4.1 相关维基百科文章
10.4.2 维基百科影响的主题模型
10.5 数据驱动语义的嵌入
10.5.1 数据驱动语义嵌入的生成过程 10.5.2 嵌入数据驱动语义的OLDA算法
10.5.3 实验设计
10.5.4 实验结果
10.6 相关工作
10.7 结论与未来工作
参考文献