![]()
内容推荐 本书主要阐述如何通过新词识别、主动学习构建面向社交媒体领域的中文分词语料;如何通过采用BLSTM神经网络模型和CRFS模型协同训练的方法强化中文分词器,来提高面向微博等社交媒体领域的中文分词器的性能。 本书针对微博等社交媒体语料的特点研究了无监督学习的新词识别方法、基于半监督学习的主动学习方法的中文微博分词方法和基于半监督学习的协同训练的中文微博分词方法。与其他研究不同,本书研究工作能够自动获得高质量的微博分词训练语料,有效提高面向微博语料的中文分词器的性能,为面向社交媒体语料的文本处理与信息抽取打下基础,也为训练资源稀缺的研究任务提供了扩充训练语料的新思路。 目录 第1章 中文分词研究 1.1 研究背景和意义 1.2 中文分词研究现状 1.3 面临的问题与挑战 第2章 面向微博语料的新词识别 2.1 新词定义及其分析 2.2 新词识别的统计量 2.3 新词识别算法 第3章 面向微博语料的新词识别方法的作用 3.1 新词识别实验语料介绍 3.2 新词识别实验评价方法 3.3 普通新词识别实验设计及结果分析 3.4 低频新词识别实验设计及结果分析 3.5 小结 第4章 基于λ-主动学习的中文微博分词方法 4.1 候选样例池的构建 4.2 基于半监督学习方法的初始分词器 4.3 λ-主动学习方法 第5章 基于λ-主动学习分词方法的作用 5.1 λ-主动学习分词方法实验语料介绍 5.2 评价方法 5.3 基于规则修正的跨领域微博分词结果 5.4 初始分词器的分词结果 5.5 λ-主动学习扩充的语料对LSTM分词器的影响 5.6 小结 第6章 基于深度神经网络的中文微博分词 6.1 神经网络 6.2 基于LSTM神经网络的中文分词方法 6.3 基于BLSTM神经网络的中文分词方法 6.4 基于BLSTM和CRFs的协同训练微博分词框架 第7章 基于深度神经网络的中文微博分词的作用 7.1 基于深度神经网络的中文微博分词实验数据介绍 7.2 评价方法 7.3 λ-主动学习方法对LSTM分词器的影响 7.4 协同训练方法的分词结果 7.5 小结 参考文献 索引 |