何晗(@hankcs),自然语言处理类库 HanLP 作者(GitHub 加星超过 14 600),“码农场”博主(日活跃读者数超过 3000),埃默里大学计算机博士生,研究方向是句法分析、语义分析与问答系统。
HanLP 和“码农场”是 NLP 领域实用的学习资源,何晗大约每周处理一次 HanLP GitHub上的 Issues。
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 自然语言处理入门 |
分类 | 计算机-操作系统 |
作者 | 何晗 |
出版社 | 人民邮电出版社 |
下载 | ![]() |
简介 | 作者简介 何晗(@hankcs),自然语言处理类库 HanLP 作者(GitHub 加星超过 14 600),“码农场”博主(日活跃读者数超过 3000),埃默里大学计算机博士生,研究方向是句法分析、语义分析与问答系统。 HanLP 和“码农场”是 NLP 领域实用的学习资源,何晗大约每周处理一次 HanLP GitHub上的 Issues。 目录 第1章 新手上路 1.1 自然语言与编程语言 1.1.1 词汇量 1.1.2 结构化 1.1.3 歧义性 1.1.4 容错性 1.1.5 易变性 1.1.6 简略性 1.2 自然语言处理的层次 1.2.1 语音、图像和文本 1.2.2 中文分词、词性标注和命名实体识别 1.2.3 信息抽取 1.2.4 文本分类与文本聚类 1.2.5 句法分析 1.2.6 语义分析与篇章分析 1.2.7 其他高级任务 1.3 自然语言处理的流派 1.3.1 基于规则的专家系统 1.3.2 基于统计的学习方法 1.3.3 历史 1.3.4 规则与统计 1.3.5 传统方法与深度学习 1.4 机器学习 1.4.1 什么是机器学习 1.4.2 模型 1.4.3 特征 1.4.4 数据集 1.4.5 监督学习 1.4.6 无监督学习 1.4.7 其他类型的机器学习算法 1.5 语料库 1.5.1 中文分词语料库 1.5.2 词性标注语料库 1.5.3 命名实体识别语料库 1.5.4 句法分析语料库 1.5.5 文本分类语料库 1.5.6 语料库建设 1.6 开源工具 1.6.1 主流NLP工具比较 1.6.2 Python接口 1.6.3 Java接口 1.7 总结 第2章 词典分词 2.1 什么是词 2.1.1 词的定义 2.1.2 词的性质--齐夫定律 2.2 词典 2.2.1 HanLP词典 2.2.2 词典的加载 2.3 切分算法 2.3.1 完全切分 2.3.2 正向最长匹配 2.3.3 逆向最长匹配 2.3.4 双向最长匹配 2.3.5 速度评测 2.4 字典树 2.4.1 什么是字典树 2.4.2 字典树的节点实现 2.4.3 字典树的增删改查实现 2.4.4 首字散列其余二分的字典树 2.4.5 前缀树的妙用 2.5 双数组字典树 2.5.1 双数组的定义 2.5.2 状态转移 2.5.3 查询 2.5.4 构造 2.5.5 全切分与最长匹配 2.6 AC自动机 2.6.1 从字典树到AC自动机 2.6.2 goto表 2.6.3 output表 2.6.4 fail表 2.6.5 实现 2.7 基于双数组字典树的AC自动机 2.7.1 原理 2.7.2 实现 2.8 HanLP的词典分词实现 2.8.1 DoubleArrayTrieSegment 2.8.2 AhoCorasickDoubleArrayTrie-Segment 2.9 准确率评测 2.9.1 准确率 2.9.2 混淆矩阵与TP/FN/FP/TN 2.9.3 精确率 2.9.4 召回率 2.9.5 F1值 2.9.6 中文分词中的P、R、F1计算 2.9.7 实现 2.9.8 第二届国际中文分词评测 2.9.9 OOVRecallRate与IVRecallRate 2.10 字典树的其他应用 2.10.1 停用词过滤 2.10.2 简繁转换 2.10.3 拼音转换 2.11 总结 第3章 二元语法与中文分词 3.1 语言模型 3.1.1 什么是语言模型 3.1.2 马尔可夫链与二元语法 3.1.3 n元语法 3.1.4 数据稀疏与平滑策略 3.2 中文分词语料库 3.2.11 998年《人民日报》语料库PKU 3.2.2 微软亚洲研究院语料库MSR 3.2.3 繁体中文分词语料库 3.2.4 语料库统计 3.3 训练 3.3.1 加载语料库 3.3.2 统计一元语法 3.3.3 统计二元语法 3.4 预测 3.4.1 加载模型 3.4.2 构建词网 3.4.3 节点间的距离计算 3.4.4 词图上的维特比算法 3.4.5 与用户词典的集成 3.5 评测 3.5.1 标准化评测 3.5.2 误差分析 3.5.3 调整模型 3.6 日语分词 3.6.1 日语分词语料 3.6.2 训练日语分词器 3.7 总结 第4章 隐马尔可夫模型与序列标注 4.1 序列标注问题 4.1.1 序列标注与中文分词 4.1.2 序列标注与词性标注 4.1.3 序列标注与命名实体识别 4.2 隐马尔可夫模型 4.2.1 从马尔可夫假设到隐马尔可夫模型 4.2.2 初始状态概率向量 4.2.3 状态转移概率矩阵 4.2.4 发射概率矩阵 4.2.5 隐马尔可夫模型的三个基本用法 4.3 隐马尔可夫模型的样本生成 4.3.1 案例--医疗诊断 4.3.2 样本生成算法 4.4 隐马尔可夫模型的训练 4.4.1 转移概率矩阵的估计 4.4.2 初始状态概率向量的估计 4.4.3 发射概率矩阵的估计 4.4.4 验证样本生成与模型训练 4.5 隐马尔可夫模型的预测 4.5.1 概率计算的前向算法 4.5.2 搜索状态序列的维特比算法 4.6 隐马尔可夫模型应用于中文分词 4.6.1 标注集 4.6.2 字符映射 4.6.3 语料转换 4.6.4 训练 4.6.5 预测 4.6.6 评测 4.6.7 误差分析 4.7 二阶隐马尔可夫模型 4.7.1 二阶转移概率张量的估计 4.7.2 二阶隐马尔可夫模型中的维特比算法 4.7.3 二阶隐马尔可夫模型应用于中文分词 4.8 总结 第5章 感知机分类与序列标注 5.1 分类 内容推荐 这是一本务实的入门书,助你零起点上手自然语言处理。 HanLP 作者何晗汇集多年经验,从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信 息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。 随着本书的学习,你将从普通程序员晋级为机器学习工程师,最后进化到自然语言处理工程师。 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。