内容推荐 本书集学术前沿、教学成果与应用实践于一体,系统讲述自然语言处理理论与应用。全书分为5篇,基础理论篇包括第1~4章,主要内容为自然语言处理与应用概述、面向自然语言处理的深度学习经典平台与算法、面向自然语言处理的深度学习前沿进展、预训练语言模型;信息处理篇包括第5~9章,主要内容为网络爬虫技术、多格式文档解析与管理、语音文字识别、图像语义表示与字符识别、中文分词与词性标注;语义分析篇包括第10~13章,主要内容为情感分析、新词发现、命名实体识别与关键词提取、知识图谱的大数据自动构建与应用;文本挖掘篇包括第14~18章,主要内容为信息过滤、文本分类、文本聚类、文本校对、自动摘要;应用篇包括第19、20章,主要内容为自然语言处理应用项目和案例。 本书可作为高等学校自然语言处理方向研究生与高年级本科生的专业课教材,也可供自然语言处理方向的科研人员、工程技术人员和爱好者参考。 作者简介 张华平博士,北京理工大学副教授,知名汉语分词系统ICTCLAS创始人,NLPIR大数据语义智能分析平台创始人,中国中文信息学会社会媒体处理专业委员会副秘书长,北京市顺义区政府特聘专家委员;研究方向为大数据搜索与挖掘、自然语言处理、信息检索与信息安全;主持国家自然科学基金、863、973、242等国家科研课题十余项,曾先后获得钱伟长中文信息处理科学技术奖一等奖、新疆维吾尔自治区科学技术进步二等奖,发表多部专著与论文。 目录 第1篇 基础理论篇 第1章 自然语言处理与应用概述 1.1 自然语言处理 1.1.1 自然语言处理的定义、难点及其发展历程 1.1.2 自然语言处理的上下游任务 1.2 中文自然语言处理发展现状 1.2.1 自然语言处理任务评测结果 1.2.2 中文数据集与评测现状 1.2.3 中文预训练语言模型现状 1.2.4 中国影响力现状 1.3 自然语言处理的发展趋势 1.3.1 处理从人工到自动化 1.3.2 应用从通用到场景化 1.3.3 算法从单一到平台化 1.4 中文互联网自然语言处理面临的挑战 1.4.1 信息对抗 1.4.2 多语言交互 1.4.3 社会演化 第2章 面向自然语言处理的深度学习经典平台与算法 2.1 深度学习经典平台 2.1.1 TensorFlow 2.1.2 PyTorch 2.1.3 PaddlePaddle 2.2 深度学习经典算法 2.2.1 卷积神经网络 2.2.2 循环神经网络 2.2.3 生成对抗网络 第3章 面向自然语言处理的深度学习前沿进展 3.1 传统深度学习遇到的瓶颈 3.1.1 深度学习概述 3.1.2 传统深度学习遇到的问题 3.2 面向数据的深度学习前沿进展 3.2.1 主动学习 3.2.2 自监督学习 3.2.3 提示学习 3.2.4 图神经网络 3.2.5 多模态学习 3.3 面向训练的深度学习前沿进展 3.3.1 多任务学习 3.3.2 终身学习 3.3.3 范式迁移 3.4 面向应用的深度学习前沿进展 3.4.1 模型压缩 3.4.2 可解释学习 3.4.3 对抗与算法安全 第4章 预训练语言模型 4.1 预训练语言模型概述 4.1.1 预训练语言模型定义 4.1.2 预训练语言模型的发展历程 4.2 常见预训练语言模型介绍 4.2.1 BERT 4.2.2 GPT-3 4.2.3 ELMo 4.2.4 ERNIE 4.3 预训练语言模型的使用 4.3.1 迁移学习 4.3.2 微调 4.4 预训练语言模型发展趋势 4.4.1 多语种 4.4.2 多模态 4.4.3 增大模型 4.4.4 替换预训练任务 …… 第2篇 信息处理篇 第3篇 语义分析篇 第4篇 文本挖掘篇 第5篇 应用篇 |