内容推荐 将文本转换成有价值的信息是企业寻求竞争优势的关键。随着近年来自然语言处理(NLP)的发展,如今用户可以通过各种方式来解决复杂的难题。但用户不清楚选择何种NLP工具或库才能满足业务需求,他们不知道应该使用何种技术以及按照怎样的顺序使用这些技术。 这本实战手册为数据科学家和开发人员提供了文本分析与自然语言处理中常见任务的最佳实践解决方案。书中介绍了各种Python真实案例研究,并提供了详细的代码示例,可以帮助你快速入门。 提取API与网页的数据。 统计分析和机器学习的文本数据预处理。 机器学习分类、主题建模与摘要。 解释Al模型与分类的结果。 利用单词嵌入,探索及可视化语义相似性。 分析产品评论中的客户情感。 根据命名实体及其关系创建知识图。 作者简介 延斯·阿尔布雷希特(Jens Albrecht)是纽伦堡理工学院计算机科学系的全职教授。主要从事数据管理与分析领域的研究,尤其侧重于文本分析。 目录 前言 第1章 洞悉文本数据 1.1 本章内容概要 1.2 探索性数据分析 1.3 数据集简介 1.4 案例:使用Pandas获取数据概要 1.4.1 计算列的汇总统计结果 1.4.2 检查缺少的数据 1.4.3 绘制值的分布图 1.4.4 比较各个类别的分布 1.4.5 可视化一段时间内的变化 1.5 案例:构建简单的文本预处理流水线 1.5.1 使用正则表达式分词 1.5.2 删除停用词 1.5.3 通过一行代码处理流水线 1.6 词频分析案例 1.6.1 案例:使用Counter统计单词个数 1.6.2 案例:创建词频图 1.6.3 案例:创建词云 1.6.4 案例:TF-IDF排名 1.7 案例:查找上下文关键字 1.8 案例:n元语法分析 1.9 案例:比较不同时间段和类别的词频 1.9.1 创建词频时间表 1.9.2 创建词频热图 1.10 小结 第2章 利用API提取文本 2.1 本章内容概要 2.2 应用程序编程接口 2.3 案例:使用requests模块通过API提取数据 2.3.1 分页 2.3.2 速率限制 2.4 案例:使用Tweepy提取推特数据 2.4.1 获取凭证 2.4.2 安装与配置Tweepy 2.4.3 通过Search API提取数据 2.4.4 从用户的时间线中提取数据 2.4.5 通过流API提取数据 2.5 小结 第3章 网页抓取与数据提取 3.1 本章内容概要 3.2 抓取网页与提取数据 3.3 路透社新闻存档简介 3.4 URL生成 3.5 案例:下载和解读robots.txt 3.6 案例:从sitemap.xml中寻找URL 3.7 案例:通过RSS查找URL 3.8 下载数据 3.9 案例:使用Python下载HTML页面 3.10 案例:利用wget下载HTML页面 3.11 提取半结构化数据 …… 第4章 准备统计和机器学习的文本数据 第5章 特征工程与句法相似性 第6章 文本分类算法 第7章 解释文本分类器 第8章 非监督学习:主题建模与聚类 第9章 文本摘要 第10章 通过单词嵌入探索语义关系 第11章 文本数据的情感分析 第12章 知识图谱 第13章 文本分析的生产应用 |