内容推荐 本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。 本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。 目录 出版说明 前言 基础篇 第1章 Python基础及网络爬虫 1.1 了解Python语言 1.1.1 Python是什么 1.1.2 Python的应用现状 1.2 配置安装Python开发环境 1.2.1 在Windows上安装 1.2.2 在Ubuntu和MacOS上安装 1.2.3 IDE的使用:以PyCharm为例 1.2.4 Jupyter Notebook简介 1.3 Python基本语法介绍 1.3.1 HelloWorld与数据类型 1.3.2 逻辑语句 1.3.3 Python中的函数与类 1.3.4 更深入了解Python 1.4 互联网、HTTP与HTML 1.4.1 互联网与HTTP 1.4.2 HTML 1.5 Hello,Spider 1.5.1 编写第一个爬虫程序 1.5.2 对爬虫的思考 1.6 分析网站 1.6.1 robots.txt与Sitemap简介 1.6.2 网站技术分析 1.6.3 网站所有者信息分析 1.6.4 使用开发者工具检查网页 1.7 本章小结 1.8 实践:Python环境的配置与爬虫的运行 1.8.1 需求说明 1.8.2 实现思路及步骤 1.9 习题 第2章 数据采集与预处理 2.1 数据 2.1.1 数据的概念 2.1.2 数据类型 2.1.3 数据的存储形式 2.1.4 数据的价值 2.1.5 大数据时代 2.2 数据分析过程 2.3 数据采集 2.3.1 数据采集的概念 2.3.2 数据采集的数据源 2.3.3 数据采集方法 2.4 数据清洗 2.4.1 数据清洗概述 2.4.2 数据清洗的内容 2.4.3 数据清洗的基本流程 2.4.4 数据清洗的评价标准 2.5 数据集成 2.6 数据转换 2.6.1 数据转换概念与策略 2.6.2 平滑处理 2.6.3 标准化处理 2.7 数据脱敏 …… 进阶篇 提高篇 实战篇 参考文献 |