网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 网络爬虫案例教程(Python微课视频版)/清华开发者书库
分类
作者
出版社 清华大学出版社
下载
简介
内容推荐
本书是为“数据采集与清洗”课程编写的教材,内容以实战为主,几乎所有章节都以案例方式展开,文字简单,通俗易懂。
本书共11章,主要讲解了Requests库,XPath语法,JSON数据爬取及解析,HTML文档爬取及解析,Selenium数据定位及模拟登录,Requests与Selenium结合使用,异步爬虫技术,正则表达式以及简单的数据清洗。爬取的数据类型包括网页数据、JSON数据、图片、音频及视频,以及这些不同类型数据的持久化保存。
本书适合作为大数据技术相关专业、信息类相关专业的本科或专科教材,也可供Python初学者、从事大数据挖掘的科技工作者参考。
作者简介
韩莹,防灾科技学院副教授,主要从事数据挖掘、数据采集与可视化及计算机视觉处理等教学和科研工作。讲授“数据结构”“数据采集与清洗”“数据可视化”等课程。近年来主持省级课题1项,发表中文核心期刊论文8篇,指导学生学科竞赛并获奖多次,指导大学生创新创业8项,荣获本科教学质量奖4次。
目录
第1章 绪论
1.1 网络爬虫的基本概念
1.2 网络爬虫的基本流程
1.2.1 发起请求
1.2.2 获取响应内容
1.2.3 解析内容
1.2.4 持久化保存数据
1.3 网络爬虫的合法性问题
1.4 反爬虫技术
1.4.1 User-agent控制访问
1.4.2 IP限制访问
1.4.3 设置请求间隔
1.4.4 通过参数加密和JavaScript脚本
1.4.5 通过robots.txt来限制爬虫
1.5 网络爬虫的预备知识
1.5.1 统一资源定位器
1.5.2 超文本传输协议
1.5.3 超文本标记语言
1.6 开发语言和开发环境
1.6.1 开发语言
1.6.2 第三方请求库
1.6.3 开发工具
第2章 Requests库
2.1 安装Requests库
2.2 Requests库发送请求
2.3 查看响应内容
2.3.1 查看响应状态码
2.3.2 查看响应的文本信息
2.3.3 解决乱码问题
2.3.4 二进制码响应内容
2.3.5 JSON响应内容
2.4 定制请求头部Headers
2.5 Chrome浏览器开发者工具面板
2.5.1 打开开发者工具面板
2.5.2 Elements面板
2.5.3 Network面板
2.6 GET请求单个网页的爬取案例
2.6.1 不带参数的GET请求
2.6.2 携带参数的GET请求
第3章 JSON数据爬取
3.1 Ajax
3.1.1 Ajax技术
3.1.2 分析数据来源
3.2 JSON
3.2.1 JSON语法规则
3.2.2 访问JSON数据
3.2.3 JSON文件读写操作
3.2.4 JSON数据校验和格式化
3.3 Ajax异步动态加载的数据爬虫
3.3.1 带参数的POST请求爬虫
3.3.2 多个网页多链接GET请求爬虫综合案例
3.4 POST请求的两种参数格式
3.4.1 Form Data类型
3.4.2 Request Payload类型
第4章 XPath解析及网页数据爬取
4.1 XPath简介及安装
4.2 XPath节点
4.2.1 基本值节点
4.2.2 节点关系
4.3 XPath语法
4.3.1 选取节点语法
4.3.2 谓语
4.3.3 选取未知节点
4.3.4 选取若干路径
4.3.5 初步使用XPath案例
4.4 XPath表达式
4.4.1 定位XPath搜索框
4.4.2 在网页上写XPath表达式
4.5 爬取HTML.文档数据案例
4.6 爬取多页HTML文档数据案例
4.6.1 翻页在参数里
4.6.2 翻页在URL中
4.7 图片爬虫案例
4.7.1 单张图片爬取
4.7.2 多页多幅图片爬虫案例
4.7.3 多类多页多图爬虫案例
第5章 IP代理
5.1 IP代理的作用
5.2 IP代理使用方法
5.3 搭建IP池
5.3.1 获取单页IP
5.3.2 获取多页IP
5.3.3 检测IP有效性
5.3.4 建立IP池
5.4 付费IP代理使用
第6章 Selenium库
6.1 Selenium安装及环境配置
6.1.1 Selenium安装
6.1.2 环境配置
6.1.3 环境测试
6.2 Selenium简单使用及配置
6.2.1 打开网页
6.2.2 规避伪装机制
6.2.3 常见的配置项
6.3 Selenium的元素定位操作
6.3.1 查看页面元素
6.3.2 通过ID定位元素
6.3.3 通过name定位元素
6.3.4 通过class定位元素
6.3.5 通过tag定位元素
6.3.6 通过link定位元素
6.3.7 通过partial_link定位元素
6.3.8 通过XPath定位元素
6.3.9 通过CSS定位元素
6.3.10 通过By定位元素
6.4 Selenium等待机制
6.4.1 固定等待
6.4.2 隐式等待
6.4.3 显式等待WebDriverWait
6.5 Selenium控制浏览器
6.5.1 浏览器的常见操作
6.5.2 不同窗口之间切换
6.5.3 鼠标事件
6.5.4 键盘事件
6.5.5 定位Frame/IFrame
6.5.6 页面下拉
6.5.7 窗口截图
6.5.8 文件上传
6.6 Selenium爬虫案例
6.6.1 单页爬取案例
6.6.2 多页爬取案例
第7章 Requests与Selenium结合使用
7.1 Selenium模拟登录
7.1.1 Selenium程序模拟登录
7.1.2 手动输入数据模拟登录
7.2 Cookie与Session机制
7.2.1 Cookie机制
7.2.2 Session机制
7.3 Requests、Cookie、Selenium结合使用
7.4 Selenium和Requests结合下载音乐
7.4.1 单首音乐下载
7.4.2 多首音乐下载
第8章 异步爬虫
8.1 基本概念
8.2 串行下载多个视频
8.3 使用线程池下载多个视频
8.3.1 Multiprocessing
8.3.2 Threading
8.4 使用协程下载多个视频
第9章 正则表达式
9.1 正则函数
9.1.1 re.match函数
9.1.2 re.search函数
9.1.3 re.sub函数
9.1.4 re.compile函数
9.1.5 re.findall函数
9.1.6 re.finditer函数
9.1.7 re.split函数
9.2 正则表达式模式及实例
9.3 正则表达式实例
9.3.1 匹配字符串
9.3.2 匹配字符组
9.3.3 区间匹配
9.3.4 特殊字符匹配
9
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/2/22 23:37:06