网络爬虫案例教程(Python微课视频版)/清华开发者书库豆瓣PDF电子书bt网盘迅雷下载电子书下载-霍普软件下载网

第1章绪论
1.1 网络爬虫的基本概念
1.2 网络爬虫的基本流程
1.2.1 发起请求
1.2.2 获取响应内容
1.2.3 解析内容
1.2.4 持久化保存数据
1.3 网络爬虫的合法性问题
1.4 反爬虫技术
1.4.1 User-agent控制访问
1.4.2 IP限制访问
1.4.3 设置请求间隔
1.4.4 通过参数加密和JavaScript脚本
1.4.5 通过robots.txt来限制爬虫
1.5 网络爬虫的预备知识
1.5.1 统一资源定位器
1.5.2 超文本传输协议
1.5.3 超文本标记语言
1.6 开发语言和开发环境
1.6.1 开发语言
1.6.2 第三方请求库
1.6.3 开发工具
第2章 Requests库
2.1 安装Requests库
2.2 Requests库发送请求
2.3 查看响应内容
2.3.1 查看响应状态码
2.3.2 查看响应的文本信息
2.3.3 解决乱码问题
2.3.4 二进制码响应内容
2.3.5 JSON响应内容
2.4 定制请求头部Headers
2.5 Chrome浏览器开发者工具面板
2.5.1 打开开发者工具面板
2.5.2 Elements面板
2.5.3 Network面板
2.6 GET请求单个网页的爬取案例
2.6.1 不带参数的GET请求
2.6.2 携带参数的GET请求
第3章 JSON数据爬取
3.1 Ajax
3.1.1 Ajax技术
3.1.2 分析数据来源
3.2 JSON
3.2.1 JSON语法规则
3.2.2 访问JSON数据
3.2.3 JSON文件读写操作
3.2.4 JSON数据校验和格式化
3.3 Ajax异步动态加载的数据爬虫
3.3.1 带参数的POST请求爬虫
3.3.2 多个网页多链接GET请求爬虫综合案例
3.4 POST请求的两种参数格式
3.4.1 Form Data类型
3.4.2 Request Payload类型
第4章 XPath解析及网页数据爬取
4.1 XPath简介及安装
4.2 XPath节点
4.2.1 基本值节点
4.2.2 节点关系
4.3 XPath语法
4.3.1 选取节点语法
4.3.2 谓语
4.3.3 选取未知节点
4.3.4 选取若干路径
4.3.5 初步使用XPath案例
4.4 XPath表达式
4.4.1 定位XPath搜索框
4.4.2 在网页上写XPath表达式
4.5 爬取HTML.文档数据案例
4.6 爬取多页HTML文档数据案例
4.6.1 翻页在参数里
4.6.2 翻页在URL中
4.7 图片爬虫案例
4.7.1 单张图片爬取
4.7.2 多页多幅图片爬虫案例
4.7.3 多类多页多图爬虫案例
第5章 IP代理
5.1 IP代理的作用
5.2 IP代理使用方法
5.3 搭建IP池
5.3.1 获取单页IP
5.3.2 获取多页IP
5.3.3 检测IP有效性
5.3.4 建立IP池
5.4 付费IP代理使用
第6章 Selenium库
6.1 Selenium安装及环境配置
6.1.1 Selenium安装
6.1.2 环境配置
6.1.3 环境测试
6.2 Selenium简单使用及配置
6.2.1 打开网页
6.2.2 规避伪装机制
6.2.3 常见的配置项
6.3 Selenium的元素定位操作
6.3.1 查看页面元素
6.3.2 通过ID定位元素
6.3.3 通过name定位元素
6.3.4 通过class定位元素
6.3.5 通过tag定位元素
6.3.6 通过link定位元素
6.3.7 通过partial_link定位元素
6.3.8 通过XPath定位元素
6.3.9 通过CSS定位元素
6.3.10 通过By定位元素
6.4 Selenium等待机制
6.4.1 固定等待
6.4.2 隐式等待
6.4.3 显式等待WebDriverWait
6.5 Selenium控制浏览器
6.5.1 浏览器的常见操作
6.5.2 不同窗口之间切换
6.5.3 鼠标事件
6.5.4 键盘事件
6.5.5 定位Frame/IFrame
6.5.6 页面下拉
6.5.7 窗口截图
6.5.8 文件上传
6.6 Selenium爬虫案例
6.6.1 单页爬取案例
6.6.2 多页爬取案例
第7章 Requests与Selenium结合使用
7.1 Selenium模拟登录
7.1.1 Selenium程序模拟登录
7.1.2 手动输入数据模拟登录
7.2 Cookie与Session机制
7.2.1 Cookie机制
7.2.2 Session机制
7.3 Requests、Cookie、Selenium结合使用
7.4 Selenium和Requests结合下载音乐
7.4.1 单首音乐下载
7.4.2 多首音乐下载
第8章异步爬虫
8.1 基本概念
8.2 串行下载多个视频
8.3 使用线程池下载多个视频
8.3.1 Multiprocessing
8.3.2 Threading
8.4 使用协程下载多个视频
第9章正则表达式
9.1 正则函数
9.1.1 re.match函数
9.1.2 re.search函数
9.1.3 re.sub函数
9.1.4 re.compile函数
9.1.5 re.findall函数
9.1.6 re.finditer函数
9.1.7 re.split函数
9.2 正则表达式模式及实例
9.3 正则表达式实例
9.3.1 匹配字符串
9.3.2 匹配字符组
9.3.3 区间匹配
9.3.4 特殊字符匹配
9

电子书	网络爬虫案例教程(Python微课视频版)/清华开发者书库
分类	电子书下载
作者
出版社	清华大学出版社
下载		暂无下载资源
介绍	内容推荐本书是为“数据采集与清洗”课程编写的教材，内容以实战为主，几乎所有章节都以案例方式展开，文字简单，通俗易懂。本书共11章，主要讲解了Requests库，XPath语法，JSON数据爬取及解析，HTML文档爬取及解析，Selenium数据定位及模拟登录，Requests与Selenium结合使用，异步爬虫技术，正则表达式以及简单的数据清洗。爬取的数据类型包括网页数据、JSON数据、图片、音频及视频，以及这些不同类型数据的持久化保存。本书适合作为大数据技术相关专业、信息类相关专业的本科或专科教材，也可供Python初学者、从事大数据挖掘的科技工作者参考。作者简介韩莹，防灾科技学院副教授，主要从事数据挖掘、数据采集与可视化及计算机视觉处理等教学和科研工作。讲授“数据结构”“数据采集与清洗”“数据可视化”等课程。近年来主持省级课题1项，发表中文核心期刊论文8篇，指导学生学科竞赛并获奖多次，指导大学生创新创业8项，荣获本科教学质量奖4次。目录第1章绪论 1.1 网络爬虫的基本概念 1.2 网络爬虫的基本流程 1.2.1 发起请求 1.2.2 获取响应内容 1.2.3 解析内容 1.2.4 持久化保存数据 1.3 网络爬虫的合法性问题 1.4 反爬虫技术 1.4.1 User-agent控制访问 1.4.2 IP限制访问 1.4.3 设置请求间隔 1.4.4 通过参数加密和JavaScript脚本 1.4.5 通过robots.txt来限制爬虫 1.5 网络爬虫的预备知识 1.5.1 统一资源定位器 1.5.2 超文本传输协议 1.5.3 超文本标记语言 1.6 开发语言和开发环境 1.6.1 开发语言 1.6.2 第三方请求库 1.6.3 开发工具第2章 Requests库 2.1 安装Requests库 2.2 Requests库发送请求 2.3 查看响应内容 2.3.1 查看响应状态码 2.3.2 查看响应的文本信息 2.3.3 解决乱码问题 2.3.4 二进制码响应内容 2.3.5 JSON响应内容 2.4 定制请求头部Headers 2.5 Chrome浏览器开发者工具面板 2.5.1 打开开发者工具面板 2.5.2 Elements面板 2.5.3 Network面板 2.6 GET请求单个网页的爬取案例 2.6.1 不带参数的GET请求 2.6.2 携带参数的GET请求第3章 JSON数据爬取 3.1 Ajax 3.1.1 Ajax技术 3.1.2 分析数据来源 3.2 JSON 3.2.1 JSON语法规则 3.2.2 访问JSON数据 3.2.3 JSON文件读写操作 3.2.4 JSON数据校验和格式化 3.3 Ajax异步动态加载的数据爬虫 3.3.1 带参数的POST请求爬虫 3.3.2 多个网页多链接GET请求爬虫综合案例 3.4 POST请求的两种参数格式 3.4.1 Form Data类型 3.4.2 Request Payload类型第4章 XPath解析及网页数据爬取 4.1 XPath简介及安装 4.2 XPath节点 4.2.1 基本值节点 4.2.2 节点关系 4.3 XPath语法 4.3.1 选取节点语法 4.3.2 谓语 4.3.3 选取未知节点 4.3.4 选取若干路径 4.3.5 初步使用XPath案例 4.4 XPath表达式 4.4.1 定位XPath搜索框 4.4.2 在网页上写XPath表达式 4.5 爬取HTML.文档数据案例 4.6 爬取多页HTML文档数据案例 4.6.1 翻页在参数里 4.6.2 翻页在URL中 4.7 图片爬虫案例 4.7.1 单张图片爬取 4.7.2 多页多幅图片爬虫案例 4.7.3 多类多页多图爬虫案例第5章 IP代理 5.1 IP代理的作用 5.2 IP代理使用方法 5.3 搭建IP池 5.3.1 获取单页IP 5.3.2 获取多页IP 5.3.3 检测IP有效性 5.3.4 建立IP池 5.4 付费IP代理使用第6章 Selenium库 6.1 Selenium安装及环境配置 6.1.1 Selenium安装 6.1.2 环境配置 6.1.3 环境测试 6.2 Selenium简单使用及配置 6.2.1 打开网页 6.2.2 规避伪装机制 6.2.3 常见的配置项 6.3 Selenium的元素定位操作 6.3.1 查看页面元素 6.3.2 通过ID定位元素 6.3.3 通过name定位元素 6.3.4 通过class定位元素 6.3.5 通过tag定位元素 6.3.6 通过link定位元素 6.3.7 通过partial_link定位元素 6.3.8 通过XPath定位元素 6.3.9 通过CSS定位元素 6.3.10 通过By定位元素 6.4 Selenium等待机制 6.4.1 固定等待 6.4.2 隐式等待 6.4.3 显式等待WebDriverWait 6.5 Selenium控制浏览器 6.5.1 浏览器的常见操作 6.5.2 不同窗口之间切换 6.5.3 鼠标事件 6.5.4 键盘事件 6.5.5 定位Frame/IFrame 6.5.6 页面下拉 6.5.7 窗口截图 6.5.8 文件上传 6.6 Selenium爬虫案例 6.6.1 单页爬取案例 6.6.2 多页爬取案例第7章 Requests与Selenium结合使用 7.1 Selenium模拟登录 7.1.1 Selenium程序模拟登录 7.1.2 手动输入数据模拟登录 7.2 Cookie与Session机制 7.2.1 Cookie机制 7.2.2 Session机制 7.3 Requests、Cookie、Selenium结合使用 7.4 Selenium和Requests结合下载音乐 7.4.1 单首音乐下载 7.4.2 多首音乐下载第8章异步爬虫 8.1 基本概念 8.2 串行下载多个视频 8.3 使用线程池下载多个视频 8.3.1 Multiprocessing 8.3.2 Threading 8.4 使用协程下载多个视频第9章正则表达式 9.1 正则函数 9.1.1 re.match函数 9.1.2 re.search函数 9.1.3 re.sub函数 9.1.4 re.compile函数 9.1.5 re.findall函数 9.1.6 re.finditer函数 9.1.7 re.split函数 9.2 正则表达式模式及实例 9.3 正则表达式实例 9.3.1 匹配字符串 9.3.2 匹配字符组 9.3.3 区间匹配 9.3.4 特殊字符匹配 9
截图
随便看	《争霸天下》多人有声剧主播：夜彦 1258集完[MP3] 《读史防小人：解析历史上多种小人的识别与防范智慧》[PDF] 《2026年日历台历挂历素材模板文案》[PDF] 《樊登读书会历年合集》（按类别分类）珍藏版音频版+视频版[MP4+MP3] 《 260部大合集收藏起来慢慢看》 [高清漫画][mobi] [150G] 《完全人体解剖涂色书》150余幅精准人体解剖插图涵盖所有解剖学系统内容丰富全面[pdf] 《直播之单挑荒野》有声小说主播：辰天 665集完[MP3] 《人性高手》教你洞察人心、掌控社交主动权[PDF] 《家父儒圣，系统非逼我做粗鄙武夫》多人有声剧主播：凌星儿 755集完[MP3] 《DeepSeek炒股票AI模型》小白教程 [MP4] [4.9GB] 《人工智能极简史》张军平豆瓣7.8 [PDF] 《长生界》有声小说：头陀渊工作室[MP3] 《好色男女》大胆地正视男女间的性生活[EPUB] 《知识藏经阁 2026年1月更新》[PDF] 《微信读书2025年热搜趋势合集》[EPUB] 《大学怎么过：超越知识的四种底层思维能力》吴子牛 2025-8月新书豆瓣8.6[PDF] 《股票投资书籍集合》炒股必备[PDF][1.6G] 《孤王寡女》多人有声剧主播：沐阳讲故事 1278集完[MP3] 《周易的野心：历史深处全是人性》梁冬 2025-6月新书豆瓣9.0[PDF] 《三十三条雄xing领袖法诱惑美女法则》调情高手作者又一部把妹神作[EPUB] 《749局绝密档案》有声小说悬疑灵异恐怖推理 386集完结[mp3] 《DeepSeek ChatGPT openai 提示词官方课》[MP4] 《精心整理的23套区块链教程合集》[mp4] [119.6GB] 《第一龙王》多人有声剧主播：嗨扬 1443集完[MP3] 《高中英语语法全彩漫画版》PASS绿卡图书 [PDF] 《病娇暴君他有读心术》多人有声剧主播：冷月浅浅&银河大魔王 487集完[MP3] 《精选知识星球付费文合集》包含各个私密社区高质量付费文章[PDF][5.2GB] 《AI实战兵法，从工具驾驭到战略布局》课程[mp4] [3.9GB] 《最新书源合集》用哪个装哪个，已校验 · 去重 · 过滤[43.5GB] 《中国古代禁毁言情小说》套装18册这小说应该都喜欢[pdf]