![]()
内容推荐 互联网上存在着大量值得收集的公共信息,而爬虫技术就是获取这些公共信息的主要工具。本书以主流的Scrapy爬虫框架为例,介绍了Python网络爬虫的组成、爬虫框架的使用以及分布式爬虫等内容。本书运用了大量案例和实践,融入了含金量十足的开发经验,使得内容紧密结合实际应用。在此基础上,本书还通过丰富的练习和操作实践,帮助读者巩固所学的内容。本书配以多元的学习资源和支持服务,包括视频、案例素材、学习社区等,为读者提供全方位的学习体验。 本书适合作为计算机、大数据等相关专业的教材,也适合具有一定Linux或Python开发基础的人员阅读,还可以作为爬虫工程师的学习用书。 目录 第1章 使用第三方库实现信息抓取 任务1 使用第三方库实现北京公交站点页面信息抓取 1.1.1 介绍爬虫 1.1.2 HTTP 1.1.3 HTML 1.1.4 使用第三方库实现爬虫功能 1.1.5 技能实训 任务2使用第三方库实现北京公交站点详细信息抓取 1.2.1 lxml库 1.2.2 第三方库数据抓取及保存 1.2.3 技能实训 本章小结 本章作业 第2章 初探Scrapy爬虫框架 任务1 安装Scrapy爬虫框架并创建爬虫工程 2.1.1 根据使用场景划分爬虫种类 2.1.2 开发基于Scrapy爬虫框架的工程 任务2学习并掌握Scrapy爬虫框架各模块的功能 2.2.1 Scrapy爬虫工程组成 2.2.2 Scrapy爬虫框架架构 本章小结 本章作业 第3章 提取网页数据 任务1 使用Scrapy的选择器提取豆瓣电影信息 3.1.1 Response对象 3.1.2 css选择器 3.1.3 多层级网页爬取 3.1.4 技能实训 任务2使用正则表达式从电影介绍详情中提取指定信息 3.2.1 正则表达式 3.2.2 技能实训 本章小结 本章作业 第4章 Scrapy数据保存(文件、MySQL、MongoDB) 任务一 使用Feed exports将爬取的电影信息保存到常见数据格式文件中 4.1.1 Feed exports 4.1.2 技能实训 任务2使用pipeline将爬取的电影信息数据保存到数据库中 4.2.1 Python操作MySQL数据库 4.2.2 pipeline模块 4.2.3 将数据保存到MongoDB中 4.2.4 技能实训 本章小结 本章作业 第5章 Scrapy反反爬技术 任务1 学习反爬虫和反反爬虫策略 5.1.1 反爬虫方法和反反爬虫策略 5.1.2 Scrapy设置实现反反爬 5.1.3 技能实训 任务2学习Scrapy框架中更多常用的设置 5.2.1 抓取需要登录的网站 5.2.2 Scrapy常用扩展设置 本章小结 本章作业 第6章 Selenium+浏览器加载动态数据 任务一使用Selenium和第三方浏览器驱动完成搜狐网页信息爬取 6.1.1 静态网页与动态网页 6.1.2 爬虫抓取动态网页的常用方法 6.1.3 Selenium+Chrome driver 6.1.4 技能实训 任务二使用Selenium+Chrome+Scrapy完成京东商品信息爬取 6.2.1 Selenium的使用 6.2.2 Selenium提高效率的方法 6.2.3 技能实训 本章小结 本章作业 第7章 App数据爬取 任务一使用Scrapy爬虫框架爬取雪球App基金频道新闻列表数据 7.1.1 App数据爬取介绍 7.1.2 App数据接口分析方法 7.1.3 使用Scrapy爬取App数据 7.1.4 技能实训 任务2使用Scrapy爬巴虫框架爬取知乎App推荐栏目列表数据 7.2.1 爬取使用证书校验技术的App数据 7.2.2 技能实训 本章小结 本章作业 第8章 分布式爬虫Scrapy-Redis 任务1搭建分布式爬虫运行环境 8.1.1 分布式爬虫框架介绍 8.1.2 搭建分布式爬虫运行环境 任务2 使用分布式爬虫完成对火车信息的爬取 8.2.1 Scrapy-Redis分布式爬虫 8.2.2 技能实训 本章小结 本章作业 第9章 Python数据分析 任务1 使用:Pandas统计招聘信息中城市名称出现的次数 9.1.1 Python数据分析 9.1.2 NumPy 9.1.3 Pandas 9.1.4 技能实训 任务2使用Matplotlib实现招聘信息中城市名称出现次数的可视化展示 9.2.1 数据可视化 9.2.2 技能实训 本章小结 本章作业 第10章 项目实训——爬取招聘网站数据 10.1 项目准备 lO.2 难点分析 10.3 项目实现思路 本章小结 本章作业 |