![]()
内容推荐 网络爬虫是当今获取数据不可或缺的重要手段。本书讲解了Python爬虫的进阶理论与技术,帮助读者提升实战水平。 全书共7章。第1~3章为常见反爬机制的应对手段,主要内容包括Cookie模拟登录、多种类型的验证码识别、Ajax动态请求破解。第4章为手机App内容爬取。第5章和第6章为Scrapy爬虫框架应用。第7章为爬虫云服务器部署。 本书适合有一定Python网络爬虫编程基础的学生或相关从业人员,以及想要在Python网络爬虫开发、不同类型的反爬机制应对、爬虫框架开发、爬虫云端部署等方面进阶提高的读者。 作者简介 王宇韬,华能贵诚信托金融科技实验室发起人,宾夕法尼亚大学硕士,上海交通大学学士,两年内通过CFA 3级、FRM 2级、AQF,在华能贵诚信托自主研发了舆情监控系统、资金雷达、流程自动化AI系统、机器视频面试系统等,专注于科技在金融领域的应用。 目录 前言 本书学习资源 第1章 Cookie模拟登录 1.1 Cookie模拟登录的原理 1.1.1 客户端与服务端 1.1.2 HTTP的无状态性 1.1.3 Cookie的含义与作用 1.1.4 Session的含义与作用 1.1.5 Cookie与Session的交互 1.2 案例实战1:模拟登录淘宝并爬取数据 1.2.1 获取Cookie模拟登录淘宝 1.2.2 爬取淘宝商品数据 1.3 案例实战2:模拟登录新浪微博并爬取数据 1.3.1 获取Cookie模拟登录新浪微博 1.3.2 爬取新浪微博热搜榜信息 课后习题 第2章 验证码反爬的应对 2.1 图像验证码 2.1.1 超级鹰平台注册 2.1.2 超级鹰Python接口的使用 2.1.3 案例实战:英文验证码和中文验证码识别 2.2 计算题验证码 2.3 滑块验证码 2.4 滑动拼图验证码 2.4.1 初级版滑动拼图验证码 2.4.2 高级版滑动拼图验证码 2.5 点选验证码 2.5.1 本地网页识别 2.5.2 bilibili点选验证码识别初探 2.5.3 bilibili点选验证码识别升级:无限尝试版 课后习题 第3章 Ajax动态请求破解 3.1 Ajax简介 3.1.1 不同的网页翻页方式的对比 3.1.2 Ajax的基本概念与工作原理 3.2 案例实战1:爬取开源中国博客频道 3.2.1 分析Ajax请求 3.2.2 爬取单页博客 3.2.3 爬取多页博客 3.3 案例实战2:爬取新浪微博 3.3.1 模拟登录新浪微博 3.3.2 分析单个微博页面 3.3.3 破解Ajax请求爬取多页 课后习题 第4章 手机App内容爬取 4.1 相关软件安装 4.1.1 安装夜神模拟器 4.1.2 安装Node.js 4.1.3 安装JDK 4.1.4 安装Android Studio 4.1.5 安装Appium 4.1.6 安装Appium-Python-Client库 4.2 手机模拟操作初步尝试 4.2.1 用Android Studio连接夜神模拟器 4.2.2 用Python连接微信App 4.3 Appium基本操作与进阶操作 4.3.1 Appium基本操作 4.3.2 Appium进阶操作 4.4 案例实战:爬取微信朋友圈内容 4.4.1 获取微信朋友圈页面源代码 4.4.2 提取微信朋友圈内容 4.5 多开模拟器打开多个微信 4.5.1 多开模拟器 4.5.2 用Appium连接多个模拟器 课后习题 第5章 Scrapy爬虫框架 5.1 Scrapy框架基础 5.1.1 Scrapy的安装方法 5.1.2 Scrapy的整体架构 5.1.3 Scrapy的常用指令 5.2 案例实战1:百度新闻爬取 5.2.1 Robots协议破解 5.2.2 User-Agent设置 5.2.3 百度新闻标题爬取 5.3 案例实战2:新浪新闻爬取 5.3.1 实体文件设置 5.3.2 新浪新闻爬取:爬取一条新闻 5.3.3 新浪新闻爬取:爬取多条新闻 5.3.4 新浪新闻爬取:生成文本文件报告 5.4 案例实战3:豆瓣电影海报图片爬取 5.4.1 用常规方法爬取 5.4.2 用Scrapy爬取 5.5 知识拓展:Python类的相关知识 5.5.1 类和对象的概念 5.5.2 类名、属性和方法 5.5.3 类的进阶知识 课后习题 第6章 Scrapy应对反爬 6.1 中间件技术概述 6.1.1 下载器中间件 6.1.2 爬虫中间件 6.2 Scrapy IP代理:爬取搜狗图片 6.2.1 用Requests库批量下载图片 6.2.2 用Scrapy框架批量下载图片 6.3 Scrapy Cookie:模拟登录淘宝 6.3.1 在中间件文件中添加Cookie 6.3.2 编写并运行爬虫文件:爬取淘宝网页 6.4 Scrapy Selenium库:爬取财经新闻 6.4.1 在中间件文件中添加Selenium库 6.4.2 编写并运行爬虫文件:爬取新闻信息 课后习题 第7章 爬虫云服务器部署 7.1 HTML网页制作进阶 7.1.1 表格 7.1.2 列表 7.1.3 样式设计 7.1.4 背景设置 7.2 Flask Web编程基础 7.2.1 Flask入门 7.2.2 用render_template()函数渲染页面 7.2.3 用Flask连接数据库 7.3 Flask Web编程实战 7.3.1 展示单家公司的数据 7.3.2 展示多家公司的数据 7.3.3 展示舆情评分 7.3.4 只展示当天新闻 7.3.5 只展示负面新闻 7.4 云服务器的购买和登录 7.5 程序云端部署及网站搭建 7.5.1 搭建程序的运行环境 7.5.2 程序24小时运行及Flask项目部署 7.5.3 域名申请和使用 课后习题 |