第1章 Python开发环境的搭建
1.1 PYTHON SDK安装
1.1.1 在Windows上安装Python
1.1.2 在Ubuntu上安装Python
1.2 安装开发工具PYCHARM社区版
1.3 安装开发工具VISUAL STUDIO社区版
第2章 爬虫基础知识
2.1 爬虫原理
2.1.1 爬虫运行基本流程
2.1.2 HTTP请求过程
2.2 网页分析方法1:浏览器开发人员工具
2.2.1 Elements面板
2.2.2 Network面板
2.3 网页分析方法2:XPATH语法
2.3.1 XPath节点
2.3.2 XPath语法
2.3.3 XPath轴
2.3.4 XPath运算符
2.4 网页分析方法3:CSS选择语法
2.4.1 元素选择器
2.4.2 类选择器
2.4.3 ID选择器
2.4.4 属性选择器
2.4.5 后代选择器
2.4.6 子元素选择器
2.4.7 相邻兄弟选择器
2.5 网页分析方法4:正则表达式
2.5.1 提取指定字符
2.5.2 预定义字符集
2.5.3 数量限定
2.5.4 分支匹配
2.5.5 分组
2.5.6 零宽断言
2.5.7 贪婪模式与非贪婪模式
2.5.8 Python中的正则表达式
2.6 爬虫常用类库1:PYTHON中的HTTP基本库URLLIB
2.6.1 发送请求
2.6.2 使用Cookie
2.7 爬虫常用类库2:更人性化的第三方库REQUESTS
2.7.1 发送请求
2.7.2 请求头
2.7.3 响应内容
2.7.4 响应状态码
2.7.5 cookies参数
2.7.6 重定向与请求历史
2.7.7 超时
2.7.8 设置代理
2.7.9 会话对象
2.8 爬虫常用类库3:元素提取利器BEAUTIFULSOUP
2.8.1 安装BeautifulSoup
2.8.2 安装解析器
2.8.3 BeautifulSoup使用方法
2.8.4 BeautifulSoup对象
2.8.5 遍历文档树
2.8.6 搜索文档树
2.8.7 BeautifulSoup中的CSS选择器
2.9 爬虫常用类库4:SELENIUM操纵浏览器
2.9.1 安装Selenium
2.9.2 Selenium的基本使用方法
2.9.3 Selenium Webdriver的原理
2.9.4 Selenium中的元素定位方法
2.9.5 Selenium Webdriver基本操作
2.9.6 Selenium实战:抓取拉钩网招聘信息
2.10 爬虫常用类库5:SCRAPY爬虫框架
2.10.1 安装Scrapy
2.10.2 Scrapy简介
2.11 基本爬虫实战:抓取CNBETA网站科技类文章
2.11.1 URL管理器
2.11.2 数据下载器
2.11.3 数据分析器
2.11.4 数据保存器
2.11.5 调度器
第3章 Scrapy命令行与Shell
3.1 SCRAPY命令行介绍
3.1.1 使用startproject创建项目
3.1.2 使用genspider创建爬虫
3.1.3 使用crawl启动爬虫
3.1.4 使用list查看爬虫
3.1.5 使用fetch获取数据
3.1.6 使用runspider运行爬虫
3.1.7 通过view使用浏览器打开URL
3.1.8 使用parse测试爬虫
3.2 SCRAPY SHELL命令行
3.2.1 Scrapy Shell的用法
3.2.2 实战:解析名人名言网站
第4章 Scrapy爬虫
4.1 编写爬虫
4.1.1 scrapy.Spider爬虫基本类
4.1.2 start_requests()方法
4.1.3 parse(response)方法
4.1.4 Selector选择器
4.2 通用爬虫
4.2.1 CrawlSpider
4.2.2 XMLFeedSpider
4.2.3 CSVFeedSpider
4.2.4 SitemapSpider
4.3 爬虫实战
4.3.1 实战1:CrawlSpider爬取名人名言
4.3.2 实战2:XMLFeedSpider爬取伯乐在线的RSS
4.3.3 实战3:CSVFeedSpider提取csv文件数据
4.3.4 实战4:SitemapSpider爬取博客园文章
第5章 Scrapy管道
5.1 管道简介
5.2 编写自定义管道
5.3 下载文件和图片
5.3.1 文件管道
5.3.2 图片管道
5.4 数据库存储MYSQL
5.4.1 在Ubuntu上安装MySQL
5.4.2 在Windows上安装MySQL
5.4.3 MySQL基础
5.4.4 MySQL基本操作
5.4.5 Python操作MySQL
5.5 数据库存储MONGODB
5.5.1 在Ubuntu上安装MongoDB
5.5.2 在Windows上安装MongoDB
5.5.3 MongoDB基础
5.5.4 MongoDB基本操作
5.5.5 Python操作MongoDB
5.6 实战:爬取链家二手房信息并保存到数据库
第6章 Request与Response
6.1 REQUEST对象
6.1.1 Request类详解
6.1.2 Request回调函数与错误处理
6.2 RESPONSE
6.2.1 Response类详解
6.2.2 Response子类
第7章 Scrapy中间件
7.1 编写自定义SPIDER中间件
7.1.1 激活中间件
7.1.2 编写Spider中间件
7.2 SPIDER内置中间件
7.2.1 DepthMiddleware爬取深度中间件
7.2.2 HttpErrorMiddleware失败请求处理中间件
7.2.3 OffsiteMiddleware过滤请求中间件
7.2.4 RefererMiddleware参考位置中间件
7.2.5 UrlLengthMiddleware网址长度限制中间件
7.3 编写自定义下载器中