网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 Scrapy网络爬虫实战
分类
作者 东郭大猫
出版社 清华大学出版社
下载
简介
目录
第1章 Python开发环境的搭建
1.1 PYTHON SDK安装
1.1.1 在Windows上安装Python
1.1.2 在Ubuntu上安装Python
1.2 安装开发工具PYCHARM社区版
1.3 安装开发工具VISUAL STUDIO社区版
第2章 爬虫基础知识
2.1 爬虫原理
2.1.1 爬虫运行基本流程
2.1.2 HTTP请求过程
2.2 网页分析方法1:浏览器开发人员工具
2.2.1 Elements面板
2.2.2 Network面板
2.3 网页分析方法2:XPATH语法
2.3.1 XPath节点
2.3.2 XPath语法
2.3.3 XPath轴
2.3.4 XPath运算符
2.4 网页分析方法3:CSS选择语法
2.4.1 元素选择器
2.4.2 类选择器
2.4.3 ID选择器
2.4.4 属性选择器
2.4.5 后代选择器
2.4.6 子元素选择器
2.4.7 相邻兄弟选择器
2.5 网页分析方法4:正则表达式
2.5.1 提取指定字符
2.5.2 预定义字符集
2.5.3 数量限定
2.5.4 分支匹配
2.5.5 分组
2.5.6 零宽断言
2.5.7 贪婪模式与非贪婪模式
2.5.8 Python中的正则表达式
2.6 爬虫常用类库1:PYTHON中的HTTP基本库URLLIB
2.6.1 发送请求
2.6.2 使用Cookie
2.7 爬虫常用类库2:更人性化的第三方库REQUESTS
2.7.1 发送请求
2.7.2 请求头
2.7.3 响应内容
2.7.4 响应状态码
2.7.5 cookies参数
2.7.6 重定向与请求历史
2.7.7 超时
2.7.8 设置代理
2.7.9 会话对象
2.8 爬虫常用类库3:元素提取利器BEAUTIFULSOUP
2.8.1 安装BeautifulSoup
2.8.2 安装解析器
2.8.3 BeautifulSoup使用方法
2.8.4 BeautifulSoup对象
2.8.5 遍历文档树
2.8.6 搜索文档树
2.8.7 BeautifulSoup中的CSS选择器
2.9 爬虫常用类库4:SELENIUM操纵浏览器
2.9.1 安装Selenium
2.9.2 Selenium的基本使用方法
2.9.3 Selenium Webdriver的原理
2.9.4 Selenium中的元素定位方法
2.9.5 Selenium Webdriver基本操作
2.9.6 Selenium实战:抓取拉钩网招聘信息
2.10 爬虫常用类库5:SCRAPY爬虫框架
2.10.1 安装Scrapy
2.10.2 Scrapy简介
2.11 基本爬虫实战:抓取CNBETA网站科技类文章
2.11.1 URL管理器
2.11.2 数据下载器
2.11.3 数据分析器
2.11.4 数据保存器
2.11.5 调度器
第3章 Scrapy命令行与Shell
3.1 SCRAPY命令行介绍
3.1.1 使用startproject创建项目
3.1.2 使用genspider创建爬虫
3.1.3 使用crawl启动爬虫
3.1.4 使用list查看爬虫
3.1.5 使用fetch获取数据
3.1.6 使用runspider运行爬虫
3.1.7 通过view使用浏览器打开URL
3.1.8 使用parse测试爬虫
3.2 SCRAPY SHELL命令行
3.2.1 Scrapy Shell的用法
3.2.2 实战:解析名人名言网站
第4章 Scrapy爬虫
4.1 编写爬虫
4.1.1 scrapy.Spider爬虫基本类
4.1.2 start_requests()方法
4.1.3 parse(response)方法
4.1.4 Selector选择器
4.2 通用爬虫
4.2.1 CrawlSpider
4.2.2 XMLFeedSpider
4.2.3 CSVFeedSpider
4.2.4 SitemapSpider
4.3 爬虫实战
4.3.1 实战1:CrawlSpider爬取名人名言
4.3.2 实战2:XMLFeedSpider爬取伯乐在线的RSS
4.3.3 实战3:CSVFeedSpider提取csv文件数据
4.3.4 实战4:SitemapSpider爬取博客园文章
第5章 Scrapy管道
5.1 管道简介
5.2 编写自定义管道
5.3 下载文件和图片
5.3.1 文件管道
5.3.2 图片管道
5.4 数据库存储MYSQL
5.4.1 在Ubuntu上安装MySQL
5.4.2 在Windows上安装MySQL
5.4.3 MySQL基础
5.4.4 MySQL基本操作
5.4.5 Python操作MySQL
5.5 数据库存储MONGODB
5.5.1 在Ubuntu上安装MongoDB
5.5.2 在Windows上安装MongoDB
5.5.3 MongoDB基础
5.5.4 MongoDB基本操作
5.5.5 Python操作MongoDB
5.6 实战:爬取链家二手房信息并保存到数据库
第6章 Request与Response
6.1 REQUEST对象
6.1.1 Request类详解
6.1.2 Request回调函数与错误处理
6.2 RESPONSE
6.2.1 Response类详解
6.2.2 Response子类
第7章 Scrapy中间件
7.1 编写自定义SPIDER中间件
7.1.1 激活中间件
7.1.2 编写Spider中间件
7.2 SPIDER内置中间件
7.2.1 DepthMiddleware爬取深度中间件
7.2.2 HttpErrorMiddleware失败请求处理中间件
7.2.3 OffsiteMiddleware过滤请求中间件
7.2.4 RefererMiddleware参考位置中间件
7.2.5 UrlLengthMiddleware网址长度限制中间件
7.3 编写自定义下载器中
导语
Scrapy爬虫框架可以用来高效爬取数据,其自定义扩展灵活,适合用来学习和研究数据爬取技术。本书假设读者已经掌握Python编程,从Scrapy框架操作入手,由浅入深地介绍爬虫原理、数据爬取、数据保存和爬虫优化等技术,使读者在深入运用Python语言的同时,又能进入数据抽取与网络数据采集的技术之门。
序言
前 言读懂本书还在复制粘贴找数据?我想要这个
网站上的数据,该怎么办?打开网站,复制,打开文本,
粘贴……重复、重复、重复。——费时、费力、错误多!
讲解晦涩难懂?道理我都懂,可是要怎么做?这些数据我
都想要,可是要怎么开始?本书不光仅介绍Scrapy爬虫的
原理,重点是而且还通过给出实战案例让读者精通应用它
们。——爬虫的使用才是硬道理。本书真的适合你吗?本
书帮你从零开始学习Scrapy爬虫技术,从基本的网络请求
原理到抓取数据的保存,从单页面数据的下载到全站数据
的爬取,从文本文档到数据库存储,本书介绍了实际使用
中的各种基础知识。——爬虫零基础?没关系,本书给出
了从零开始学习的新手方案。本书涉及的技术或框架
Python\tRequests\tBeautifulSoup
Selenium\tHTTP\tJSONXPATH\tCSS\t
MySQLMongoDB\tPyCharm\tVisual StudioChrome浏览器
调试
本书涉及的示例和案例抓取知乎热榜名言网站抓取博
客园Python类文章抓取深圳市社会保障局下载中心文件下
载链家数据保存至MongoDB豆瓣使用Cookies登录抓取
cnBeta科技类文章伯乐在线订阅源数据抓取伯乐在线最新
文章抓取保存起点小说网站小说封面抓取豆瓣模拟提交表
单登录通过中间件使用代理与统计链家小区信息名言网站
数据统计IT之家新闻抓取猫眼电影top100抓取并发送邮件
SegmentFault全网用户信息抓取
本书特点(1)本书不论是爬虫基础理论知识的介绍还
是实例的开发,都是从实际应用的角度出发,精心选择典
型的例子,讲解细致,分析透彻。(2)深入浅出、轻松易
学,以实例为主线,激发读者的学习兴趣,让读者能够真
正快速学习到会Scrapy爬虫的实用技术。(3)技术新颖、
与时俱进,结合时下实用的技术,如Requests、
BeautifulSoup、Scrapy,使读者能够真正运用到实际工
作中。(4)贴近读者、贴近实际,大量成熟的第三方库和
框架的使用和说明,帮助读者快速找到问题的最优解决方
案,书中很多实例来自作者常用的数据源。示例代码下载
本书示例代码请扫描二维码获得。如果下载有问题,
请联系booksaga@163.com,邮件主题为“Scrapy网络爬虫
实战”。
本书适用读者对Scrapy网络爬虫感兴趣的人员初学者
从事Web网络数据分析的人员从事数据存储类的工作人员高
校与培训学校的教师和学生对Crapy网络爬虫感兴趣的人员
作 者2019年35月
内容推荐
随着大数据分析、大数据计算火热兴起,越来越多的企业发布了数据分析岗位,而数据分析的基础则是海量的数据。Python中的Scrapy框架就是为了抓取数据而设计的。本书是一本Scrapy爬虫框架零基础起步的实战图书。
本书共分11章,第1-2章介绍Python环境的搭建、编辑器的使用、爬虫的一些基础知识(urllib、requests、Selenium、Xpath、CSS、正则表达式、BeautifulSoup库)等。第3-8章主要介绍Scrapy框架的原理与使用。第9-11章主要介绍Scrapy的优化,包括内置服务、组件优化等,最后通过一个完整的大型示例对全书的知识点做了应用总结。
本书入门门槛低、浅显易懂,适合所有Scrapy爬虫和数据分析行业的入门读者学习,也适合高等院校和培训学校作为爬虫入门教材和训练手册。
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/19 11:20:55