作者简介 刘延林,知名论坛Python爬虫专题管理员,擅长Python爬虫技术,并对Python数据分析与挖掘有深入研究。在CSDN等多个知名博客网站发表多篇技术文章,深受读者的喜爱。 目录 篇快速入门篇 章Python基础2 1.1Python环境搭建3 1.2Python编程入门16 1.3新手实训33 1.4新手问答35 本章小结35 第2章Python爬虫入门36 2.1爬虫的分类37 2.2爬虫的基本结构和工作流程38 2.3爬虫策略39 2.4HTTP的基本原理40 2.5网页基础45 2.6Session和Cookie49 2.7新手实训51 2.8新手问答54 本章小结55 第3章基本库的使用56 3.1urllib57 3.2requests64 3.3re正则使用69 3.4XPath75 3.5新手实训78 3.6新手问答81 本章小结82 第4章Ajax数据抓取83 4.1Ajax简介84 4.2使用Python模拟Ajax请求数据91 4.3新手实训93 4.4新手问答96 本章小结96 第5章动态渲染页面爬取97 5.1Selenium的使用98 5.2Splash的基本使用115 5.3新手实训127 5.4新手问答131 本章小结132 第6章代理的设置与使用133 6.1代理设置134 6.2代理池构建136 6.3付费代理的使用140 6.4ADSL拨号代理的搭建145 6.5新手问答155 本章小结156 第7章验证码的识别与破解157 7.1普通图形验证码的识别158 7.2极验滑动验证码的破解164 7.3极验滑动拼图验证码破解168 7.4新手问答174 本章小结175 第8章App数据抓取176 8.1Fiddler的基本使用177 8.2Charles的基本使用182 8.3Appium的基本使用196 8.4新手问答217 本章小结217 第9章数据存储218 9.1文件存储219 9.2数据库存储224 9.3新手实训236 9.4新手问答239 本章小结240 第2篇技能进阶篇 0章常用爬虫框架242 10.1PySpider框架243 10.2Scrapy框架252 10.3Scrapy-Splash的使用262 10.4新手实训266 10.5新手问答269 本章小结269 1章部署爬虫270 11.1Linux系统下安装Python3271 11.2Docker的使用273 11.3Docker安装Python274 11.4Docker安装MySQL277 本章小结278 2章数据分析279 12.1NumPy的使用280 12.2Pandas的使用296 12.3pyecharts的使用311 12.4新手实训315 12.5新手问答316 本章小结316 第3篇项目实战篇 3章爬虫项目实战318 13.1实战一:Selenium+XPath爬取简书319 13.2实战二:使用requests爬取腾讯人口迁徙数据326 13.3实战三:Scrapy爬取豆瓣电影330 13.4实战四:使用Selenium多线程异步爬取同城旅游网机票价格信息334 13.5实战五:数据分析DessertApples下12种苹果全年最高、最低和平均销量343 13.6实战六:中国南方航空机票信息爬取346 本章小结352 附录Python常见面试题精选353 内容推荐 本书共分3篇,针对Python爬虫初学者,从零开始,系统地讲解了如何利用Python进行常见的网络爬虫的程序开发。第1篇快速入门篇(第1章-第9章):本篇主要介绍了Python环境的搭建和一些Python的基础语法知识等、Python爬虫入门知识及基本的使用方法、Ajax数据的分析和抓取、动态渲染页面数据的爬取、网站代理的设置与使用、验证码的识别与破解,以及App数据抓取、数据的存储方法等内容。第2篇技能进阶篇(第10章-第12章):本篇主要介绍了PySpider和Scrapy两个常用爬虫框架的基本使用方法、分布式爬虫的实现思路,以及数据分析、数据清洗常用库的使用方法。第3篇项目实战篇(第13章):本篇通过6个综合实战项目,详细地讲解了Python数据爬虫开始与实战应用。本篇对全书内容进行了总结回顾,强化读者的实操水平。 |