![]()
作者简介 韦世东,资深爬虫工程师,2019年华为云·云享专家,掘金社区优秀作者,GitChat认证作者,夜幕团队(NightTeam)成员。拥有七年互联网从业经验,擅长反爬虫的设计和绕过技巧。 目录 第 1章 开发环境配置 1.1 操作系统的选择 1.1.1 Ubuntu简介 1.1.2 VirtualBox的安装 1.1.3 安装Ubuntu 1.1.4 全屏设置 1.1.5 Python设置 1.2 练习平台Steamboat 1.2.1 安装Docker 1.2.2 安装Steamboat 1.2.3 Steamboat使用说明 1.3 第三方库的安装 1.3.1 Requests 1.3.2 Selenium 1.3.3 浏览器驱动 1.3.4 Splash 1.3.5 Puppeteer 1.3.6 PyTesseract 1.4 常用软件的安装 1.4.1 nginx 1.4.2 Charles 1.4.3 PC端SSL证书 1.4.4 iOS系统的证书设置 1.4.5 Andriod模拟器的安装与证书设置 1.4.6 Postman 1.4.7 Google Chrome 1.4.8 JADX 1.5 深度学习环境配置 1.5.1 NVIDIA显卡驱动安装 1.5.2 CUDA Toolkit的安装 1.5.3 cuDNN 的安装 1.5.4 深度学习库PyTorch 1.5.5 深度学习框架Darknet 1.5.6 图片标注工具LabelImg 1.6 Node.js环境配置 1.6.1 Node.js的安装 1.6.2 UglifyJS的安装 第 2章 Web网站的构成和页面渲染 2.1 nginx服务器 2.1.1 nginx的信号 2.1.2 nginx配置文件 2.1.3 简单的代理服务 2.1.4 nginx模块与指令 2.1.5 nginx日志 2.1.6 小结 2.2 浏览器 2.2.1 浏览器的主要结构 2.2.2 页面渲染 2.2.3 HTML DOM 2.2.4 浏览器对象BOM 2.2.5 小结 2.3 网络协议 2.3.1 认识HTTP 2.3.2 资源与资源标识符 2.3.3 HTTP请求与响应 2.3.4 Cookie 2.3.5 了解HTTPS …… 第3章 爬虫与反爬虫 第4章 信息校验型反爬虫 第5章 动态渲染反爬虫 第6章 文本混淆反爬虫 第7章 特征识别反爬虫 第8章 App反爬虫 第9章 验证码 第10章 综合指数 导语 。 内容推荐 本书描述了爬虫技术与反爬虫技术的对抗过程,并详细介绍了这其中的原理和具体实现方法。首先讲解开发环境的配置、Web网站的构成、页面渲染以及动态网页和静态网页对爬虫造成的影响。然后介绍了不同类型的反爬虫原理、具体实现和绕过方法,还涉及常见验证码的实现过程,并使用深度学习技术完成了验证。最后介绍了常见的编码和加密原理、Javascript代码混淆知识、前端禁止事件以及与爬虫相关的法律知识和风险点。 本书既适合需要储备反爬虫知识的前端工程师和后端工程师阅读,也适合需要储备绕过知识的爬虫工程师、爬虫爱好者以及Python程序员阅读。 |