![]()
内容推荐 本书以Python 3.6为编程环境,从基本的程序设计思想人手,逐步展开Python语言爬虫功能,是一本面向广大爬虫学习爱好者的程序设计类图书。本书以案例带动知识点的讲解,将爬虫知识点分解到各个不同的案例,每个案例各有侧重点,同时展示实际项目的设计思想和设计理念,使读者可以举一反三。 本书案例包括校园网搜索引擎、小小翻译器、抓取百度图片、开发微信机器人、selenium操作浏览器实现模拟登录、微博采集爬虫和Scrapy框架爬虫等。这些案例让读者对爬虫学习充满兴趣,在项目案例开发过程中不知不觉掌握这些实用的技术。通过本书,读者将学会Python编程技术、爬虫设计技术以及相关内容。本书不仅为读者列出了完整的代码,同时对所有的源代码进行了非常详细的解释,做到了通俗易懂、图文并茂。 本书适用于Python语言学习者、网络爬虫技术编程爱好者以及数据分析从业人员。 目录 第1章 Python基础知识 1.1 Python语言简介 1.2 Python语法基础 1.2.1 Python数据类型 1.2.2 序列数据结构 1.2.3 Python控制语句 1.2.4 Python函数与模块 1.3 Python面向对象设计 1.3.1 定义和使用类 1.3.2 构造函数__init__ 1.3.3 析构函数 1.3.4 实例属性和类属性 1.3.5 私有成员与公有成员 1.3.6 方法 1.3.7 类的继承 1.3.8 多态 1.4 Python 图形界面设计 1.4.1 创建Windows窗口 1.4.2 几何布局管理器 1.4.3 Tkinter 组件 1.4.4 Python事件处理 1.5 Python文件的使用 1.5.1 打开(建立)文件 1.5.2 读取文本文件 1.5.3 写文本文件 1.5.4 文件的关闭 1.5.5 操作Excel文档 1.6 Python的第三方库 第2章 HTML基础知识和Python文本处理 2.1 HTML基础 2.1.1 什么是HTML 2.1.2 HTML的历史 2.2 HTML 4基础和HTML 5新特性 2.2.1 HTML 4基础知识 2.2.2 HTML 4基本标签 2.2.3 HTML 5的新特性 2.2.4 在浏览器中查看HTML源代码 2.3 CSS语法基础 2.3.1 CSS基本语句 2.3.2 在HTML文档中应用CSS样式 2.3.3 CSS 选择器 2.4 Python文本处理 2.4.1 字符串基本处理 2.4.2 正则表达式 2.4.3 正则表达式语法 2.4.4 re模块 2.4.5 正则表达式的实际应用案例 2.5 XPath 2.5.1 lxml库安装 2.5.2 XPath语法 2.5.3 在Python中使用XPath 第3章 网络通信基础知识 3.1 网络协议 3.1.1 互联网TCP/IP协议 3.1.2 IP协议和端口 3.1.3 TCP和UDP协议 3.1.4 HTTP和HTTPS协议 3.1.5 HTTP基本原理与机制 3.1.6 使用Fiddler抓包验证请求信息和响应信息 3.2 Socket编程 3.2.1 Socket的概念 3.2.2 Socket提供的函数方法 3.2.3 TCP协议编程 第4章 小试牛刀——下载网站图片 4.1 HTTP下载网站图片功能介绍 4.2 程序设计的思路 4.3 关键技术 4.3.1 urllib库简介 4.3.2 urllib库的基本使用 4.3.3 图片文件下载到本地 4.4 程序设计的步骤 第5章 调用百度API获取数据——小小翻译器 5.1 小小翻译器功能介绍 5.2 程序设计的思路 5.3 关键技术 5.3.1 urllib库的高级使用 5.3.2 使用User Agent隐藏身份 5.3.3 JSON使用 5.4 程序设计的步骤 5.4.1 设计界面 5.4.2 使用百度翻译开放平台API 5.5 API调用拓展——爬取天气预报信息 第6章 动态网页爬虫应用——抓取百度图片 6.1 程序功能介绍 6.2 程序设计的思路 6.3 关键技术 6.3.1 Ajax动态网页 6.3.2 BeautifulSoup库概述 6.3.3 BeautifulSoup库操作解析HTML文档树 6.3.4 requests库的使用 6.3.5 Ajax动态网页爬取 6.4 程序设计的步骤 6.4.1 分析网页源代码和网页结构 6.4.2 设计代码 6.5 动态网页爬虫拓展——爬取今日头条新闻 6.5.1 找到JavaScript请求的数据接口 6.5.2 分析JSON数据 6.5.3 请求和解析数据接口 第7章 Selenium操作浏览器应用——模拟登录豆瓣网站 7.1 模拟登录程序功能介绍 7.2 程序设计的思路 7.3 关键技术 7.3.1 安装Selenium库 7.3.2 Selenium详细用法 7.3.3 Selenium应用实例 7.4 程序设计的步骤 7.4.1 Selenium定位iframe(多层框架) 7.4.2 模拟登录豆瓣网站 7.5 基于Cookie绕过验证码实现自动登录 7.5.1 为什么要使用Cookie 7.5.2 查看Cookie 7.5.3 使用Cookie绕过百度验证码自动登录账户 7.6 Selenium实现Ajax动态加载抓取今日头条新闻 7.6.1 Selenium处理滚动条 7.6.2 Selenium 动态加载抓取今日头条新闻 7.7 Selenium实现动态加载抓取新浪国内新闻 第8章 微信网页版协议API应用——微信机器人 8.1 微信网页版机器人功能介绍 8.2 微信网页版机器人设计思路 8.2.1 分析微信网页版API 8.2.2 API汇总 8.2.3 其他说明 8.3 程序设计步骤 8.3.1 微信网页版运行流程 8.3.2 程序目录 8.3.3 微信网页版运行代码实现 8.4 微信网页版机器人扩展功能 8.4.1 自动回复 8.4.2 群发消息、定时发送消息、好友状态检测 8.4.3 自动邀请好友加入群聊 8.5 微信库itchat实现微信聊天机器人 8.5.1 安装itchat 8.5.2 itchat的登录微信 8.5.3 itchat的消息类型 8.5.4 itchat回复消息 8.5.5 itchat获取账号 8.5.6 itchat的一些简单应用 8.5.7 Python调用图灵机器人API实现简单的人机交互 8.5.8 程序设计的步骤 8.5.9 开发消息 |