![]()
内容推荐 本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python程序开发”1+X职业技能等级标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用Scrapy框架进行爬取、爬虫代理、模拟登录、爬取App数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。 本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合IT互联网企业、各企事业单位、政府部门等的信息化、数字化部门从事Python程序开发、爬虫开发与维护、数据采集清洗和存储等工作岗位的人员参考。 目录 项目一 静态网页爬取与解析 任务1 搭建静态网页爬虫环境 任务分析 导学 学习资料 1.爬虫基本概念 2.爬虫实现原理 3.静态网页爬虫环境搭建 任务实施 任务评价 任务2 爬取北京市旅游景点信息 任务分析 导学 学习资料 1.HTTP 2.网页组成 3.urllib库 4.Requests模块 任务实施 任务评价 任务3 解析并保存北京市旅游景点 数据 任务分析 导学 学习资料 1.正则表达式 2.使用XPath 3.Beautiful Soup库 任务实施 任务评价 项目二 爬取动态内容 任务1 安装Selenium 任务分析 导学 学习资料 任务实施 任务评价 任务2 利用Selerlium爬取京东商品信息数据 任务分析 导学 学习资料 1.Selenium简介 2.Selenium的应用 任务实施 任务评价 项目三 利用爬虫框架Scrapy爬虫 任务1 安装Scrapy框架 任务分析 导学 学习资料 1.Anaconda安装 2.Windows下的安装 任务实施 任务评价 任务2 利用Scrapy框架制作Spiders爬取网页数据 任务分析 导学 学习资料 1.Scrapy框架介绍 2.Scrapy的数据流 3.Scrapy常用命令 任务实施 任务评价 项目四 爬虫代理和模拟登录 任务1 爬虫代理 任务分析 导学 学习资料 1.代理基本原理 2.代理的作用 3.代理分类 4.Requests库使用IP代理的方法 5.构建代理池 任务实施 任务评价 任务2 模拟登录 任务分析 导学 学习资料 1.用户登录 2.Cookie 3.Session 4.JWT 5.基于Session和Cookie的模拟登录 6.基于Session和Cookie的模拟登录实例 任务实施 任务评价 项目五 App的爬取 任务1 App爬虫环境搭建 任务分析 导学 学习资料 1.App爬取的主要流程 2.Charles的安装 3.安装JAVA JDK 4.安装Android SDK Tools 5.Appium的安装 任务实施 任务评价 任务2 爬取微博主页推荐信息 任务分析 导学 学习资料 1.Charles简介 2.Appium简介 任务实施 任务评价 参考文献 |