1.本选题资源与案例均为本校多年教学经验的总结,同时结合大数据一线企业浪潮集团在数据采集行业的行业经验与案例总结。做到了真正的产教融合。
2.以项目为模块组织教材内容,打破了原有教材体系的章节框架局限。
3.深度契合高等职业学校大数据技术与应用近期新专业教学标准
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 大数据采集与预处理(微课版) |
分类 | |
作者 | 宋磊 陈天真 崔敏 |
出版社 | 人民邮电出版社 |
下载 | |
简介 | 编辑推荐 1.本选题资源与案例均为本校多年教学经验的总结,同时结合大数据一线企业浪潮集团在数据采集行业的行业经验与案例总结。做到了真正的产教融合。 2.以项目为模块组织教材内容,打破了原有教材体系的章节框架局限。 3.深度契合高等职业学校大数据技术与应用近期新专业教学标准 内容推荐 本书按照大数据采集与预处理的实现流程,由浅入深地讲解大数据采集与预处理的相关技术,以及如何使用不同方式对大数据进行采集与预处理。本书内容系统、全面,可帮助开发人员快速实现大量数据的采集。 本书主要内容包括大数据采集与预处理简介、PyCharm的安装与使用、Urllib库数据采集、Requests库数据采集、XPath和Beautiful Soup库数据解析、Scrapy框架数据采集与存储、Flume和Kafka日志数据采集以及使用Pandas、Pig、ELK进行数据预处理等。 本书既可作为高职高专院校大数据、人工智能相关专业的教材,也可作为相关技术人员的参考书。 目录 目录 CONTENTS 项目1 初识动态网页数据采集与 预处理 1 项目导言 1 思维导图 1 知识目标 1 技能目标 1 素养目标 2 任务1-1 认识数据采集与预处理 2 任务描述 2 素质拓展 2 任务技能 2 技能点1 认识大数据来源 2 技能点2 认识数据采集 5 技能点3 认识数据预处理 10 任务1-2 搭建数据采集与预处理开发 环境 14 任务描述 14 素质拓展 14 任务技能 14 技能点1 认识PyCharm 14 技能点2 下载及安装PyCharm 15 技能点3 使用PyCharm 18 任务实施 20 项目小结 24 课后习题 24 自我评价 25 项目2 动态网页数据采集 26 项目导言 26 思维导图 26 知识目标 26 技能目标 26 素养目标 27 任务2-1 使用Urllib库完成“新闻 动态”网页数据采集 27 任务描述 27 素质拓展 27 任务技能 27 技能点1 request模块 27 技能点2 error模块 30 技能点3 parse模块 31 任务实施 32 任务2-2 使用Requests库完成 “浪潮云说”网页数据 采集 36 任务描述 36 素质拓展 37 任务技能 37 技能点1 Requests库的简介及 安装 37 技能点2 Requests库的基本使用 方法 38 技能点3 Requests库的高级使用 方法 42 任务实施 45 项目小结 48 课后习题 48 自我评价 49 项目3 动态网页数据解析 50 项目导言 50 思维导图 50 知识目标 50 技能目标 50 素养目标 51 任务3-1 使用XPath解析“新闻 动态”网页数据 51 任务描述 51 素质拓展 51 任务技能 51 技能点1 XPath的简介 51 技能点2 定位 55 技能点3 数据提取 57 任务实施 58 任务3-2 使用Beautiful Soup 解析“浪潮云说”网页 数据 63 任务描述 63 素质拓展 63 任务技能 63 技能点1 Beautiful Soup的安装 64 技能点2 Beautiful Soup的使用 65 任务实施 68 项目小结 75 课后习题 75 自我评价 76 项目4 基于Scrapy实现动态网页 数据采集与存储 77 项目导言 77 思维导图 77 知识目标 77 技能目标 77 素养目标 78 任务4-1 使用Scrapy框架完成 新闻公告页面数据采集 与存储 78 任务描述 78 素质拓展 78 任务技能 78 技能点1 Scrapy的简介及安装 78 技能点2 Scrapy的操作指令 82 技能点3 段定义及Scrapy设置 83 技能点4 文本解析 89 技能点5 内容存储 93 任务实施 95 项目小结 104 课后习题 104 自我评价 105 项目5 动态网页访问日志数据 采集 106 项目导言 106 思维导图 106 知识目标 106 技能目标 106 素养目标 107 任务5-1 使用Flume采集某官网 访问日志数据 107 任务描述 107 素质拓展 107 任务技能 107 技能点1 Flume的简介 107 技能点2 Flume数据采集配置 110 技能点3 Flume的启动方法 119 技能点4 Flume配置 122 任务实施 125 任务5-2 使用Kafka消费Flume中 某官网访问日志数据 129 任务描述 129 素质拓展 130 任务技能 130 技能点1 Kafka的简介 130 技能点2 Kafka的配置 131 技能点3 Kafka脚本操作 134 技能点4 Kafka Python API 137 任务实施 140 项目小结 144 课后习题 144 自我评价 145 项目6 动态网页数据预处理 146 项目导言 146 思维导图 146 知识目标 147 技能目标 147 素养目标 147 任务6-1 使用Pandas实现新闻动态 网页数据预处理 147 任务描述 147 素质拓展 147 任务技能 148 技能点1 Pandas的简介 148 技能点2 Pandas的数据结构 148 技能点3 Pandas的基本功能 149 技能点4 汇总和描述统计 155 技能点5 处理缺失数据 157 任务实施 158 任务6-2 使用Pig实现“浪潮云说” 网页数据预处理 161 任务描述 161 素质拓展 161 任务技能 162 技能点1 Pig的简介 162 技能点2 Pig配置运行 162 技能点3 Pig Latin执行 165 技能点4 运算符 166 技能点5 内置函数 171 任务实施 177 任务6-3 使用ELK实现某官网日志 数据预处理 182 任务描述 182 素质拓展 182 任务技能 182 技能点1 Elasticsearch 182 技能点2 Logstash 184 技能点3 Kibana 195 任务实施 200 项目小结 207 课后习题 207 自我评价 208 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。