网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 大数据采集与预处理(微课版)
分类
作者 宋磊 陈天真 崔敏
出版社 人民邮电出版社
下载
简介
编辑推荐
1.本选题资源与案例均为本校多年教学经验的总结,同时结合大数据一线企业浪潮集团在数据采集行业的行业经验与案例总结。做到了真正的产教融合。
2.以项目为模块组织教材内容,打破了原有教材体系的章节框架局限。
3.深度契合高等职业学校大数据技术与应用近期新专业教学标准
内容推荐
本书按照大数据采集与预处理的实现流程,由浅入深地讲解大数据采集与预处理的相关技术,以及如何使用不同方式对大数据进行采集与预处理。本书内容系统、全面,可帮助开发人员快速实现大量数据的采集。
本书主要内容包括大数据采集与预处理简介、PyCharm的安装与使用、Urllib库数据采集、Requests库数据采集、XPath和Beautiful Soup库数据解析、Scrapy框架数据采集与存储、Flume和Kafka日志数据采集以及使用Pandas、Pig、ELK进行数据预处理等。
本书既可作为高职高专院校大数据、人工智能相关专业的教材,也可作为相关技术人员的参考书。
目录
目录 CONTENTS
项目1
初识动态网页数据采集与
预处理  1
项目导言  1
思维导图  1
知识目标  1
技能目标  1
素养目标  2
任务1-1  认识数据采集与预处理  2
任务描述  2
素质拓展  2
任务技能  2
技能点1  认识大数据来源  2
技能点2  认识数据采集  5
技能点3  认识数据预处理  10
任务1-2  搭建数据采集与预处理开发
环境  14
任务描述  14
素质拓展  14
任务技能  14
技能点1  认识PyCharm  14
技能点2  下载及安装PyCharm  15
技能点3  使用PyCharm  18
任务实施  20
项目小结  24
课后习题  24
自我评价  25
项目2
动态网页数据采集  26
项目导言  26
思维导图  26
知识目标  26
技能目标  26
素养目标  27
任务2-1  使用Urllib库完成“新闻
动态”网页数据采集  27
任务描述  27
素质拓展  27
任务技能  27
技能点1  request模块  27
技能点2  error模块  30
技能点3  parse模块  31
任务实施  32
任务2-2  使用Requests库完成
“浪潮云说”网页数据
采集  36
任务描述  36
素质拓展  37
任务技能  37
技能点1  Requests库的简介及
安装  37
技能点2  Requests库的基本使用
方法  38
技能点3  Requests库的高级使用
方法  42
任务实施  45
项目小结  48
课后习题  48
自我评价  49
项目3
动态网页数据解析  50
项目导言  50
思维导图  50
知识目标  50
技能目标  50
素养目标  51
任务3-1  使用XPath解析“新闻
动态”网页数据  51
任务描述  51
素质拓展  51
任务技能  51
技能点1  XPath的简介  51
技能点2  定位  55
技能点3  数据提取  57
任务实施  58
任务3-2  使用Beautiful Soup
解析“浪潮云说”网页
数据  63
任务描述  63
素质拓展  63
任务技能  63
技能点1  Beautiful Soup的安装  64
技能点2  Beautiful Soup的使用  65
任务实施  68
项目小结  75
课后习题  75
自我评价  76
项目4
基于Scrapy实现动态网页
数据采集与存储  77
项目导言  77
思维导图  77
知识目标  77
技能目标  77
素养目标  78
任务4-1  使用Scrapy框架完成
新闻公告页面数据采集
与存储  78
任务描述  78
素质拓展  78
任务技能  78
技能点1  Scrapy的简介及安装  78
技能点2  Scrapy的操作指令  82
技能点3  段定义及Scrapy设置  83
技能点4  文本解析  89
技能点5  内容存储  93
任务实施  95
项目小结  104
课后习题  104
自我评价  105
项目5
动态网页访问日志数据
采集  106
项目导言  106
思维导图  106
知识目标  106
技能目标  106
素养目标  107
任务5-1  使用Flume采集某官网
访问日志数据  107
任务描述  107
素质拓展  107
任务技能  107
技能点1  Flume的简介  107
技能点2  Flume数据采集配置  110
技能点3  Flume的启动方法  119
技能点4  Flume配置  122
任务实施  125
任务5-2  使用Kafka消费Flume中
某官网访问日志数据  129
任务描述  129
素质拓展  130
任务技能  130
技能点1  Kafka的简介  130
技能点2  Kafka的配置  131
技能点3  Kafka脚本操作  134
技能点4  Kafka Python API  137
任务实施  140
项目小结  144
课后习题  144
自我评价  145
项目6
动态网页数据预处理  146
项目导言  146
思维导图  146
知识目标  147
技能目标  147
素养目标  147
任务6-1  使用Pandas实现新闻动态
网页数据预处理  147
任务描述  147
素质拓展  147
任务技能  148
技能点1  Pandas的简介  148
技能点2  Pandas的数据结构  148
技能点3  Pandas的基本功能  149
技能点4  汇总和描述统计  155
技能点5  处理缺失数据  157
任务实施  158
任务6-2  使用Pig实现“浪潮云说”
网页数据预处理  161
任务描述  161
素质拓展  161
任务技能  162
技能点1  Pig的简介  162
技能点2  Pig配置运行  162
技能点3  Pig Latin执行  165
技能点4  运算符  166
技能点5  内置函数  171
任务实施  177
任务6-3  使用ELK实现某官网日志
数据预处理  182
任务描述  182
素质拓展  182
任务技能  182
技能点1  Elasticsearch  182
技能点2  Logstash  184
技能点3  Kibana  195
任务实施  200
项目小结  207
课后习题  207
自我评价  208
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/19 3:36:23