内容推荐 本书重点介绍了数据采集和数据预处理的相关理论与技术。全书共9章,主要包括数据采集与预处理概述,大数据开发环境的搭建,使用Flume采集系统日志数据,使用Kafka采集系统日志数据,其他常用的系统日志数据采集工具,使用网络爬虫采集Web数据,Python数据预处理库的使用,使用ETL工具Kettle进行数据预处理,以及其他常用的数据预处理工具。本书在第2章至第9章安排了丰富的实践操作,实现了理论与实践的有机结合,帮助读者更好地学习和掌握数据采集与预处理的关键技术。 本书可以作为高等院校大数据专业的大数据课程教材,也可以作为计算机相关专业的专业课或选修课教材,同时也可以作为从事大数据相关专业的工作人员的参考用书。 作者简介 安俊秀,成都信息工程大学教授,硕士生导师。软件自动生成与智能服务四川省重点实验室学术带头人(领域知识本体和大数据方向),长期从事数据科学与大数据相关的研究与教学工作,发表相关论文40余篇,主编云计算与大数据方向专著或教材10余部。是国家自然科学基金委通讯评审专家,四川省科技项目评审专家,成都市科技攻关计划评审专家。 目录 出版说明 前言 第1章 数据采集与预处理概述 1.1 大数据简介 1.1.1 数据的概念、类型、组织形式 1.1.2 大数据的概念、特点与作用 1.1.3 大数据的技术应用 1.2 数据分析简介 1.2.1 数据分析的基本流程 1.2.2 数据分析的方法与技术 1.3 数据采集简介 1.3.1 数据采集的三大方式及工具 1.3.2 数据采集的应用场景 1.4 数据预处理简介 1.4.1 数据预处理的目的与意义 1.4.2 数据预处理的流程 1.4.3 数据预处理的工具介绍 习题 第2章 大数据开发环境的搭建 2.1 安装Python与JDK 2.1.1 Java和Python概述 2.1.2 Python的安装与配置 2.1.3 JDK的安装与配置 2.1.4 Python与Java的IDE介绍 2.2 MySQL数据库的安装与配置 2.2.1 SQL概述 2.2.2 安装MySQL数据库 2.2.3 MySQL数据库的基本使用 2.3 Hadoop的安装与配置 2.3.1 单节点环境 2.3.2 伪分布式环境 2.3.3 节点间免密通信 2.3.4 Hadoop的启动和测试 2.4 在Hadoop集群上运行WordCount 2.4.1 运行Java版本WordCount实例 2.4.2 运行Python版本WordCount实例 习题 第3章 使用Flume采集系统日志数据 3.1 Flume概述 3.2 Flume的安装运行 3.3 Flume的核心组件 3.3.1 Agent 3.3.2 Source 3.3.3 Sink 3.3.4 Channel 3.3.5 Event 3.4 Flume拦截器与选择器 3.4.1 Flume内置拦截器 3.4.2 自定义拦截器 3.5 Flume负载均衡与故障转移 3.6 实践案例:使用Flume采集数据上传到HDFS 习题 第4章 使用Kafka采集系统日志数据 4.1 Kafka概述 4.1.1 消息队列 4.1.2 Kafka的特点 4.1.3 Kafka与Flume的区别 4.2 Kafka的安装部署 4.2.1 集群规划 4.2.2 安装Zookeeper 4.2.3 安装Kafka 4.3 Kafka的基本架构 4.3.1 Kafka的消息系统 4.3.2 Producer与Consumer 4.3.3 主题与分区 4.3.4 Broker与Kafka集群 4.3.5 Zookeeper在Kafka中的作用 4.4 实践案例:使用Kafka采集本地日志数据 4.5 实践案例:Kafka与Flume结合采集日志数据 习题 第5章 其他常用的系统日志数据采集工具 5.1 Scribe 5.1.1 Scribe简介 5.1.2 Scribe的配置文件 5.1.3 实践案例:使用Scribe采集系统日志数据 5.2 Chukwa 5.2.1 Chukwa简介 5.2.2 Chukwa架构与数据采集 5.2.3 实践案例:使用Chukwa采集系统日志数据 5.3 Splunk 5.3.1 Splunk概述 5.3.2 Splunk的安装与基本使用 5.3.3 实践案例:使用Splunk采集系统日志数据 5.4 日志易 5.4.1 日志易的特点 5.4.2 注册日志易账号 5.4.3 实践案例:使用日志易采集搜索本地日志文件 5.5 Logstash 5.5.1 Logstash简介 5.5.2 Logstash的工作原理 5.5.3 Logstash安装与部署 5.5.4 实践案例:使用Logstash采集并处理系统日志数据 5.5.5 实践案例:使用Logstash将数据导入Elasticsearch 5.6 Fluentd 5.6.1 Fluentd简介 5.6.2 Fluentd的安装与配置 5.6.3 Fluentd的基本命令 5.6.4 实践案例:使用Fluentd采集系统日志数据 习题 第6章 使用网络爬虫采集Web数据 6.1 网络爬虫概述 6.1.1 网络爬虫的基本原理 6.1.2 网络爬虫的类型 6.2 网络爬虫基础 6.2.1 网络爬虫的基本爬取方式 6.2.2 使用正则表达式进行字符串匹配 6.2.3 使用解析库解析网页 6.2.4 Ajax数据的爬取 6.2.5 使用selenium抓取动态渲染页面 6.3 常见的网络爬虫框架 6.3.1 Scrapy框架 6.3.2 WebMagic框架 6.3.3 Crawler4j框架 6.3.4 WebCollector框架 6.4 实践案例:使用Scrapy爬取电商网站数据 习题 第7章 Python数据预处理库的使用 7.1 Python与数据分析 7.1.1 Python的特点 7.1.2 为何使用Python进行数据分析 7.2 NumPy:数组与向量计算 7.3 Pandas:数据结构化操作 7.4 SciPy:科学化计算 7.5 Matplotlib:数据可视化 7.6 实践案例:使用Python预处理旅游路线数据 习题 第8章 使用ETL工具Kettle进行数据预处理 8.1 Kettle概述 8.2 Kettle的安装与配置 8.3 Kettle的基本使用 8.3.1 Kettle的使用界面 8.3.2 新建转换与任务 8.3.3 数据获取 8.3.4 数据清洗与转换 8.3.5 数据迁移和装载 8.4 实践案例:使用Kettle处理某电商网站数据 习题 第9章 其他常用的数据预处理工具 9.1 Pig 9.1.1 Pig概述 9.1.2 Pig的安装和配置 9.1.3 Pig Latin的基本概念 9.1.4 使用Pig进行数据预 |