内容推荐 本书从初学者角度出发,通过丰富的示例和实战项目,详细讲解大数据开发环境、关键技术及其应用。全书共分10章,第1~9章的内容分别为大数据概述、Linux系统的安装与使用、Python3语言基础、Hadoop开发环境、HDFS技术、MapReduce技术、Hive数据仓库、HBase分布式数据库、Sqoop工具,第10章详细解析了实战项目“货运车分布分析平台”,帮助初学者快速入门。本书所有知识点都结合具体的编程示例,对于重要知识点提供视频讲解,还设计了多个实训,使读者通过实践环节加强对知识点的理解和掌握。 本书适合作为高等院校计算机应用、大数据技术及相关专业的教材,也适合作为大数据技术相关培训的教材和大数据技术初学者的自学资料。 目录 第1章 大数据概述 1.1 大数据的产生与发展 1.2 大数据的基础知识 1.3 大数据架构 1.4 本章小结 1.5 课后习题 第2章 Linux系统的安装与使用 2.1 系统安装 2.1.1 安装CentOS7.x 2.1.2 安装步骤 2.2 基本命令 2.2.1 cd命令 2.2.2 打包和解压命令 2.2.3 其他常用命令 2.3 权限与目录 2.3.1 权限 2.3.2 目录 2.4 文件操作 2.4.1 文件与目录管理 2.4.2 用户和用户组管理 2.5 网络配置 2.6 本章小结 2.7 课后习题 第3章 Python3语言基础 3.1 Python3简介 3.1.1 Python的发展历史 3.1.2 Python的应用 3.2 环境搭建 3.2.1 Python3环境的搭建 3.2.2 PyCharm 3.3 基础语法 3.3.1 语法规范 3.3.2 数据类型 3.3.3 Number数据类型 3.3.4 字符串 3.3.5 列表 3.3.6 元组 3.3.7 字典 3.3.8 集合 3.3.9 函数 3.3.10 模块 3.3.11 类和对象 3.3.12 封装 3.3.13 构造函数 3.3.14 继承 3.3.15 异常 3.3.16 操作MySQL 3.4 本章小结 3.5 课后习题 3.6 实训 第4章 Hadoop开发环境 4.1 Hadoop生态圈工具 4.2 环境搭建 4.2.1 Linux虚拟机基础配置 4.2.2 Xshell工具 4.2.3 安装JDK 4.2.4 安装Hadoop 4.2.5 安装SSH 4.2.6 复制虚拟机 4.2.7 修改其他虚拟机 4.2.8 设置免密 4.2.9 启动Hadoop集群 4.3 常见问题汇总 4.4 本章小结 4.5 课后习题 第5章 HDFS技术 5.1 HDFS架构 5.2 HDFS命令 5.2.1 version命令 5.2.2 dfsadmin命令 5.2.3 jar命令 5.2.4 fs命令 5.3 API的使用 5.3.1 hdfs模块 5.3.2 pyhdfs模块 5.4 本章小结 5.5 课后习题 5.6 实训 第6章 MapReduce技术 6.1 MapReduce工作原理 6.1.1 MapReduce作业流程 6.1.2 早期MapReduce架构存在的问题 6.2 YARN运行概述 6.2.1 yarn模块介绍 6.2.2 YARN的工作流程 6.3 利用Python进行MapReduce编程 6.3.1 Hadoop Streaming概述 6.3.2 Hadoop Streaming原理 6.3.3 Hadoop Streaming用法 6.3.4 Python 编写MapReduce环境搭建 6.3.5 用Python编写MapReduce代码入门程序(词频统计) 6.3.6 清洗数据 6.4 mrjob模块 6.4.1 mrjob模块概述 6.4.2 安装mrjob模块 6.4.3 mrjob模块的第一个例子(词频统计) 6.4.4 mrjob模块的运行方式 6.4.5 MRJob类的工作原理 6.4.6 mrjob模块的数据清洗 6.4.7 mrjob模块的两表合并 6.5 本章小结 6.6 课后习题 6.7 实训 第7章 Hive数据仓库 7.1 Hive模型 7.1.1 Hive的架构与基本组成 7.1.2 Hive的数据模型 7.2 Hive安装 7.2.1 Hive的基本安装 7.2.2 MySQL的安装 7.2.3 Hive的配置 7.3 HiveQL详解 7.3.1 元数据存储 7.3.2 数据存储 7.3.2 HQL操作 7.4 本章小结 7.5 课后习题 7.6 实训 第8章 HBase分布式数据库 8.1 HBase工作原理 8.1.1 HBase的表结构 8.1.2 体系结构 8.1.3 物理模型 8.1.4 HBase读写流程 8.2 HBase完全分布式 8.2.1 安装前准备 8.2.2 配置文件 8.2.3 集群启动 8.3 HBase Shell 8.3.1 DDL操作 8.3.2 DML操作 8.4 本章小结 8.5 课后习题 第9章 Sqoop工具 9.1 Sqoop的安装 9.2 Sqoop的使用 9.2.1 MySQL数据的导入导出 9.2.2 Oracle数据的导入导出 9.3 本章小结 9.4 课后习题 第10章 Hadoop实战——货运车分布分析平台 10.1 需求分析 10.2 案例1:各个城市中各种货运车的数量 10.2.1 业务简介 10.2.2 业务模型 10.2.3 业务逻辑 10.2.4 数据呈现 10.3 案例2:报废货运车占比 10.3.1 业务简介 10.3.2 业务模型 10.3.3 业务逻辑 10.3.4 数据呈现 10.4 案例3:各种货运车的总量 10.4.1 业务简介 10.4.2 业务模型 10.4.3 业务逻辑 10.4.4 数据呈现 |