内容推荐 本书紧扣Hadoop生态圈相关系统对大数据处理架构进行全方位介绍,重点围绕大数据基本概念、集群搭建、存储管理、各类数据分析计算以及可视化等方面的基本理论、方法和关键技术的介绍,通过丰富的应用案例展示了大数据的应用场景以及数据价值。全书共分10章,分别是认识大数据、Hadoop集群搭建、HDFS分布式文件系统、MapReduce分布式计算框架、ZooKeeper分布式协调服务、HBase分布式数据库、Hive数据仓库、Sqoop数据迁移、Storm流计算和数据可视化。 全书遵循“理论够用、实用第一”的原则选择内容,编排合理,表述深入浅出,所有操作命令全部按序列出,并配有解释和截图,指导性、实用性强,能使读者快速、轻松地掌握Hadoop大数据平台运维和分析的基本技术。 本书可作为高等职业教育本科、专科院校包括大数据技术与应用专业在内的电子信息类专业相关课程教材,也可作为非计算机专业通识课程教学用书以及大数据爱好者的参考读物。 目录 第1章 认识大数据 1.1 初识大数据 1.1.1 大数据产生的时代背景 1.1.2 大数据的发展历程 1.1.3 大数据未来的发展趋势 1.2 大数据基本概念 1.2.1 什么是大数据 1.2.2 大数据的特征 1.2.3 大数据的重要性 1.3 大数据关键技术与计算模式 1.3.1 大数据采集、预处理与存储管理 1.3.2 MapReduce分布式计算框架 1.3.3 大数据分析 1.3.4 大数据计算模式 1.4 大数据与云计算、物联网和人工智能的关系 1.4.1 大数据与云计算的关系 1.4.2 大数据与物联网的关系 1.4.3 大数据与人工智能的关系 小结 习题 第2章 Hadoop集群搭建 2.1 了解Linux操作系统 2.1.1 Linux的诞生和发展 2.1.2 Linux的整体架构 2.1.3 Linux的特点 2.1.4 Linux文本编辑器 2.1.5 Linux权限与目录 2.1.6 Linux基本命令 2.2 认识Hadoop集群 2.2.1 Hadoop生态圈 2.2.2 Hadoop的运行模式 2.2.3 Hadoop的优势 2.3 Hadoop集群的搭建和配置 2.3.1 主机的硬件配置与虚拟化软件 2.3.2 Hadoop集群安装准备 2.3.3 Hadoop集群搭建和配置 2.3.4 Hadoop集群测试 小结 习题 第3章 HDFS分布式文件系统 3.1 认识HDFS 3.1.1 HDFS产生的背景 3.1.2 HDFS简介 3.1.3 HDFS的优缺点 3.2 HDFS的基本原理 3.2.1 HDFS的体系架构 3.2.2 HDFS文件读写原理 3.3 HDFS的Shell命令行操作 …… 第4章 MapReduce分布式计算框架 第5章 ZooKeeper分布式协调服务 第6章 HBase分布式数据库 第7章 Hive数据仓库 第8章 Sqoop数据迁移 第9章 Storm流计算 第10章 数据可视化 参考文献 |