![]()
内容推荐 《Hadoop理论与实践》按照高等学校大数据、人工智能课程基本要求,以案例驱动的形式来组织内容,突出该课程的实践性特点。《Hadoop理论与实践》主要包含四大部分:Hadoop技术、数据仓库与Hive、Flume分布式日志处理系统、Spark及其生态圈概述。其中,Hadoop技术包括大数据与数据分析、Hadoop生态系统介绍、Hadoop存储、Hadoop计算之MapReduce、Hadoop安全等;数据仓库与Hive包括Hive与数据库的基础知识、Hive的高级特性、Hive优化及案例的应用;Flume分布式日志处理系统包括Flume介绍、Flume使用案例及Flume开发案例的应用;Spark及其生态圈概述包括Spark简介及Spark生态系统详解。 《Hadoop理论与实践》内容安排合理,层次清晰,通俗易懂,实例丰富,突出理论与实践的结合,可作为各类高等院校人工智能与大数据相关专业的教材,也可供广大程序设计人员参考。 作者简介 李平,男,1981年出生,工学博士,任教于黄冈师范学院数学与统计学院。主要研究方向为大数据技术与应用、数学建模等,有丰富的高校教学经验与企业实践经历,发表科研论文十余篇,主持参与省部级科研项目三项,多次指导本专科学生及研究生参加数据挖掘竞赛、数学建模竞赛并获得国家级奖项。 目录 第1章 大数据概述 1.1 大数据与数据分析 1.1.1 Hadoop的基础组件 1.1.2 Hadoop分布式文件系统 1.1.3 MapReduce 1.1.4 YARN 1.2 ZooKeeper 1.3 Hive 1.4 与其他系统集成 1.4.1 Hadoop生态系统 1.4.2 数据集成与Hadoop 1.4.3 Hadoop商用平台CDH 第2章 Hadoop存储 2.1 HDFS的基础知识 2.1.1 HDFS概念 2.1.2 架构 2.1.3 接口 2.2 在分布式模式下设置HDFS集群 2.3 HDFS的高级特性 2.3.1 快照 2.3.2 离线查看器 2.3.3 分层存储 2.4 文件格式 2.5 云存储 第3章 数据仓库和Hive 3.1 数据仓库和Hive简介 3.1.1 数据仓库简介 3.1.2 数据仓库与数据库的区别 3.1.3 Hive简介 3.1.4 查看CDH中Hive版本 3.2 Hive与数据库 3.2.1 Hive与RDBMS 3.2.2 HiveQL与SQL 3.3 Hive的高级特性 3.3.1 Hive的优缺点和适用场景 3.3.2 Hive进程介绍 3.3.3 Hive访问方式 3.3.4 Hive体系结构 3.3.5 Hive Metastore 3.3.6 Hive数据类型 3.3.7 Hive的常用参数配置 3.3.8 Hive的数据模型 3.3.9 Hive函数 3.4 案例演示 3.4.1 准备数据 3.4.2 修改和查询 3.4.3 表连接 3.4.4 创建视图 3.4.5 创建索引 3.4.6 JDBC开发 3.4.7 UDF的开发 3.4.8 UDAF 3.5 Hive优化和Hive中的锁 3.5.1 注意事项 3.5.2 Hive锁 3.6 问题汇总 第4章 Hadoop计算 4.1 Hadoop MapReduce的基础 4.1.1 概念 4.1.2 架构 4.2 启动MapReduce作业 4.2.1 编写map任务 4.2.2 编写reduce任务 4.2.3 编写MapReduce作业 4.2.4 MapReduce配置 4.3 MapReduce的高级特性 4.3.1 分布式缓存 4.3.2 计数器 4.3.3 作业历史服务器 第5章 Hadoop安全 5.1 提升Hadoop集群安全性 5.1.1 边界安全 5.1.2 Kerberos认证 5.1.3 Hadoop中的服务级授权 5.2 提升数据安全性 5.2.1 数据分类 5.2.2 将数据传到集群 5.2.3 保护集群中的数据 5.3 增强应用程序安全性 5.3.1 YARN 架构 5.3.2 YARN中的应用提交 第6章 Flume分布式日志处理系统 6.1 Flume介绍 6.1.1 Flume简介 6.1.2 Flume原理 6.1.3 Flume特点 6.1.4 Flume结构 6.1.5 Flume使用 6.2 Flume使用案例 6.2.1 Flume监听端口示例 6.2.2 两个主机组成的Flume集群示例 6.2.3 HDFS Sink使用示例 6.2.4 扇出示例 6.2.5 负载均衡(Sink组)示例 6.3 Flume开发案例 6.3.1 开发自定义的Sink 6.3.2 Flume结合Kafka的使用 第7章 Spark及其生态圈概述 7.1 Spark 简介 7.1.1 什么是Spark 7.1.2 Spark与MapReduce比较 7.1.3 Spark的演进路线图 7.2 Spark生态系统 7.2.1 Spark Core 7.2.2 Spark Streaming 7.2.3 Spark SQL 7.2.4 BlinkDB 7.2.5 MLBase/MLIib 7.2.6 GraphX 7.2.7 SparkR 7.2.8 Alluxio 7.3 小结 |