![]()
内容推荐 本书基于作者多年的教学与实践经验编写,重点介绍阿里云大数据体系的核心原理与架构,内容涉及开发、运维、管理与架构。全书分为4篇,共13章:第1篇(第1~2章)介绍大数据技术基础;第2篇(第3~8章)介绍阿里云大数据的离线计算服务;第3篇(第9~10章)介绍阿里云大数据的实时计算服务,包括消息队列Kafka版和实时计算Flink版;第4篇(第11~13章)介绍阿里云大数据增值服务——数加平台,包括阿里云大数据集成开发平台DataWorks、数据可视化分析平台Quick BI和机器学习平台PAI。 本书适合对大数据技术感兴趣的平台架构师、运维管理人员和项目开发人员阅读。 无论读者是否接触过大数据技术,只要具备基础的Linux知识和Java基础,就能够通过本书快速掌握阿里云大数据技术并增加实战经验。根据本书中的操作步骤,读者可以在实际的项目生产环境中快速应用并实施阿里云大数据平台技术。 作者简介 赵渝强(网名赵强老师)IT技术专家和培训讲师。18年以上的IT行业从业经历,清华大学计算机软件工程专业毕业,京东大学大数据学院院长,Oracle中国有限公司高级技术顾问,华为认证讲师。曾在BEA、甲骨文、摩托罗拉等世界500强公司担任高级软件架构师或咨询顾问等要职,精通大数据、数据库、中间件技术和Java技术。培训学员超过10万人。 目录 第1篇 大数据技术基础 第1章 大数据核心理论基础与架构 1.1 什么是大数据 1.1.1 大数据的基本概念和特性 1.1.2 大数据平台的核心问题——存储与计算 1.2 大数据的理论基础 1.2.1 大数据的分布式存储 1.2.2 大数据的分布式计算 1.3 大数据技术与数据仓库 1.3.1 什么是数据仓库 1.3.2 基于大数据技术实现的数据仓库 1.4 基于开源大数据组件的大数据平台架构 1.4.1 数据源层 1.4.2 数据采集层 1.4.3 大数据平台层 1.4.4 数据仓库层 1.4.5 应用层 1.5 自建大数据平台与租赁大数据平台 1.5.1 为什么推荐使用租赁的大数据平台 1.5.2 为什么选择阿里云大数据平台 1.6 阿里云大数据生态圈体系 1.6.1 阿里云大数据基础组件 1.6.2 基于阿里云大数据基础组件的数加平台 第2章 阿里云大数据技术基础——开源大数据技术生态圈 2.1 开源大数据技术生态圈简介 2.1.1 面向离线数据的存储计算引擎Hadoop生态圈体系及其组件 2.1.2 面向批处理的大数据计算引擎Spark生态圈体系及其组件 2.1.3 面向流处理的大数据计算引擎Flink生态圈体系及其组件 2.2 面向离线数据的存储计算引擎Hadoop快速上手 2.2.1 【实战】部署Hadoop集群 2.2.2 【实战】使用Hadoop文件系统HDFS存储数据 2.2.3 【实战】使用Hadoop离线计算引擎MapReduce处理数据 2.3 面向批处理的大数据计算引擎Spark快速上手 2.3.1 【实战】部署Spark集群 2.3.2 【实战】执行Spark离线计算任务 2.3.3 【实战】执行Spark实时计算任务 2.3.4 【实战】使用Spark SQL处理结构化数据 2.4 面向流处理的大数据计算引擎Flink快速上手 2.4.1 【实战】部署Flink集群 2.4.2 【实战】执行Flink离线计算任务 2.4.3 【实战】执行Flink实时计算任务 2.4.4 【实战】使用Flink SQL处理结构化数据 2.5 大数据体系的单点故障问题 第2篇 阿里云大数据的离线计算服务 第3章 面向离线数据存储与计算的MaxCompute基础 3.1 MaxCompute简介 3.1.1 什么是MaxCompute 3.1.2 MaxCompute的特点 3.2 初识MaxCompute 3.2.1 MaxCompute的架构 3.2.2 MaxCompute的核心概念 3.2.3 MaxCompute的数据类型 …… 第3篇 阿里云大数据的实时计算服务 第4篇 阿里云大数据增值服务——数加平台 |