网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | Hadoop数据仓库实战 |
分类 | |
作者 | 肖睿,兰伟,廖春琼 编 |
出版社 | 人民邮电出版社 |
下载 | |
简介 | 作者简介 肖睿,课工场创始人,北京大学教育学博士,北京大学软件学院特约讲师,北京大学学习科学实验室特约顾问。作为北大青鸟Aptech的联合创始人,历任学术总监、研究院院长、公司副总裁等核心岗位,拥有20多年的IT职业教育产品管理和企业管理经验。于2015年创办课工场,兼任总经理,旨在为大学生提供更可靠的IT就业教育及服务。 目录 章 Hive入门1 任务1了解Hive基础2 1.1.1认识Hive2 1.1.2Hive架构设计5 1.1.3Hive工作流程6 1.1.4Hive适用场景7 任务2掌握Hive数据存储模型8 1.2.1Hive存储格式8 1.2.2Hive数据单元10 1.2.3Hive存储模型10 任务3安装配置Hive环境11 1.3.1Hive的发展历程12 1.3.2搭建Hive CDH环境13 1.3.3Hive初体验15 1.3.4Hive开发环境18 1.3.5技能实训21 本章小结21 本章作业21 第2章 Hive数据库及表操作23 任务1熟悉Hive数据类型24 2.1.1基本数据类型24 2.1.2复杂数据类型26 任务2使用Hive管理雇员信息28 2.2.1Hive DDL操作29 2.2.2Hive DML操作33 2.2.3Hive Shell38 2.2.4技能实训40 任务3使用Hive Java API操作雇员表41 2.3.1开发环境搭建41 2.3.2JDBC操作Hive数据库42 2.3.3技能实训47 本章小结47 本章作业48 第3章 Hive元数据49 任务1访问雇员数据的元数据信息50 3.1.1Hive元数据的概念及存储方式50 3.1.2雇员数据元数据信息查询53 3.1.3技能实训60 任务2使用Hive Java API读取雇员表元数据60 3.2.1hive-metastore组件60 3.2.2使用HiveMetaStoreClient访问元数据62 3.2.3技能实训68 任务3使用HCatalog管理雇员数据的元数据69 3.3.1HCatalog介绍69 3.3.2HCatalog应用70 本章小结75 本章作业75 第4章 Hive不错操作77 任务1关联查询零售商店订单明细78 4.1.1SELECT语句78 4.1.2关联查询83 4.1.3联合查询87 4.1.4技能实训87 任务2使用分组排序实现商品销售排行88 4.2.1排序88 4.2.2分组聚合91 4.2.3技能实训94 任务3使用窗口函数实现零售数据统计94 4.3.1窗口函数94 4.3.2窗口的定义99 4.3.3技能实训102 本章小结102 本章作业102 第5章 Hive函数与Streaming103 任务1应用内置函数104 5.1.1函数概述104 5.1.2内置函数详解105 5.1.3技能实训112 任务2使用Java编写Hive自定义函数112 5.2.1自定义函数概述113 5.2.2UDF114 5.2.3UDAF117 5.2.4UDTF120 5.2.5技能实训121 任务3使用Streaming实现数据处理121 5.3.1Streaming概念122 5.3.2Streaming应用122 5.3.3技能实训125 本章小结125 本章作业125 第6章 Hive视图与索引127 任务1创建并管理零售商店的顾客表和订单表视图128 6.1.1视图的基本概念及使用场景128 6.1.2视图的基本操作130 6.1.3Materialized Views和Lateral View135 6.1.4技能实训138 任务2建立零售商店顾客表索引139 6.2.1Hive索引的基本概念及使用场景139 6.2.2为零售商店顾客表建立索引141 6.2.3与索引相关的元数据表144 6.2.4技能实训145 本章小结146 本章作业146 第7章 Hive调优147 任务1熟悉Hive性能调优策略148 7.1.1Hive性能调优使用工具148 7.1.2优化Map Task和Reduce Task个数150 7.1.3Hive Job优化151 7.1.4Hive Query优化153 7.1.5设置压缩155 7.1.6技能实训157 任务2解决Hive数据倾斜问题157 7.2.1数据倾斜问题158 7.2.2数据倾斜问题解决方案158 任务3Hive集成Tez161 7.3.1Tez简介161 7.3.2Tez安装配置162 7.3.3Hive与Tez集成164 7.3.4技能实训166 本章小结166 本章作业166 第8章 Hive与HBase集成169 任务1理解Hive与HBase集成的场景及原理170 8.1.1Hive与HBase集成的应用场景170 8.1.2Hive与HBase集成原理171 任务2实现Hive与HBase集成174 8.2.1Hive与HBase集成配置174 8.2.2Hive与HBase集成功能测试175 8.2.3将零售商店顾客购买统计信息存入HBase表182 8.2.4技能实训183 任务3使用Phoenix操作HBase数据库184 8.3.1Phoenix简介184 8.3.2搭建Phoenix CDH环境186 8.3.3技能实训189 本章小结190 本章作业190 第9章 数据迁移框架Sqoop191 任务1使用Sqoop完成Hadoop与MySQL间的数据迁移192 9.1.1Sqoop简介192 9.1.2导入MySQL数据到HDFS196 9.1.3导入MySQL数据到Hive205 9.1.4导入MySQL数据到HBase206 9.1.5导出HDFS数据到MySQL207 9.1.6技能实训211 任务2使用Sqoop Job完成Hive与MySQL间的数据迁移211 9.2.1Sqoop Job212 9.2.2技能实训213 本章小结213 本章作业213 0章 项目实训:电子商务消费行为分析215 10.1项目准备216 10.2难点分析219 10.3项目实现思路220 本章小结242 本章作业242 内容推荐 本书以Hive为开发平台,主要介绍了如何使用HiveQL来查询和分析存储在Hadoop分布式文件系统上的大数据集合,具体内容包括Hive入门、Hive数据库及表操作、Hive元数据、Hive不错操作、Hive函数与Streaming、Hive视图与索引、Hive调优、Hive与HBase集成、数据迁移框架Sqoop等。本书介绍的每个任务都运用了大量案例,紧密结合实际应用,融入了含金量十足的开发经验。在此基础上,本书通过丰富的练习和操作实践,帮助读者巩固所学的内容。本书配以多元的学习资源和支持服务,包括视频、案例素材、学习社区等,为读者提供多方面的学习体验。本书适合作为计算机、大数据等相关专业的教材,也适合具有一定Linux或Java开发基础且想从事大数据开发的人员阅读学习,还可以作为大数据分析与运维人员的参考用书。 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。