![]()
内容推荐 本书完整讲解了电商行业数据仓库项目的构建过程,并提供了详尽的思路分析。在整个项目构建过程中,介绍了关键技术框架的安装部署流程和经典数据指标的解决方案,并在其中穿插了大数据和数据仓库的经典理论知识。 本书从逻辑上可以分为两大部分:第一部分是第1~3章,重点讲解数据仓库的相关概念和项目需求分析,并初步介绍了数据仓库项目所需的基本环境;第二部分是第4~8章,这一部分是数据仓库项目构建的关键部分,讲解了如何对海量数据进行采集、存储和分层计算,以及如何计算得到所有的项目需求指标。 本书适合具有一定编程基础且对大数据有兴趣的读者阅读参考。通过本书,读者可以快速了解大数据和数据仓库,掌握数据仓库项目的完整构建流程。 目录 第1章 数据仓库概论 1.1 数据仓库的概念与特点 1.2 数据仓库的演进过程 1.3 数据仓库技术 1.4 数据仓库基本架构 1.5 数据库和数据仓库的区别 1.6 学前导读 1.6.1 学习的基础要求 1.6.2 你将学到什么 1.7 本章总结 第2章 项目需求描述 2.1 前期调研 2.2 项目架构分析 2.2.1 电商数据仓库产品描述 2.2.2 系统功能结构 2.2.3 系统流程图 2.3 项目业务概述 2.3.1 数据采集模块业务描述 2.3.2 数据仓库需求业务描述 2.3.3 数据可视化业务描述 2.4 系统运行环境 2.4.1 硬件环境 2.4.2 软件环境 2.5 本章总结 第3章 项目部署的环境准备 3.1 集群规划与服务器配置 3.2 安装JDK与Hadoop 3.2.1 虚拟机环境准备 3.2.2 安装JDK 3.2.3 安装Hadoop 3.2.4 Hadoop的分布式集群部署 3.3 本章总结 第4章 用户行为数据采集模块 4.1 日志生成 4.1.1 数据埋点 4.1.2 用户行为日志格式 4.1.3 数据模拟 4.2 消息队列Kafka 4.2.1 安装ZooKeeper 4.2.2 ZooKeeper集群启动、停止脚本 4.2.3 安装Kafka 4.2.4 Kafka集群启动、停止脚本 4.2.5 Kafka topic相关操作 4.3 采集日志的Flume 4.3.1 Flume组件 4.3.2 Flume安装 4.3.3 采集日志的Flume配置 4.3.4 采集日志的Flume测试 4.3.5 采集日志的Flume启动、停止脚本 4.4 消费日志的Flume 4.4.1 消费日志的Flume配置 4.4.2 时间戳拦截器 4.4.3 消费日志的Flume测试 4.4.4 消费日志的Flume启动、停止脚本 4.5 本章总结 第5章 业务数据采集模块 5.1 电商业务概述 5.1.1 电商业务流程 5.1.2 电商常识 5.1.3 电商业务表结构 5.1.4 数据同步策略 5.1.5 数据同步工具选择 5.2 业务数据采集 5.2.1 MySQL安装 5.2.2 业务数据生成 5.2.3 DataX安装 5.2.4 Maxwell安装 5.2.5 全量同步 5.2.6 增量同步 5.3 采集通道启动和停止脚本 5.4 本章总结 第6章 数据仓库搭建模块 6.1 数据仓库理论准备 6.1.1 数据建模概述 6.1.2 关系模型与范式理论 6.1.3 维度模型 6.1.4 维度建模理论之事实表 6.1.5 维度建模理论之维度表 6.1.6 雪花模型、星形模型与星座模型 6.2 数据仓库建模实践 6.2.1 名词概念 6.2.2 为什么要分层 6.2.3 数据仓库搭建流程 6.2.4 数据仓库开发规范 6.3 数据仓库搭建环境准备 6.3.1 Hive安装 6.3.2 Hive on Spark配置 6.3.3 YARN容量调度器并发度问题 6.3.4 数据仓库开发环境配置 6.3.5 模拟数据准备 6.3.6 复杂数据类型 6.4 数据仓库搭建——ODS层 6.4.1 用户行为日志数据 6.4.2 ODS层用户行为日志数据导入脚本 6.4.3 业务数据 6.4.4 ODS层业务数据导入脚本 6.5 数据仓库搭建——DIM层 6.5.1 商品维度表(全量) 6.5.2 优惠券维度表(全量) 6.5.3 活动维度表(全量) 6.5.4 地区维度表(全量) 6.5.5 营销坑位维度表 6.5.6 营销渠道维度表 6.5.7 时间维度表(特殊) 6.5.8 用户维度表(拉链表) 6.5.9 DIM层首日数据装载脚本 6.5.10 DIM层每日数据装载脚本 6.6 数据仓库搭建——DWD层 6.6.1 交易域加购物车事务事实表 6.6.2 交易域下单事务事实表 6.6.3 交易域支付成功事务事实表 6.6.4 交易域购物车周期快照事实表 6.6.5 交易域交易流程累积快照事实表 6.6.6 工具域优惠券使用(支付)事务事实表 6.6.7 互动域收藏事务事实表 6.6.8 流量域页面浏览事务事实表 6.6.9 用户域用户注册事务事实表 6.6.10 用户域用户登录事务事实表 6.6.11 DWD层首日业务数据装载脚本 6.6.12 DWD层每日业务数据装载脚本 6.7 数据仓库搭建——DWS层 6.7.1 最近1日汇总表 6.7.2 最近n日汇总表 6.7.3 历史至今汇总表 6.8 数据仓库搭建——ADS层 6.8.1 流量主题指标 6.8.2 用户主题指标 6.8.3 商品主题指标 6.8.4 交易主题指标 6.8.5 优惠券主题指标 6.8.6 ADS层数据导入脚本 6.9 数据模型评估及优化 6.10 本章总结 第7章 DolphinScheduler全流程调度 7.1 DolphinScheduler概述与安装部署 7.1.1 DolphinScheduler概述 7.1.2 DolphinScheduler安装部署 7.2 创建MySQL数据库和表 7.3 DataX数据导出 7.4 全流程调度 7.4.1 数据准备 7.4.2 全流程调度配置 7.5 电子邮件报警 7.5.1 注册邮箱 7.5. |