内容推荐 要在Hadoop生态系统中实现快速的数据输入、服务和分析,一直以来只有几个可用但是不够完美的解决方案,要么以缓慢的数据输入为代价实现快速分析,要么以缓慢的分析为代价实现快速的数据输入。这个问题现在有了解决办法,使用Apache Kudu基于列的数据存储,你可以很容易地对快速输入的数据进行快速的分析。这就是本书的内容。 在这本书中,你将学习Kudu设计中的关键概念,以及如何用它构建快速、可扩展和可靠的应用程序。通过实际的示例,你将了解Kudu如何与其他Hadoop生态系统组件(如Apache Spark、SparkSQL和Impala)集成。 本书适合大数据系统的架构师、开发者和咨询师阅读。 目录 前言 第1章 为什么会有Kudu Kudu为什么重要 易用性驱动接纳度 新的应用场景 物联网 现有的实时分析方案 实时处理 硬件环境 Kudu在大数据生态中的独特位置 与其他生态系统的组件对比 与大数据组件对比——HDFS、HBase和Cassandra 小结 第2章 Kudu简介 Kudu的高层设计 Kudu中的角色 master服务器 tablet服务器 Kudu中的概念与机制 热点 分区 第3章 安装与运行 安装 使用KuduQuickstart VM 使用Cloudera Manager 从源代码构建 软件包 Cloudera Quickstart VM 快速安装:3分钟或者更短 小结 第4章 Kudu的管理 为Kudu做规划 master服务器和tablet服务器 预写日志 数据服务器和存储 复制策略(replication strategy) 部署时的注意事项:是采用新集群还是现有集群 全新的仅有Kudu的集群 全新的包含Kudu的Hadoop集群 在现有的Hadoop集群中添加Kudu tablet服务器和master服务器的Web UI master服务器UI和tablet服务器UI master服务器UI tablet服务器UI Kudu命令行接口 集群 文件系统 tablet副本 与Raft一致性相关的元数据 添加和删除tablet服务器 添加tablet服务器 删除tablet服务器 安全 一个简单的类比 Kudu的安全功能 基本的性能调优 Kudu的内存限制 维护管理器的线程 监控性能 未雨绸缪,远离麻烦 避免耗尽磁盘空间 容忍磁盘故障 备份 小结 第5章 Kudu常用的开发接口 客户端API KuduClient(客户端) KuduTable KuduDDL Kudu扫描器(Scanner)读取模式 C++API Python API 准备Python开发环境 使用Python开发Kudu应用 Java Java应用 Spark 在Impala中使用Kudu 第6章 表和模式设计 模式设计基础 在线事务处理/在线分析处理混合的模式设计 Lambda架构 OLTP/OLAP拆分 主键和列的设计 列模式的其他注意事项 分区的基础知识 范围分区 哈希分区 模式的更改 最佳实践和提示 分区 大对象 decimal(十进制数) 不重复的字符串 压缩 对象的命名 列的数量 二进制类型 网络包示例 小结 第7章 Kudu用例 实时物联网分析 预测建模 多平台混合方案 关于作者 封面图片
|