![]()
作者简介 Ben Spivey,Cloudera解决方案架构师,曾在多家世界500强企业工作,涉及金融服务、零售、医疗等多个行业。在于客户的Hadoop集群进行规划、安装、配置以及安全保护方面有丰富经验。 乔伊·爱彻利维亚,Rocana公司软件工程师,在Hadoop平台上构建了IT运行分析系统。作为Kite SDK的提交者,他为多个项目贡献了代码,包括Apache Flume、Sqoop、Hadoop和HBase。 赵双(DFlower)Insight-Labs网络安全小组成员,中国科学院信息工程研究所助理研究员,中国科学院大学授课讲师。具有多年网络安全研究实战及大数据技术应用经验,研究方向包括恶意代码及APT检测、智能终端安全、大数据安全等,多次在XCON、OWASP、HITCON等靠前外网络安全峰会发表技术演讲。 白波(Schnix)毕业于西安交通大学,现任中国科学院信息工程研究所工程师。具有多年安全数据分析实战经验,研究方向包括APT检测分析、大数据安全、智能终端安全等,参与牵头起草行业标准1篇,获得省部级科学技术奖1次。 目录 序 xi 前言 xii 第1 章引言 1 1.1安全概览 1 1.1.1机密性 2 1.1.2完整性 2 1.1.3可用性 2 1.1.4验证、授权和审计 3 1.2Hadoop 安全:简史 5 1.3Hadoop 组件和生态系统 5 1.3.1Apache HDFS 6 1.3.2Apache YARN 7 1.3.3Apache MapReduce 8 1.3.4Apache Hive 9 1.3.5Cloudera Impala 9 1.3.6Apache Sentry 10 1.3.7ApacheHBase 11 1.3.8Apache Accumulo 11 1.3.9Apache Solr.13 1.3.10Apache Oozie 13 1.3.11Apache ZooKeeper 13 1.3.12Apache Flume13 1.3.13Apache Sqoop14 1.3.14ClouderaHue 14 1.4小结14 第一部分安全架构 第2 章保护分布式系统16 2.1威胁种类 17 2.1.1非授权访问/伪装 17 2.1.2内在威胁17 2.1.3拒绝服务18 2.1.4数据威胁18 2.2威胁和风险评估 18 2.2.1用户评估19 2.2.2环境评估19 2.3漏洞19 2.4深度防御 20 2.5小结21 第3 章系统架构 22 3.1运行环境 22 3.2网络安全 23 3.2.1网络划分23 3.2.2网络防火墙 24 3.2.3入侵检测和防御25 3.3Hadoop 角色和隔离策略 27 3.3.1主节点 28 3.3.2工作节点29 3.3.3管理节点29 3.3.4边界节点30 3.4操作系统安全 31 3.4.1远程访问控制 31 3.4.2主机防火墙 31 3.4.3SELinux 33 3.5小结34 第4 章Kerberos 35 4.1为什么是Kerberos35 4.2Kerberos 概览 36 4.3Kerberos 工作流:一个简单示例37 4.4Kerberos 信任 38 4.5MIT Kerberos39 4.5.1服务端配置 41 4.5.2客户端配置 44 4.6小结46 第二部分验证、授权和审计 第5 章身份和验证48 5.1身份48 5.1.1将Kerberos 主体映射为用户名49 5.1.2Hadoop 用户到组的映射 50 5.1.3Hadoop 用户配置 54 5.2身份验证 54 5.2.1Kerberos 55 5.2.2用户名和密码验证 56 5.2.3令牌 56 5.2.4用户模拟59 5.2.5配置 60 5.3小结70 第6 章授权 71 6.1HDFS 授权 71 HDFS 扩展ACL72 6.2服务级授权74 6.3MapReduce 和YARN 的授权85 6.3.1MapReduce(MR1) 86 6.3.2YARN(MR2) 87 6.6HBase 和Accumulo 的授权 95 6.6.1系统、命名空间和表级授权 95 6.6.2列级别和单元级别授权99 6.7小结99 第7 章Apache Sentry(孵化中) 100 7.1Sentry 概念 100 7.2Sentry 服务 102 7.3Hive 授权 105 7.4Impala 授权 110 7.5Solr 授权 112 7.6Sentry 特权模型 113 7.6.1SQL 特权模型 114 7.6.2Solr 特权模型116 7.7Sentry 策略管理 118 7.7.1SQL 命令 118 7.7.2SQL 策略文件 121 7.7.3Solr 策略文件123 7.7.4策略文件的验证和校验 124 7.7.5从策略文件迁移 126 7.8小结 127 第8 章审计128 8.1HDFS 审计日志129 8.2MapReduce 审计日志130 8.3YARN 审计日志132 8.4Hive 审计日志 134 8.5ClouderaImpala 审计日志 134 8.6HBase 审计日志 135 8.7Accumulo 审计日志 137 8.8Sentry 审计日志 139 8.9日志聚合 140 8.10小结 141 第三部分数据安全 第9 章数据保护144 9.1加密算法 144 9.2静态数据加密145 9.2.1加密和密钥管理 146 9.2.2HDFS 静态数据加密146 9.2.3MapReduce2 中间数据加密 151 9.2.4Impala 磁盘溢出加密 152 9.2.5全盘加密 152 9.2.6文件系统加密 154 9.2.7Hadoop 中重要数据的安全考虑155 9.3动态数据加密156 9.3.1传输层安全156 9.3.2Hadoop 动态数据加密 157 9.4数据销毁和删除 162 9.5小结 163 第10 章数据导入安全164 10.1导入数据的完整性 165 10.2数据导入的机密性 166 10.2.1Flume 加密 167 10.2.2Sqoop 加密 173 10.3导入工作流 178 10.4企业架构179 10.5小结 180 第11 章数据提取和客户端访问安全 181 11.1Hadoop 命令行接口182 11.2保护应用安全 183 11.3HBase 184 11.3.1HBase shell 184 11.3.2HBase REST 网关 186 11.3.3HBase Thrift 网关 189 11.4Accumulo 190 11.4.1Accumulo shell 190 11.4.2Accumulo 代理服务 192 11.5Oozie192 11.6Sqoop194 11.7SQL 访问 195 11.7.1Impala195 11.7.2Hive200 11.8WebHDFS/HttpFS 208 11.9小结 209 第12 章Cloudera Hue210 12.1Hue HTTPS 211 12.2Hue 身份验证 212 12.2.1SPNEGO 后端 212 12.2.2SAML 后端213 12.2.3LDAP 后端215 12.3Hue 授权218 12.4Hue SSL 客户端配置 219 12.5小结 219 第四部分综合应用 第13 章案例分析222 13.1案例分析:Hadoop 数据仓库 222 13.1.1环境搭建 223 13.1.2用户体验 226 13.1.3小结229 13.2案例分析:交互式HBaseWeb 应用230 13.2.1设计与架构230 13.2.2安全需求 231 13.2.3集群配置 232 13.2.4实现中的注意事项236 13.2.5小结237 后记238 关于作者240 关于封面240 内容推荐 本书阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。第1章是介绍性内容,随后分为四大部分:第一部分是安全架构,第二部分是验证、授权和安全审计, |