大数据时代,企业的决策也越来越依靠数据,对海量数据进行挖掘和分析的重视程度也高于以往任何时候。业界涌现了众多新技术,Hadoop系统是其中当之无愧的王者,当前已发展为拥有HDFS、YARN、MapReduce、Pig、HCatalog、HBase等系统的较为完整的大数据系统生态圈,为大数据的开发利用提供了比较全面的解决方案。
萨米尔·瓦德卡、马杜·西德林埃、杰森·文纳编写的《深入理解Hadoop(原书第2版)》从Hadoop使用者的角度出发讲解Hadoop的实现原理,浓缩了Had00p软件系统的精华。通过本书,你可以学会从头搭建Had00p集群,并着手从业务数据和科学数据中分析获取其有价值的数据。作者以典型的sQL语句做对照来讲解MapReduce序,对照sQL中典型关键词演示如何使用MapReduce程序来实现类似功能,便于你快速掌握MapReduce来解决大数据问题。通过阅读本书,你不仅可以深入理解如何用M印Reduce把海量数据分而治之,把划分出来的小块数据部署到整个集群上的数千个节点进行分析运算,这样可在小时级别完成对海量数据的分析处理,还可以深入学习如何利用Had00p平台使自己的程序分布式执行和并行化计算,即只需关注业务代码,剩下的交给Hadoop平台。
萨米尔·瓦德卡、马杜·西德林埃、杰森·文纳编写的《深入理解Hadoop(原书第2版)》由世界级大数据专家亲笔撰写,深入剖析Hadoop系统及其重要组件,不仅详细介绍Hadoop涉及的分布式理论基础知识,还着重讲解Had00p系统的工程实践应用,包含大量真实案例和数据,可以帮助你从架构、开发、应用和运维等多方面全面地掌握Hadoop系统,成为名副其实的Hadoop专家。
全书共17章,主要内容包括:第1章从整体上介绍大数据的由来及Hadoop项目;第2章讲解Hadoop系统的核心概念、使用及其解决问题的方法和技巧;第3章讲解Hadoop系统的安装以及如何编写和执行MapReduce程序;第4章讲解Hadoop系统的底层细节,着重讲解HDFs;第5章~第7章深入分析MapReduce框架,讲述如何在MapReduce程序中实现各种数据密集型编程模式,不仅包括MapReduce框架的API,还介绍MaoReduct框架的更复杂概念及.其设计理念;第8章介绍Hadoop作业的测试方法;第9章讲解如何监控Hadoop集群;第10章~第12章分别介绍H1ve、Pig和Crunch、Hcatalog框架;第13章讲解Hadoop日志流处理技术及应用;第14章介绍HBase;第15章~第17章介绍数据科学基本概念及应用、云计算实例、分布式下载服务实例等。