内容推荐 本书是大数据技术普及系列读物之一,主要涉及大数据采集、分布式文件存储和非关系型数据管理等内容。全书共6章,每章一个专题,按照大数据运用流程,从网页和日志文件两种常用的大数据采集方法入手,介绍了分布式文件存储、NoSQL数据库基础理论和4种NoSQL数据库技术。针对特定技术选择了一款最典型的产品进行诠释,先后对Python 语言中的Requests 和BeautifulSoup包,Hadoop生态中的Flume、HDFS和HBase,以及Redis、MongoDB和Neo4j等产品进行了介绍。在每章结构上,按照要做什么(需求背景)、是什么(产品功能和特性)、为什么(体系结构/数据模型)和怎么做(基本操作)4个方面递进展开,内容相对独立,方便读者根据自身需要选择章节进行阅读。 全书内容相对浅显,具有较强的可读性,适合对大数据技术感兴趣,希望从技术和产品层面对大数据采集、存储和管理进行初步学习的读者阅读。 目录 第1章 大数据采集 1.1 概述 1.2 网页数据的爬取 1.2.1 网络爬虫概述 1.2.2 网络爬虫的实现 1.2.3 网页爬取策略 1.3 日志文件的采集 1.3.1 Apache软件组织 1.3.2 文件采集工具Flume 1.3.3 实验:Flume的使用方法 小结 第2章 分布式文件存储 2.1 Hadoop概述 2.1.1 Hadoop的诞生与发展 2.1.2 Hadoop生态系统 2.1.3 Hadoop版本演进 2.1.4 Hadoop的发行版本 2.2 HDFS分布式文件系统 2.2.1 HDFS概述 2.2.2 HDFS设计思想 2.2.3 HDFS实现机制 2.2.4 HDFS数据读取和写入 2.2.5 HDFS文件操作方式 2.3 HDFS分布式部署实战 2.3.1 虚拟化技术 2.3.2 实验设计 2.3.3 实验过程 小结 第3章 NoSQL数据库 3.1 数据管理技术的发展 3.2 关系型数据库技术 3.3 NoSQL技术概述 3.3.1 传统数据库面临的挑战 3.3.2 NoSQL技术的特点 3.3.3 NoSQL的理论基础 3.4 常见的NoSQL数据库 3.4.1 NoSQL数据库的分类 3.4.2 键值数据库 小结 第4章 列族数据库 4.1 概述 4.2 HBase数据模型 4.2.1 列族数据模型 4.2.2 一个网页的数据实例 4.3 HBase体系结构 4.4 常用命令 4.4.1 表操作 4.4.2 数据操作 小结 第5章 文档数据库 5.1 以文档进行数据存储 5.1.1 文本文件 5.1.2 常用的数据存储和交换文件类型 5.1.3 用数据库管理文档 5.2 MongoDB文档数据库 5.2.1 概述 5.2.2 数据模型 5.2.3 BSON数据存储 5.3 MongoDB的常用操作 5.3.1 安装部署 5.3.2 数据库操作 5.3.3 集合操作 5.3.4 索引操作 小结 第6章 图数据库 6.1 概述 6.2 图模型 6.2.1 图论 6.2.2 网络模型 6.2.3 图数据库 6.3 图数据的存储 6.3.1 邻接矩阵 6.3.2 邻接表 6.4 图数据的检索 6.5 图数据库Neo4j 6.5.1 概况 6.5.2 安装使用 小结 参考文献 |