内容推荐 本书针对社会需求,为信息管理与信息系统专业本科生提供大数据存储及处理方面的知识。通过系统的讲解大规模数据的存储及处理等基础知识,使学生了解分布式数据处理系统的基本思想、原理及架构;通过实际案例分析及实践,使学生掌握大数据存储及处理的技术方法,最终使学生具备参与大规模分布式数据处理系统的搭建、数据分析及处理以及数据可视化等方面的能力。 目录 第1章Hadoop生态系统简介/001 1.1大数据发展/001 1.2Hadoop平台介绍/006 1.3相关的公司/009 1.4Hadoop生态系统/011 第2章Hadoop核心组件及其基本原理/014 2.1HDFS基本原理/014 2.2MapReduce分布式计算框架/022 2.3Yarn介绍/029 第3章Hadoop环境搭建/033 3.1Linux基础/033 3.2Linux的文件系统结构/036 3.3文件类型/038 3.4Linux基本操作命令/039 3.5Linux下常用的工具软件/047 3.6Hadoop环境搭建/051 第4章Hive基本原理及安装部署/063 4.1Hive基本原理/063 4.2Hive的数据存储/064 4.3Hive的安装部署/066 第5章Hive的基本操作/070 5.1Hive的DDL(datadefinelanguage)操作/070 5.2Hive的DML(datamanagedlanguage)操作/076 5.3Hiveshell参数/093 第6章Spark基础知识/095 6.1Spark原理/095 6.2Spark架构及生态/098 6.3Spark运行流程及特点/100 6.4Spark运行模式/108 第7章SparkRDD编程/114 7.1RDD设计与运行原理/114 7.2RDD基本操作/122 7.3SparkSQL简介/132 第8章基于MLLIB机器学习/140 8.1概述/140 8.2Spark分类和预测/142 8.3决策树算法/145 8.4朴素贝叶斯算法/152 8.5回归分析与预测技术/157 8.6聚类分析/167 大数据原理及实践 8.7k-means聚类算法简介/172 8.8DBSCAN聚类算法简介/179 8.9关联规则分析简介/185 8.10Apriori算法和FPTree算法简介/188 参考文献/200 |