内容推荐 Spark是当前主流的大数据计算框架,本书较为全面地介绍了Spark的基本知识。按照“项目驱动、任务导向”的理念,全书设计了七个项目,分别是搭建Spark环境、编写Scala程序处理4S店数据、Spark RDD分析交通违章记录、Spark SQL处理结构化学生信息、Spark编程进阶、Spark Streaming处理流数据及Spark ML实现电影推荐。 为了使读者迅速掌握Spark的基本知识,本书提供了大量编程实例及配套资源,包括源代码、软件、数据集、虚拟机、习题答案等;另外,为了进一步降低入门门槛,本书还提供了配置好开发环境的Ubuntu虚拟机,读者可通过使用Virtual Box等工具导入后,迅速开始Spark相关知识的学习,省却了大量的环境配置等工作。 本书既可作为大数据、计算机、软件工程、信息管理等相关专业的教材,也可以作为大数据技术爱好者的自学用书。 目录 项目一 搭建Spark环境 项目概述 项目演示 思维导图 任务1.1 认识大数据 1.1.1 大数据时代 1.1.2 大数据的普遍特征——4V 1.1.3 大数据的来源 1.1.4 大数据的处理过程 任务1.2 搭建Hadoop环境 1.2.1 认识Hadoop生态体系 1.2.2 Hadoop环境的搭建 1.2.3 Hadoop平台的初步体验 任务1.3 认识Spark 1.3.1 初识Spark 1.3.2 Spark中的运行框架与过程 1.3.3 Spark与Hadoop的比较 任务1.4 搭建Spark环境 1.4.1 Spark部署模式 1.4.2 Spark本地模式环境搭建 1.4.3 Spark的简单使用 1.4.4 VirtualBox中导入虚拟机 项目小结 课后练习 能力拓展 项目二 编写Scala程序处理4S店数据 项目概述 项目演示 思维导图 任务2.1 Scala的安装与体验 2.1.1 Scala简介 2.1.2 Scala的特性 2.1.3 Scala的下载与安装 2.1.4 轻松编写第一个Scala程序 2.1.5 在网页上编写Scala程序 任务2.2 查找并输出店铺的相关信息 2.2.1 数据类型 2.2.2 变量与常量 2.2.3 Scala中的运算符 2.2.4 if条件语句 2.2.5 Scala中的函数 2.2.6 使用函数查询4S店信息 任务2.3 统计广州4S店的数量 2.3.1 for循环 2.3.2 while、do...while循环 2.3.3 数组 2.3.4 使用循环统计广州4S店的数量 任务2.4 分组统计4s店信息 2.4.1 元组 2.4.2 List 2.4.3 Set 2.4.4 Map 2.4.5 高阶函数 2.4.6 使用集合分组统计4S店的信息 任务2.5 编写独立应用程序对店铺数据进行分析 2.5.1 类与对象 2.5.2 继承 2.5.3 特质 2.5.4 单例对象与伴生对象 2.5.5 模式匹配与样例类 2.5.6 文件的读/写 2.5.7 读取数据文件对4S店数据进行分析 项目小结 课后练习 项目三 Spark RDD分析交通违章记录 项目四 Spark SQL处理结构化学生数据 项目五 Spark编程进阶 项目六 Spark Streaming处理流数据 项目七 Spark ML实现电影推荐 |