内容推荐 本书以大数据分析应用岗位职业能力递进为主线,较为全面地介绍了Spark大数据技术的相关知识。全书共7章,内容包括Spark生态圈中的Spark Core、Spark SQL、Spark Streaming、GraphX、MLlib等组件,以及海量离线数据的处理、基于历史数据的交互式查询、基于实时数据流的大数据处理、图计算、机器学习等知识点循序渐进地展开介绍。本书以Spark Core、Spark SQL、Spark Streaming相关知识为重点,GraphX、MLlib等组件作为扩展性知识来介绍,书结合岗位胜任能力配套多个企业级实战案例与课后习题,帮助学习者更好地理解和巩固所学知识,熟练应用相关技术,提升专业能力和综合能力,为学习者技术提升和职业发展打下良好基础。 本书可以作为高等职业院校大数据技术、人工智能技术应用、软件技术等相关专业教材,也可以作为从事大数据处理与分析相关技术人员的参考用书。 目录 第1章 专业认知能力培养:走进Spark 新手上路1.1:认知Spark 1.1.1 Spark的发展历程 1.1.2 Spark的特点 1.1.3 Spark技术栈 1.1.4 Spark术语 1.1.5 Spark的应用场景 循序渐进1.2:了解Spark的运行架构与运行模式 1.2.1 Spark的运行架构 1.2.2 Spark的运行模式及运行流程 1.2.3 Spark核心概念RDD 渐入佳境1.3:掌握Spark在不同模式下的环境搭建 1.3.1 Spark本地单机模式环境搭建 1.3.2 Spark单机伪分布模式环境搭建实战演练 1.4 企业级项目环境搭建 Spark完全分布模式环境搭建 归纳总结 勤学苦练 第2章 专业规范能力培养:立足Scala 新手上路2.1:认知Scala 2.1.1 Scala简介 2.1.2 Scala特性 2.1.3 Scala环境配置及安装 2.1.4 Scala环境的运行 新手上路2.2:变量和数据类型 2.2.1 注释 2.2.2 常量和变量 2.2.3 标识符和关键字 2.2.4 数据类型 2.2.5 数据类型转换 2.2.6 Scala输出 新手上路2.3:运算符和流程控制 2.3.1 算术运算符 2.3.2 关系运算符 2.3.3 逻辑运算符 2.3.4 赋值运算符 2.3.5 位运算符 2.3.6 运算符优先级 2.3.7 流程控制 循序渐进2.4:函数式编程 2.4.1 函数的定义 2.4.2 函数基本语法 2.4.3 函数和方法的区别 2.4.4 函数至简原则 2.4.5 匿名函数 2.4.6 高阶函数 2.4.7 函数柯里化 循序渐进2.5:面向对象编程 2.5.1 包 2.5.2 类和对象 2.5.3 封装 2.5.4 继承 2.5.5 抽象类 2.5.6 伴生对象 2.5.7 特质 循序渐进2.6:数据集合与文件操作 2.6.1 集合简介 2.6.2 数组 2.6.3 列表 2.6.4 Set集合 2.6.5 Map集合 2.6.6 元组 2.6.7 文件操作 实战演练2.7:智慧交通车牌分类识别 2.7.1 函数识别车牌所在地 2.7.2 统计太原市车牌数量 2.7.3 根据车牌所在地对车牌数据分组 2.7.4 车牌所在地信息查询程序 归纳总结 勤学苦练 第3章 岗位核心能力培养:聚焦Spark Core 新手上路3.1:认知Spark核心数据集RDD 3.1.1 RDD简介 3.1.2 RDD的特点 新手上路3.2:掌握RDD的创建 3.2.1 借助内存中的集合数据创建RDD 3.2.2 从外部存储创建RDD 循序渐进3.3:掌握RDD的算子操作 3.3.1 算子的概念与作用 3.3.2 转换算子的操作与使用 3.3.3 键-值对类型RDD算子的操作与使用 3.3.4 行动算子的操作与使用 循序渐进3.4:掌握RDD的文件操作 3.4.1 JSON格式文件的读取与存储 3.4.2 SequenceFile格式文件的存储与读取 渐入佳境3.5:了解IntelliJ IDEA如何开发Spark程序 3.5.1 下载与安装IntelliJ IDEA 3.5.2 Scala插件的安装与使用 3.5.3 IntelliJ IDEA运行Spark程序 实战演练3.6:智慧交通道路卡口车流量分析 3.6.1 数据获取与数据解释 3.6.2 项目编程环境搭建 3.6.3 交通道路卡口车流量排名分析 3.6.4 交通道路卡口车辆超速违章分析 归纳总结 勤学苦练 第4章 岗位拓展能力培养:夯实Spark SQL 新手上路4.1:初识Spark SQI 4.1.1 Spark SQL简介 4.1.2 Spark SQL特点 4.1.3 Spark SQL的Spark Shell交互 循序渐进4.2:掌握Spark SQL核心编程模型DataFrame 4.2.1 DataFrame简介 4.2.2 DataFrame的创建 4.2.3 DataFrame的相关操作 渐入佳境4.3:熟悉Spark SQL扩展编程模型Dataset 4.3.1 Dataset简介 4.3.2 Dataset的创建 实战演练4.4:在线教育数据分析 4.4.1 数据获取与数据解释 4.4.2 用户学习行为习惯分析 4.4.3 视频课程点击量排行分析 4.4.4 视频课程分类排行推荐 归纳总结 勤学苦练 第5章 岗位综合能力培养:锤炼Spark Streaming 新手上路5.1:初识Spark Streaming 5.1.1 Spark Streaming概述 5.1.2 Spark Streaming特点 5.1.3 Spark Streaming工作原理 循序渐进5.2:掌握DStream编程模型 5.2.1 DStream简介 5.2.2 DStream创建 渐入佳境5.3:熟悉DStream的相关操作 5.3.1 DStream的转换操作 5.3.2 DStream的窗口操作 5.3.3 DStream的输出函数 实战演练5.4:电商网站广告点击分析 5.4.1 项目环境搭建 5.4.2 项目数据解释 5.4.3 电商网站广告点击黑名单 5.4.4 电商网站热门广告排行 归纳总结 勤学苦练 第6章 职业发展能力培养:进阶Spark GraphX图计算新手上路 6.1:初识Spark GraphX 6.1.1 图计算的概念与应用 6.1.2 Spark GraphX的概念 6.1.3 Spark GraphX的特性 |