第1章 Spark的环境搭建与运行
1.1 Spark的本地安装与配置
1.2 Spark集群
1.3 Spark编程模型
1.3.1 SparkContext类与SparkConf类
1.3.2 SparkSession
1.3.3 Spark shell
1.3.4 弹性分布式数据集
1.3.5 广播变量和累加器
1.4 SchemaRDD
1.5 Spark data flame
1.6 Spark Scala编程入门
1.7 Spark Java编程入门
1.8 Spark Python编程入门
1.9 Spark R编程入门
1.10 在Amazon EC2上运行Spark
1.11 在Amazon Elastic Map Reduce上配置并运行Spark
1.12 Spark用户界面
1.13 Spark所支持的机器学习算法
1.14 Spark ML的优势
1.15 在Google Compute Engine上用Dataproc构建Spark集群
1.15.1 Hadoop和Spark版本
1.15.2 创建集群
1.15.3 提交任务
1.16 小结
第2章 机器学习的数学基础
2.1 线性代数
2.1.1 配置IntelliJ Scala环境
2.1.2 配置命令行Scala环境
2.1.3 域
2.1.4 矩阵
2.1.5 函数
2.2 梯度下降
2.3 先验概率、似然和后验概率
2.4 微积分
2.4.1 可微微分
2.4.2 积分
2.4.3 拉格朗日乘子
2.5 可视化
2.6 小结
第3章 机器学习系统设计
3.1 机器学习是什么
3.2 MovieStream介绍
3.3 机器学习系统商业用例
3.3.1 个性化
3.3.2 目标营销和客户细分
3.3.3 预测建模与分析
3.4 机器学习模型的种类
3.5 数据驱动的机器学习系统的组成
3.5.1 数据获取与存储
3.5.2 数据清理与转换
3.5.3 模型训练与测试循环
3.5.4 模型部署与整合
3.5.5 模型监控与反馈
……
第4章 Spark上数据的获取、处理与准备
第5章 Spark构建推荐引擎
第6章 Spark构建分类模型
第7章 Spark构建回归模型
第8章 Spark构建聚类模型
第9章 Spark应用于数据降维
第10章 Spark高级文本处理技术
第11章 SparkStreaming实时机器学习
第12章 SparkMLPipelineAPI