时至今日产生的数据量达到了一个惊人的地步,而且还在不断增长。Apache Sparki已经成为分析大数据的实际工具,并且也是数据科学工具箱的关键部分。本书针对Spark近期新版本进行了更新,将Spak、统计方法和真实数据集结合在一起,教你如何运用PySpark、Spark Python API和Spark编程中的其他很好实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介绍了Spark:生态系统,然后深入研究将常用技术(包括分类、聚类、协同过滤和异常检测)应用于以下领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解,并且能够使用Python进行编程,那么本书将帮助你开始进行大规模的数据分析。