![]()
内容推荐 Azure Databricks是一款基于云的大数据分析和机器学习平台,用于实现基于Apache Spark的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。 本书详细介绍基于Azure Databricks云平台来使用Apache Spark完成大规模数据处理和分析的方法。本书总计11章,首先介绍大规模数据分析相关的概念;然后介绍受管的Spark及其与Databricks的关系,以及Databricks的版本差异和使用方法(涵盖工作区、集群、笔记本、Databricks文件系统、数据导入/导出等内容);接着介绍使用SQL和Python分别实现数据分析的过程,数据提取、变换、加载、存储、优化技巧等高阶数据处理方法以及外部连接工具、生产环境集成等内容;最后探讨了运行机器学习算法、合并数据更新以及通过API运行Databricks、Delta流处理等高阶主题。 作为数据分析领域的入门书,本书具有很强的实用性,可供数据工程师、数据分析师和决策分析人员等学习和参考。 作者简介 罗伯特·伊利杰森(Robert Ilijason),商务智能领域深耕20年的战场老兵,曾担任过欧洲一些大公司的外包人,并在零售、电信、银行、政府机构等领域做过大规模数据分析项目。多年来,数据分析领域的各种风尚潮起潮落,但他深信云端Apache Spark(尤其是与Databricks一起)与众不同,将是游戏规则的改变者。 目录 第1章 大规模数据分析简介 1.1 宣传中的数据分析 1.2 现实中的数据分析 1.3 大规模数据分析 1.4 数据——分析中的燃料 1.5 免费的工具 1.6 进入云端 1.7 Databricks——懒人的分析工具 1.8 如何分析数据 1.9 真实世界的大规模数据分析示例 1.9.1 Volvo Trucks的远程信息处理 1.9.2 Visa的欺诈识别 1.9.3 Target的客户分析 1.9.4 Cambridge Analytica有针对性的广告投放 1.10 小结 第2章 Spark和Databricks 2.1 Apache Spark简介 2.2 Databricks—受管的Apache Spark 2.3 Spark的架构 2.3.1 Apache Spark如何处理作业 2.3.2 数据 2.4 内核之上的出色组件 2.5 小结 第3章 Databricks初步 3.1 只能通过云来使用 3.2 免费的社区版 3.2.1 差不多够用了 3.2.2 使用社区版 3.3 梦寐以求的商业版 3.3.1 Amazon Web Services上的Databricks 3.3.2 Azure Databricks 3.4 小结 第4章 工作区、集群和笔记本 4.1 在UI中漫游 4.2 集群 4.3 数据 4.4 笔记本 4.5 小结 第5章 将数据载入Databricks 5.1 Databricks文件系统 5.1.1 文件系统导航 …… 第6章 使用SQL查询数据 第7章 Python的威力 第8章 ETL和高级数据整理 第9章 在Databricks和外部工具之间建立连接 第10章 在生产环境中运行解决方案 第11章 杂项 |