![]()
内容推荐 罗素·朱尼著的《Spark全栈数据分析》介绍了作者提出的基于Spark的敏捷数据科学方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践方法。书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手地帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。 本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。 作者简介 罗素·朱尼,Russell Jurney在博彩游戏中练就了数据分析的技能,构建了网络应用程序来分析美国和墨西哥的博彩机器的表现。在涉足创业、互动媒体、记者等行业后,他搬到硅谷,在Ning和Linkedln从事构建分析型应用的工作。Russell现在是Data Syndrome的首席顾问,他帮助公司使用本书所介绍的原则和方法构建分析型产品。 目录 前言 第Ⅰ部分 准备工作 第1章 理论 导论 定义 方法学 敏捷数据科学宣言 瀑布模型的问题 研究与应用开发 敏捷软件开发的问题 最终质量:偿还技术债 瀑布模型的拉力 数据科学过程 设置预期 数据科学团队的角色 认清机遇与挑战 适应变化 过程中的注意事项 代码审核与结对编程 敏捷开发的环境:提高生产效率 用大幅打印实现想法 第2章 敏捷工具 可伸缩性=易用性 敏捷数据科学之数据处理 搭建本地环境 配置要求 配置Vagrant 下载数据 搭建EC2环境 下载数据 下载并运行代码 下载代码 运行代码 Jupyter笔记本 工具集概览 敏捷开发工具栈的要求 Python 使用JSON行和Parquet序列化事件 收集数据 使用Spark进行数据处理 使用MongoDB发布数据 使用Elasticsearch搜索数据 使用Apache Kafka分发流数据 使用PySpark Streaming处理流数据 使用scikit-learn与Spark MLlib进行机器学习 使用Apache Airflow(孵化项目)进行调度 反思我们的工作流程 轻量级网络应用 展示数据 本章小结 …… 第Ⅱ部分 攀登金字塔 附录A 安装手册
|