作者简介 安德鲁·摩根是数据战略及其执行方面的专家,在支持技术、系统架构和实现数据科学方面拥有丰富的经验。他在数据行业拥有20多年的经验,曾为一些久负盛名的公司及其优选客户设计系统——通常是大型、复杂和靠前性的项目。2013年,他创办了数据科学和大数据工程咨询公司ByteSumo,目前在与欧洲和美国的客户进行合作。 目录 第1章 数据科学生态系统 1.1 大数据生态系统简介 1.1.1 数据管理 1.1.2 数据管理职责 1.1.3 合适的工具 1.2 数据架构 1.2.1 数据采集 1.2.2 数据湖 1.2.3 数据科学平台 1.2.4 数据访问 1.3 数据处理技术 1.4 配套工具 1.4.1 Apache HDFS 1.4.2 亚马逊S 1.4.3 Apache Kafka 1.4.4 Apache Parquet 1.4.5 Apache Avro 1.4.6 Apache NiFi 1.4.7 Apache YARN 1.4.8 Apache Lucene 1.4.9 Kibana 1.4.10 Elasticsearch 1.4.11 Accumulo 1.5 小结 第2章 数据获取 2.1 数据管道 2.1.1 通用采集框架 2.1.2 GDELT数据集简介 2.2 内容登记 2.2.1 选择和更多选择 2.2.2 随流而行 2.2.3 元数据模型 2.2.4 Kibana仪表盘 2.3 质量保证 2.3.1 案例1——基本质量检查,无争用用户 2.3.2 案例2——进阶质量检查,无争用用户 2.3.3 案例3——基本质量检查,50%使用率争用用户 2.4 小结 第3章 输入格式与模式 3.1 结构化的生活是美好的生活 3.2 GDELT维度建模 3.3 加载数据 3.3.1 模式敏捷性 3.3.2 GKG ELT 3.4 Avro 3.4.1 Spark-Avro方法 3.4.2 教学方法 3.4.3 何时执行Avro转换 3.5 Apache Parquet 3.6 小结 第4章 探索性数据分析 4.1 问题、原则与规划 4.1.1 理解EDA问题 4.1.2 设计原则 4.1.3 探索的总计划 4.2 准备工作 4.2.1 基于掩码的数据剖析简介 4.2.2 字符类掩码简介 4.2.3 构建基于掩码的剖析器 4.3 探索GDELT 4.4 小结 第5章 利用Spark进行地理分析 5.1 GDELT和石油 5.1.1 GDELT事件 5.1.2 GDELT GKG 5.2 制订行动计划 5.3 GeoMesa 5.3.1 安装 5.3.2 GDELT采集 5.3.3 GeoMesa采集 5.3.4 GeoHash 5.3.5 GeoServer 5.4 计量油价 5.4.1 使用GeoMesa查询API 5.4.2 数据准备 5.4.3 机器学习 5.4.4 朴素贝叶斯 5.4.5 结果 5.4.6 分析 5.5 小结 第6章 采集基于链接的外部数据 6.1 构建一个大规模的新闻扫描器 6.1.1 访问Web 导语 用Spark构建商业级数据科学解决方案 内容推荐 Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。这是一本专门介绍Spark的图书,旨在教会读者利用Spark构建实用的数据科学解决方案。 本书内容包括14章,由浅入深地介绍了数据科学生态系统、数据获取、输入格式与模式、探索性数据分析、利用Spark进行地理分析、采集基于链接的外部数据、构建社区、构建推荐系统、新闻词典和实时标记系统、故事除重和变迁、情感分析中的异常检测、趋势演算、数据保护和可扩展算法。 本书适合数据科学家以及对数据科学、机器学习感兴趣的读者阅读,需要读者具备数据科学相关的基础知识,并通过阅读本书进一步提升Spark运用能力,从而创建出高效且实用的数据科学解决方案。 |