内容推荐 这本书先介绍了如何使用Ppandas在Python中进行数据操作,教您熟悉统计分析和绘图技术。还将通过多个实践测试,让您学会使用Dask分析分布在多台计算机上的数据。接着还将为您介绍如何在内存无法容纳全部数据时,为绘图聚合数据。本书还将带领您探索Hadoop(HDFS和YARN),它可帮助您处理更大的数据集。此外,这本书还介绍了Spark相关知识,并解释了它如何与其他工具进行交互。 Python大数据分析是为Python开发人员、数据分析师和数据科学家设计的,他们需要亲自动手控制数据并将其转化为有影响力的见解。书中关于统计度量和关系数据库的基本知识将帮助您理解在本书中的各种概念。 目录 第1章 Python数据科学堆栈 1.1 概述 1.2 Python库和软件包 1.2.1 IPython:一个功能强大的交互式shell 1.2.2 Jupyter Notebook 1.2.3 使用IPython还是Jupyter 1.2.4 Numpy 1.2.5 Scipy 1.2.6 Matplotlib 1.2.7 Pandas 1.3 使用Pandas 1.3.1 读取数据 1.3.2 数据操作 1.4 数据类型转换 1.5 聚合和分组 1.6 从Pandas导出数据 1.7 Pandas可视化 1.8 总结 第2章 统计数据可视化 2.1 概述 2.2 可视化图表 2.3 图表的组件 2.4 Seaborn 2.5 图的类型 2.5.1 折线图(Line graph) 2.5.2 散点图(Scatter plot) 2.5.3 直方图(Histogram) 2.5.4 箱线图(Boxplot) 2.6 Pandas DataFrame 2.7 修改图的组件 2.7.1 配置轴对象的标题和标签 2.7.2 修改线条颜色和样式 2.7.3 修改图的大小 2.8 导出图像 2.9 总结 第3章 使用大数据框架 3.1 概述 3.2 Hadoop 3.2.1 使用HDFS操控数据 3.3 Spark数据处理平台 3.3.1 Spark SOL以及Pandas DataFrame 3.4 Parquet文件 3.4.1 编写Parquet文件 3.4.2 使用Parquet和Partitions提高分析性能 3.5 处理非结构化数据 3.6 总结 第4章 Spark DataFrame 4.1 概述 4.2 使用Spark DataFrame使用方法 4.3 从Spark DataFrame中写入输出 4.4 探索和了解Spark DataFrame更多特点 4.5 使用Spark DataFrame对数据进行相关操作 4.6 Spark DataFrame绘制图形 4.7 总结 第5章 处理缺失值以及相关性分析 5.1 概述 5.2 设置Jupyter Notebook 5.3 缺失值 5.4 处理Spark DataFrame中的缺失值 5.5 相关性 5.6 总结 第6章 进行探索性数据分析 6.1 概述 6.2 定义商业问题 6.2.1 问题识别 6.2.2 需求收集 6.2.3 数据管道和工作流 6.2.4 识别可测量的指标 6.2.5 文档和展示 6.3 将商业问题转化为可测量的度量标准和进行探索性数据分析(Exploratory Data Analysis, EDA) 6.3.1 数据采集 6.3.2 数据生成分析 6.3.3 KPI可视化 6.3.4 特征重要性 6.4 数据科学项目生命周期的结构化方法 6.4.1 第一阶段:理解和定义业务问题 6.4.2 第二阶段:数据访问与发现 6.4.3 第三阶段:数据工程和预处理 6.4.4 第四阶段:模型开发 6.5 总结 第7章 大数据分析中的再现性 7.1 概述 7.2 Jupyter Notebooks的再现性 7.2.1 业务问题介绍 7.2.2 记录方法和工作流程 7.2.3 数据管道 7.2.4 相关性 7.2.5 使用源代码版本控制 7.2.6 模块化过程 7.3 以可复制的方式收集数据 7.3.1 标记单元格和代码单元格中的功能 7.3.2 解释标记语言中的业务问题 7.3.3 提供数据源的详细介绍 7.3.4 解释标记中的数据属性 7.4 进行编码实践和标准编写 7.4.1 环境文件 7.4.2 编写带有注释的可读代码 7.4.3 工作流程的有效分割 7.4.4 工作流文档 7.5 避免重复 7.5.1 使用函数和循环优化代码 7.5.2 为代码/算法重用开发库/包 7.6 总结 第8章 创建完整的分析报告 8.1 概述 8.2 Spark可从不同的数据源读取数据 8.3 在Spark DataFrame上进行SQL操作 8.4 生成统计测量值 8.5 总结 附录 |