内容简介——PDF电子书 本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。同时,它也是利用Python进行科学计算的实用指南(专门针对数据密集型应用)。本书重点介绍了用于高效解决各种数据分析问题的Python语言和库。《利用Python进行数据分析》没有阐述如何利用Python实现具体的分析方法。 作者简介——PDF电子书 Wes McKinney,资深数据分析专家,对各种Python库(包括NumPy、pandas、matplotlib以及IPython等)等都有深入研究,并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章,被各大技术社区争相转载,是Python和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源Python库——pandas,广获用户好评。在创建Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management的定量分析师。 目录——PDF电子书 前言 第1章 准备工作 本书主要内容 为什么要使用Python进行数据分析 重要的Python库 安装和设置 社区和研讨会 使用本书 致谢 第2章 引言 来自bit.ly的1.usa.gov数据 MovieLens 1M数据集 1880-2010年间全美婴儿姓名 小结及展望 第3章 IPython:一种交互式计算和开发环境 IPython基础 内省 使用命令历史 与操作系统交互 软件开发工具 IPython HTML Notebook 利用IPython提高代码开发效率的几点提示 高级IPython功能 致谢 第4章 NumPy基础:数组和矢量计算 NumPy的ndarray:一种多维数组对象 通用函数:快速的元素级数组函数 利用数组进行数据处理 用于数组的文件输入输出 线性代数 随机数生成 范例:随机漫步 第5章 pandas入门 pandas的数据结构介绍 基本功能 汇总和计算描述统计 处理缺失数据 层次化索引 其他有关pandas的话题 第6章 数据加载、存储与文件格式 读写文本格式的数据 二进制数据格式 使用HTML和Web API 使用数据库 第7章 数据规整化:清理、转换、合并、重塑 合并数据集 重塑和轴向旋转 数据转换 字符串操作 示例:USDA食品数据库 第8章 绘图和可视化 matplotlib API入门 pandas中的绘图函数 绘制地图:图形化显示海地地震危机数据 Python图形化工具生态系统 第9章 数据聚合与分组运算 GroupBy技术 数据聚合 分组级运算和转换 透视表和交叉表 示例:2012联邦选举委员会数据库 第10章 时间序列 日期和时间数据类型及工具 时间序列基础 日期的范围、频率以及移动 时区处理 时期及其算术运算 重采样及频率转换 时间序列绘图 移动窗口函数 性能和内存使用方面的注意事项 第11章 金融和经济数据应用 数据规整化方面的话题 分组变换和分析 更多示例应用 第12章 NumPy高级应用 ndarray对象的内部机理 高级数组操作 广播 ufunc高级应用 结构化和记录式数组 更多有关排序的话题 NumPy的matrix类 高级数组输入输出 性能建议 附录A Python语言精要 |