![]()
内容推荐 本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。 本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。 本书适合具有一定Python编程基础、想要使用pandas进行数据处理与分析的数据科学领域的从业者或研究人员阅读。 作者简介 耿远昊,威斯康星大学麦迪逊分校统计学硕士在读,Datawhale成员,“JoyfulPandas”开源教程作者。pandas贡献者,活跃于pandas开源社区,主要贡献涉及漏洞修复、功能实现与性能优化等方面,对pandas在数据处理与分析中的应用有丰富经验。 目录 第一部分 基础知识 第1章 预备知识 1.1 Python基础 1.1.1 推导式 1.1.2 匿名函数 1.1.3 打包函数 1.2 NumPy基础 1.2.1 NumPy数组的构造 1.2.2 NumPy数组的变形 1.2.3 NumPy数组的切片 1.2.4 广播机制 1.2.5 常用函数 1.3 习题 第2章 pandas基础 2.1 文件的读取和写入 2.1.1 文件读取 2.1.2 数据写入 2.2 基本数据结构 2.2.1 Series 2.2.2 DataFrame 2.3 常用基本函数 2.3.1 汇总函数 2.3.2 特征统计函数 2.3.3 频次函数 2.3.4 替换函数 2.3.5 排序函数 2.3.6 apply()函数 2.4 窗口 2.4.1 滑动窗口 2.4.2 扩张窗口 2.5 习题 第二部分 4类操作 第3章 索引 3.1 单级索引 3.1.1 DataFrame的列索引 3.1.2 Series的行索引 3.1.3 loc索引器 3.1.4 iloc索引器 3.1.5 query()函数 3.1.6 索引运算 3.2 多级索引 3.2.1 多级索引及其表的结构 3.2.2 多级索引中的loc索引器 3.2.3 多级索引的构造 3.3 常用索引方法 3.3.1 索引层的交换和删除 3.3.2 索引属性的修改 3.3.3 索引的设置与重置 3.3.4 索引的对齐 3.4 习题 …… 第三部分 4类数据 第四部分 进阶实战 |