![]()
内容推荐 本书以大数据分析与挖掘的常用技术与真实案例相结合的方式,按照“概念和原理讲解、案例分析、能力拓展——Python软件应用”的层次进行阐述,深入浅出地介绍大数据分析与挖掘的重要内容。 全书共11章,第1章作为全书的绪论,介绍了大数据分析与挖掘的基本概念、行业应用等;第2章介绍了Python的安装、编程基础以及常用的数据分析工具;第3章介绍了数据的类型、质量和相似度与相异度;第4章介绍了数据探索的常用方法,包括质量分析、描述性统计分析、可视化分析和多维数据分析;第5章介绍了数据预处理的常用方法,包括数据清洗、数据集成、数据归约和数据变换与离散化;第6章介绍了回归与分类的方法,包括多元线性回归、逻辑回归、决策树分类、朴素贝叶斯分类等;第7章介绍了聚类的方法,包括K-Means算法、DBSCAN算法等;第8章介绍了关联规则,包括Apriori算法和FP-Growth算法等;第9章介绍了时间序列,包括平稳时间序列分析和非平稳时间序列分析等;第10章介绍了离群点检测,包括基于统计学、邻近性、聚类、分类的离群点检测方法;第11章介绍了大数据分析与挖掘的前沿知识。 本书可作为高校数据科学与大数据技术或人工智能相关专业教材,也可作为数据挖掘爱好者的自学用书。 目录 第1章 绪论 1.1 大数据分析与挖掘的基本概念 1.2 大数据分析与挖掘的行业应用 1.3 大数据分析与挖掘的基本任务 1.4 大数据分析与挖掘的建模过程 1.4.1 明确任务 1.4.2 数据采集 1.4.3 数据探索 1.4.4 数据预处理 1.4.5 挖掘建模 1.4.6 模型评价 1.5 大数据分析与挖掘的建模工具 小结 习题 第2章 Python简介 2.1 Python安装 2.2 Python编程基础 2.2.1 基本命令 2.2.2 数据类型 2.2.3 运算符 2.2.4 函数 2.3 Python数据分析工具 小结 习题 第3章 数据 3.1 数据类型 3.1.1 数据集的类型 3.1.2 属性的定义 3.1.3 属性的分类 3.2 数据质量 3.3 数据的相似度与相异度度量 3.3.1 属性之间的相似度与相异度 3.3.2 数据对象之间的相异度 3.3.3 数据对象之间的相似度 3.3.4 度量方法的选取 小结 习题 第4章 数据探索 4.1 数据质量分析 4.1.1 缺失值分析 4.1.2 异常值分析 4.1.3 一致性分析 4.2 数据描述性统计分析 4.2.1 集中趋势度量 4.2.2 离散程度度量 4.2.3 多元数据统计分析 4.3 数据可视化分析 4.3.1 可视化技术 4.3.2 高维数据可视化 4.4 多维数据分析 4.4.1 多维数组 4.4.2 数据立方体 4.4.3 切片与切块 4.4.4 上卷与下钻 4.5 Python数据探索案例分析 4.5.1 公共自行车租赁系统数据集 4.5.2 数据探索分析 小结 习题 第5章 数据预处理 5.1 数据清洗 5.1.1 缺失值处理 5.1.2 异常值处理 5.2 数据集成 5.2.1 实体识别 5.2.2 数据合并 5.2.3 冗余属性识别 5.3 数据归约 5.3.1 抽样 5.3.2 采样 5.3.3 属性子集选择 5.4 数据变换与离散化 5.4.1 数据规范化 5.4.2 简单函数变换 5.4.3 属性构造 5.4.4 连续属性离散化 5.5 Python数据预处理案例分析 5.5.1 案例背景 5.5.2 城市春运出行数据说明 5.5.3 数据预处理 小结 习题 第6章 回归与分类 6.1 基本概念 6.1.1 回归概述 6.1.2 分类概述 6.2 回归分析 6.2.1 一元线性回归 6.2.2 多元线性回归 6.2.3 多项式回归 6.2.4 逻辑回归 6.3 决策树分类 6.3.1 决策树基本原理 6.3.2 建立决策树 6.3.3 决策树算法 6.3.4 随机森林算法 6.4 朴素贝叶斯分类 6.4.1 朴素贝叶斯模型基本原理 6.4.2 朴素贝叶斯模型代码实现 6.5 K近邻分类 6.5.1 K近邻分类基本原理 6.5.2 K近邻分类代码实现 6.6 支持向量机 6.6.1 支持向量机基本原理 6.6.2 数据线性可分的情况 6.6.3 数据线性不可分的情况 6.7 神经网络 6.7.1 神经网络基本概念 6.7.2 BP神经网络算法 6.8 回归与分类的评估方法 6.8.1 回归的评估方法 6.8.2 分类的评估方法 6.8.3 提高类不平衡数据的分类准确率 6.9 集成学习技术 6.9.1 集成学习方法概述 6.9.2 Bagging 6.9.3 Stacking 6.9.4 Boosting 6.10 Python回归与分类案例分析 6.10.1 回归案例分析 6.10.2 分类案例分析 小结 习题 第7章 聚类 7.1 基本概念 7.2 划分聚类 7.2.1 K-Means算法 7.2.2 K-中心点算法 7.3 层次聚类 7.3.1 凝聚的层次聚类 7.3.2 分裂的层次聚类 7.3.3 簇间距离度量方法 7.3.4 不同距离度量的层次聚类 7.4 基于密度的聚类方法 7.4.1 基于中心方法的密度定义 7.4.2 DBSCAN算法 7.5 概率模型聚类 7.5.1 模糊簇 7.5.2 概率模型聚类步骤 7.5.3 期望大化算法 7.6 聚类评估 7.6.1 估计聚类趋势 7.6.2 确定正确的簇的个数 7.6.3 聚类质量评估 7.7 Python聚类案例分析 7.7.1 数据说明 7.7.2 数据预处理 7.7.3 构建聚类模型 小结 习题 第8章 关联规则 8.1 基本概念 8.1.1 基本元素的概念 8.1.2 闭频繁项集和大频繁项集 8.2 Apriori算法 8.2.1 Apriori算法简介 8.2.2 改进的Apriori算法 8.3 FP-Growth算法 8.3.1 FP-Growth算法的实现过程 8.3.2 使用FP-Growth算法实现新闻网站点击数据频繁项集挖掘 8.4 关联规则评估方法 8.4.1 关联规则兴趣度评估 8.4.2 关联规则相关度评估 8.4.3 其他评估度量方法 8.5 多维关联规则挖掘 8.6 多层关联规则挖掘 8.7 Python关联规则案例分析 8.7.1 基于Apriori算法实现电影观看规则挖掘 8.7.2 基于FP-Growth算法实现 |