![]()
编辑推荐 随着大数据和人工智能技术的发展,各行各业积累的数据越来越丰富,如何从这些数据中挖掘出有价值的信息,助力科学、合理的决策变得日益重要。数据挖掘技术可以从大量异构、随机数据中提取有用的信息和知识,已经广泛应用于工作和生活的各个领域。本书基于作者长期从事数据挖掘科研、工程和教学工作的经验编写而成,通过案例牵引,帮助读者掌握常用的数据挖掘算法、模型和技术,并解决常见的数据挖掘实际问题。 本书特点: 以实践为目标,系统介绍数据挖掘的流程,并给出代码实现。内容涵盖数据清洗、数据转换、数据降维、回归分析、聚类、神经网络分类等常用的数据挖掘技术和方法,使读者能够利用Python编程来解决基本的数据挖掘问题。 本书提供了丰富的案例,规模由小到大,帮助读者循序渐进地掌握各类数据挖掘模型和算法。掌握这些案例后,读者可以举一反三,进一步解决更复杂、更大规模的问题。 作者在中国大学MOOC上开设了“数据挖掘”MOOC课程(https://www.icourse163.org/course/NUDT-1461782176),并在头歌平台上开设了“数据挖掘”实验课程(https://www.educoder.net/paths/4153),读者可通过在线视频课程的学习、作业训练与编程实践加深对数据挖掘知识点的理解,提高运用能力。 内容推荐 数据挖掘算法为大数据与人工智能的核心,掌握数据挖掘各算法的编程实现,有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现,同时,本书以多个经典的数据挖掘赛题为案例,详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现,有助于提升读者面对实际数据问题时灵活运用各类算法能力。 目录 目 录<br />前言<br />第1章 绪论 1<br />1.1 数据挖掘技术的由来 1<br />1.2 数据挖掘的分类 2<br />1.2.1 关联规则挖掘 2<br />1.2.2 监督式机器学习 3<br />1.2.3 非监督式机器学习 4<br />1.3 Python的安装步骤 5<br />1.3.1 Python环境的配置 5<br />1.3.2 PyCharm的安装 7<br />1.4 常见的数据集 10<br />1.4.1 鸢尾花数据集 10<br />1.4.2 员工离职预测数据集 11<br />1.4.3 泰坦尼克号灾难预测数据集 12<br />1.4.4 PM2.5空气质量预测数据集 13<br />1.5 本章小结 13<br />第2章 分类 14<br />2.1 分类的概念 14<br />2.2 分类中的训练集与测试集 14<br />2.3 分类的过程及验证方法 15<br />2.3.1 准确率 15<br />2.3.2 k折交叉验证 16<br />2.4 贝叶斯分类的编程实践 17<br />2.4.1 鸢尾花数据集的贝叶斯分类 17<br />2.4.2 基于贝叶斯分类的员工离职<br />预测 17<br />2.5 本章小结 19<br />第3章 数据的特征选择 20<br />3.1 直方图 20<br />3.1.1 直方图可视化 20<br />3.1.2 直方图特征选择 23<br />3.2 直方图与柱状图的差异 24<br />3.3 特征选择实践 26<br />3.4 本章小结 29<br />第4章 数据预处理之数据清洗 30<br />4.1 案例概述 30<br />4.2 缺失值处理 31<br />4.2.1 缺失值处理概述 31<br />4.2.2 缺失值处理实例 32<br />4.3 噪声数据处理 32<br />4.3.1 正态分布噪声数据检测 32<br />4.3.2 用箱线图检测噪声数据 34<br />4.4 数据预处理案例实践 35<br />4.4.1 问题 35<br />4.4.2 解决方法 35<br />4.4.3 实践结论 37<br />4.5 本章小结 38<br />第5章 数据预处理之转换 39<br />5.1 数据的数值化处理 39<br />5.1.1 顺序编码 39<br />5.1.2 二进制编码 40<br />5.2 数据规范化 42<br />5.2.1 最小–优选规范化 42<br />5.2.2 z分数规范化 43<br />5.2.3 小数定标规范化 43<br />5.3 本章小结 43<br />第6章 数据预处理之数据降维 44<br />6.1 散点图可视化分析 44<br />6.2 主成分分析 46<br />6.3 本章小结 49<br />第7章 不平衡数据分类 50<br />7.1 不平衡数据分类问题的特征 50<br />7.1.1 数据稀缺问题 50<br />7.1.2 噪声问题 51<br />7.1.3 决策面偏移问题 51<br />7.1.4 评价标准问题 51<br />7.2 重采样方法 51<br />7.2.1 上采样 52<br />7.2.2 对上采样方法的改进 53<br />7.2.3 下采样 58<br />7.2.4 对下采样方法的改进 60<br />7.2.5 不平衡问题的其他处理方式 65<br />7.3 不平衡数据分类实践 65<br />7.4 本章小结 66<br />第8章 回归分析 67<br />8.1 线性回归 67<br />8.1.1 一元线性回归 67<br />8.1.2 多元线性回归 69<br />8.2 回归分析检测 71<br />8.2.1 正态分布可能性检测 71<br />8.2.2 线性分布可能性检测 72<br />8.2.3 log转换后的分布 73<br />8.3 回归预测案例实践 74<br />8.3.1 案例背景 74<br />8.3.2 代码实现 74<br />8.4 本章小结 82<br />第9章 聚类分析 83<br />9.1 k均值聚类 83<br />9.1.1 算法的步骤 83<br />9.1.2 代码实现 83<br />9.2 层次聚类 84<br />9.2.1 算法的步骤 84<br />9.2.2 代码实现 85<br />9.3 密度聚类 85<br />9.3.1 算法的步骤 85<br />9.3.2 代码实现 86<br />9.4 本章小结 88<br />第10章 关联分析 90<br />10.1 Apriori算法 90<br />10.2 关联分析案例实践 92<br />10.2.1 案例背景 92<br />10.2.2 案例的数据集 93<br />10.2.3 代码实现 93<br />10.2.4 运行结果 93<br />10.3 提升Apriori算法性能的方法 95<br />10.4 本章小结 95<br />第11章 KNN分类 96<br />11.1 KNN算法的步骤 96<br />11.2 KNeighborsClassifier函数 97<br />11.3 KNN的代码实现 98<br />11.4 结果分析 98<br />11.5 KNN案例实践 99<br />11.5.1 案例分析 99<br />11.5.2 案例实现 100<br />11.5.3 运行结果 103<br />11.6 本章小结 104<br />第12章 支持向量机 105<br />12.1 支持向量机的可视化分析 105<br />12.2 SVM的代码实现 108<br />12.2.1 鸢尾花数据分类 108<br />12.2.2 新闻文本数据分类 110<br />12.3 本章小结 111<br />第13章 神经网络分类 112<br />13.1 多层人工神经网络 112<br />13.2 多层人工神经网络的代码实现 113<br />13.3 神经网络分类案例实践 114<br />13.3.1 案例背景 114<br />13.3.2 数据说明 114<br />13.3.3 代码实现 115<br />13.4 本章小结 120<br />第14章 集成学习 121<br />14.1 Bagging方法 121<br />14.2 随机森林 123<br />14.3 Adaboost 125<br />14.4 GBDT 127<br />14.4.1 GradientBoostingClassifier<br />函数 130<br />14.4.2 GradientBoostingRegressor<br />函数 130<br />14.5 XGBoost 131<br />14.5.1 XGBClassifier函数 131<br />14.5.2 XGBRegressor函数 131<br />14.6 房价预测案例实践 132<br />14.7 点击欺骗预测案例实践 136<br />14.7.1 案例背景 136<br />14.7.2 数据分析 136<br />14.7.3 模型优化 141<br />14.8 本章小结 142<br />第15章 综合案例实践 143<br />15.1 员工离职预测综合案例 143<br />15.1.1 数据总览 143<br />15.1.2 数据预处理 144<br />15.1.3 模型构建与比较 147<br />15.2 二手车交易价格预测综合<br />案例 148<br />15.2.1 数据集简介 148<br />15.2.2 数据总览 149<br />15.2.3 数据预处理 150<br />15.2.4 查看变量分布 151<br />15.2.5 查看变量间的关系 154<br />15.2.6 查看变量间的分布关系 157<br />15.2.7 分析汽车注册月份与价格的<br />关系 157<br />15.2.8 特征工程 158<br />15.2.9 模型构建与训练 160<br />15.3 信息抽取综合案例 161<br />15.3.1 案例背景 161<br />15.3.2 数据集简介 165<br />15.3.3 模型的构建与训练 165<br />15.3.4 模型评价 168<br />15.4 学术网络节点分类 169<br />15.4.1 数据集简介 169<br />15.4.2 数据总览 170<br />15.4.3 模型构建 171<br />15.4.4 配置参数 172<br />15.4.5 训练数据 173<br />15.4.6 模型评价 174 |