![]()
内容推荐 本教材面向数据科学与大数据技术(理学)、统计学等本科专业人才培养的需求,站在数据分析全流程的高度和大数据应用场景,从完善数据集结构和提升数据信息价值两个角度系统介绍了数据预处理的理论和实现方法,从而填补这一类型教材的空白。本书站在以数据分析全过程的视角介绍在数据预处理过程中最常见的工作内容和操作方法,全书共16章,第1章为大数据预处理的概述,介绍了大数据预处理的目的和主要内容,并介绍了本书使用到的案例数据集。第2至16章分为了两个部分:结构完善篇和价值提升篇。 目录 第1章大数据预处理概述 1.1大数据预处理的目的和主要内容 1.2本书主要使用的数据集 第2章缺失值插补 2.1简单统计量插补 2.2聚类插补 2.3模型插补 本章练习 第3章低频分类数据处理 3.1低频分类数据识别 3.2低频分类数据的处理 本章练习 第4章高偏度数据处理 4.1高偏度数据的识别 4.2高偏度数据的处理 本章练习 第5章异常值处理 5.1异常值的识别 5.2异常值的处理 本章练习 第6章数据配平 6.1欠采样 6.2过采样 6.3混合采样 6.4数据配平的效果和改进 本章练习 …… |