本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。
本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关专业课程的教材,也适合作为数据处理行业从业人员的参考用书。