简介 |
![]()
内容推荐 内容简介 本书是Python数据分析与挖掘领域的公认的事实标准,第1版销售超过10万册,销售势头依然强劲,被国内100余所高等院校采用为教材,同时也被广大数据科学工作者奉为经典。 作者在大数据挖掘与分析等领域有10余年的工程实践、教学和创办企业的经验,不仅掌握行业的*新技术和实践方法,而且洞悉学生和老师的需求与痛点,这为本书的内容和形式提供了强有力的保障,这是本书第1版能大获成功的关键因素。 全书共13章,分为三个部分,从技术理论、工程实践和进阶提升三个维度对数据分析与挖掘进行了详细的讲解。 第壹部分 基础篇(第1~5章) 主要讲解了Python数据分析与挖掘的工具和技术理论,包括数据挖掘的基础知识、Python数据挖掘与建模工具、数据挖掘的建模过程,以及挖掘建模的常用算法和原理等内容。 第二部分 实战篇(第6~12章) 通过工程实践案例讲解了数据挖掘技术在金融、航空、零售、能源、制造、电商等行业的应用。在案例组织结构上,本书按照“介绍案例背景与挖掘目标→阐述分析方法与过程→完成模型构建”的顺序进行,在建模过程关键环节,穿插程序实现代码。*后,通过上机实践加深对案例应用中的数据挖掘技术的理解。 第三部分 提高篇(第13章) 重点讲解了基于Python引擎的开源数据挖掘建模平台(TipDM)的功能和使用方法,以航空公司客户价值分析为案例,介绍了如何使用该平台快速搭建数据分析与挖掘工程。 本书不仅提供TipDM这样的上机实践环境,而且还提供配套的案例建模数据、Python源代码、教 目录 大数据技术丛书 Python数据分析与挖掘实战 (第2版) 张良均 谭立云 刘名军 江建明 著 图书在版编目(CIP)数据 Python数据分析与挖掘实战/张良均等著. —2版. —北京:机械工业出版社,2019.11(2022.4重印) (大数据技术丛书) ISBN 978-7-111-64002-8 I. P… II.张… III. 软件工具-程序设计 IV. TP311.561 中国版本图书馆CIP数据核字(2019)第225954号 Python数据分析与挖掘实战(第2版) 出版发行:机械工业出版社(北京市西城区百万庄大街22号 邮政编码:100037) 责任编辑:李 艺责任校对:殷 虹 印 刷:三河市宏图印务有限公司版 次:2022年4月第2版第12次印刷 开 本:186mm×240mm 1/16印 张:22 书 号:ISBN 978-7-111-64002-8定 价:89.00元 客服电话:(010)88361066 88379833 68326294投稿热线:(010)88379604 华章网站:www.hzbook.com读者信箱:hzjsj@hzbook.com 版权所有·侵权必究 封底无防伪标均为盗版 Preface 前 言 为什么要写这本书 LinkedIn通过对全球超过3.3亿用户的工作经历和技能进行分析后得出,在目前炙手可热的25项技能中,数据挖掘人才需求排名第一。那么数据挖掘是什么呢? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此,数据挖掘已成为企业保持竞争力的必要方法。 与国外相比,我国信息化程度仍不算高,企业内部信息也不完整,零售、银行、保险、证券等行业对数据挖掘的应用还不太理想。但随着市场竞争的加剧,各行业对数据挖掘技术的需求越来越强烈,可以预计,未来几年各行业的数据分析应用一定会从传统的统计分析发展到大规模的数据挖掘应用。在大数据时代,数据过剩、人才短缺,数据挖掘专业人才的培养将离不开专业知识和职业经验积累。所以,本书注重数据挖掘理论与项目案例实践相结合,让读者获得真实的数据挖掘学习与实践环境,更快、更好地学习数据挖掘知识并积累职业经验。 总的来说,随着云时代的来临,大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素,人们对于海量数据的运用将预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理的时间内攫取、管理、处理、整理海量数据,为企业经营决策提供积极帮助。大数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业。虽然目前大数据在国内还处于初级阶段,但是其商业价值已经显现出来,特别是有实践经验的大数据分析人才更是各企业争夺的焦点。为了满足日益增长的大数据分析人才需求,很多高校开始尝试开设不同程度的大数据分析课程。“大数据分析”作为大数据时代的核心技术,必将成为高校数学与统计学专业的重要课程之一。 第2版与第1版的区别 本书在第1版的基础上进行了代码与内容的全方位升级。在代码方面,将整书代码由Python 2升级至Python 3.6。在内容方面,对基础篇和实战篇均做了升级。 基础篇具体升级内容如下。 第1章增加了章节的引言;修改了1.5节中对TipDM开源数据挖掘建模平台的介绍。 第2章修改了2.4节中对配套附件的说明。 第3章增加3.2节所有图形绘制的代码。 第4章修改了4.1.1节中对牛顿插值法原理的描述。 第5章修改了5.1.3节中对逻辑回归模型的评价和相关解释;5.2.4节中更新了图5-17。 实战篇具体升级内容如下。 第6章为原书第13章,新增了对Lasso回归方法、灰色预测算法、SVR算法原理的介绍;将原书的神经网络算法改为SVR算法;删除增值税预测模型、营业税预测模型、企业所得税预测模型、个人所得税预测模型和政府性基金收入预测模型的内容;修改了拓展思考。 第7章增加了章节的引言;7.2.2节增加了分布分析;7.2.3节增加了RFM模型的介绍;7.2.4节增加了客户分群雷达图的绘制代码。 新增“第8章商品零售购物篮分析”一章。 第9章增加了章节的引言;9.2.2节增加了数据预处理的Python实现代码;9.2.3节中将原书的支持向量机算法改为决策树算法。 第10章增加了章节的引言;原书的“10.2.1数据抽取”改为“10.2.1数据探索分析”,并增加了有无水流和水流量属性的探索分析;10.2.2节增加了属性构造的Python实现代码,原书数据清洗的内容移到属性构造中实现。 第11章为原书第12章,增加了章节的引言;11.2.3节删除了网页排名的内容;11.2.5节优化了基于协同过滤算法的Python实现代码,新增了模型评价的代码,并修改了模型评价的描述。 第12章为原书第15章,增加了章节的引言;删除原书“15.2.1评论数据采集”的内容;12.2.1节优化了预处理的方法,并增加了Python实现代码;12.2.2节优化了分词的方法,并增加了Python实现代码;“12.2.3构建模型”修改了情感倾向分析的 |