网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 小白学数据挖掘与机器学习(SPSS Modeler案例篇) |
分类 | |
作者 | 张浩彬 |
出版社 | 电子工业出版社 |
下载 | ![]() |
简介 | 内容推荐 本书用生活中常见的例子、有趣的插图和通俗的语言,把看上去晦涩难懂的数据挖掘与机器学习知识以通俗易懂的方式分享给读者,让读者从入门学习阶段就发现,原来数据挖掘与机器学习不但有用,还很有趣。本书以IBM SPSS Modeler作为案例实践工具,首先介绍了数据挖掘的基本概念及数据挖掘方法,然后介绍了IBM SPSS Modeler工具的基本使用、数据探索、统计检验、回归分析、分类算法、聚类算法、关联规则、神经网络以及集成学习。每一章都会以漫画形式介绍一些日常小例子并作为切入点,用通俗的语言介绍具体的算法理论,同时在每章很后都附上应用案例,让读者更轻松地阅读本书并掌握对应的算法和实践操作。全书内容循序渐进,完整覆盖了数据挖掘与机器学习的主要知识点,适合数据挖掘与机器学习入门读者阅读。 作者简介 张浩彬,人称浩彬老撕,曾任IBM大中华区商业智能事业部SPSS分析工程师,认知解决方案事业部数据分析专家;现任广东柯内特环境科技有限公司首席数据科学家。致力机器学习及SPSS技术分享,专注于人工智能技术与应用。 目录 第1章数据挖掘那些事儿1 1.1当我们在谈数据挖掘时,其实在讨论什么2 1.2从CRISP-DM开启数据挖掘实践7 第2章数据挖掘之利器:SPSSModeler17 2.1SPSSModeler简介18 2.2SPSSModeler的下载与安装21 2.3SPSSModeler的主界面及基本操作23 2.3.1SPSSModeler主界面介绍23 2.3.2鼠标基本操作31 2.4将SPSSModeler连接到服务器端31 第3章巧妇难为无米之炊:数据,数据!34 3.1数据的身份35 3.1.1变量的测量级别35 3.1.2变量的角色36 3.2数据的读取37 3.2.1读取Excel文件数据37 3.2.2读取变量文件数据38 3.2.3读取SPSSStatistics(.sav)文件数据40 3.2.4读取数据库数据42 3.3数据的基本设定45 3.3.1变量角色的设定45 3.3.2字段的筛选及命名46 3.4数据的集成47 3.4.1数据的变量集成:合并节点47 3.4.2数据的记录集成:追加节点50 第4章一点都不简单的描述性统计分析53 4.1分类变量的基本分析:“矩阵”节点54 4.2连续变量的基本分析:数据审核节点57 4.2.1连续变量基本分析指标介绍57 4.2.2“数据审核”节点63 第5章何为足够大的差异:常用的统计检验67 5.1假设检验68 5.1.1假设检验的基本原理68 5.1.2假设检验的一般步骤69 5.2连续变量与分类变量之间的关系:t检验70 5.2.1两组独立样本均值比较71 5.2.2两组配对样本均值比较72 5.2.3使用t检验的前提条件73 5.2.4案例:使用均值比较分析电信客户的流失情况73 5.3两个连续变量之间的关系:相关分析75 5.3.1相关分析理论76 5.3.2案例:使用相关分析研究居民消费水平与国内生产总值的相关关系77 5.4两个分类变量之间的关系:卡方检验80 5.4.1卡方检验的原理80 5.4.2卡方检验的前提条件82 5.4.3案例:使用卡方检验研究两个分类字段之间的关系82 第6章从身高和体重的关系谈起:回归分析84 6.1一元线性回归分析85 6.1.1分析因变量与自变量的关系,构建回归模型85 6.1.2估计模型系数,求解回归模型87 6.1.3对模型系数进行检验,确认模型有效性88 6.1.4拟合优度检验,判断模型解释能力89 6.1.5借助回归模型进行预测90 6.2多元线性回归分析90 6.2.1估计模型系数,求解回归模型91 6.2.2对模型参数进行检验,确认模型有效性92 6.2.3拟合优度检验,判断模型解释能力94 6.2.4模型的变量选择95 6.3使用线性回归分析的注意事项97 6.4案例:使用回归分析研究影响房屋价格的重要因素98 第7章回归岂止这么简单:回归模型的进一步扩展102 7.1曲线回归103 7.2Logistic回归110 7.2.1Logistic回归理论110 7.2.2案例:使用Logistic回归模型分析个人收入水平影响因素112 第8章模型评估那些事儿:过拟合与欠拟合117 8.1过拟合与欠拟合118 8.2留出法与交叉验证122 8.2.1留出法与分层抽样122 8.2.2交叉验证124 第9章从看电影的思考到决策树的生成126 9.1决策树概述127 9.2决策树生成129 9.2.1从ID3算法到C5.0算法131 9.2.2CART算法134 9.3决策树的剪枝136 9.3.1预剪枝策略137 9.3.2后剪枝策略137 9.3.3代价敏感学习138 9.4案例:用决策树分析客户违约情况140 9.5关于信息熵的扩展147 第10章人工神经网络:从人脑神经元开始151 10.1从人脑神经元到人工神经网络152 10.2感知机154 10.3人工神经网络159 10.3.1隐藏层的作用159 10.3.2人工神经网络算法160 10.4案例:利用人工神经网络分析某电信运营商的客户流失情况164 第11章物以类聚,人以群分:聚类分析172 11.1聚类思想的概述173 11.2聚类方法的关键:距离175 11.3K-Means算法176 11.3.1K-Means算法原理176 11.3.2轮廓系数(Silhouettecoefficient)177 11.4案例:利用K-Means算法对不同型号汽车的属性进行聚类分群研究179 第12章啤酒+尿布=关联分析?186 12.1一个关于关联分析的传说187 12.2关联分析的基本概念188 12.3关联规则的有效性指标190 12.4Apriori算法192 12.4.1生成频繁项集193 12.4.2生成关联规则195 12.5案例:利用Apriori算法对顾客的个人信息及购买记录进行关联分析195 第13章三个臭皮匠,赛过诸葛亮:集成学习算法199 13.1集成学习算法概述200 13.23种不同的集成学习算法201 13.2.1Bagging算法201 13.2.2Boosting算法203 13.2.3随机森林204 13.3集成学习算法实践205 13.3.1Bagging算法和Boosting算法205 13.3.2随机森林211 13.3.3集成学习算法结果比较214 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。