网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 数据科学实战入门(使用Python和R)/大数据应用与技术丛书 |
分类 | |
作者 | (法)尚塔尔·D·拉罗斯//丹尼尔·T·拉罗斯 |
出版社 | 清华大学出版社 |
下载 | |
简介 | 内容推荐 《数据科学实战入门:使用Python和R》一书将使你深入了解数据科学很流行的两大开源平台:Python和R。当前数据科学很好热门。Python和R是世界更流行的两个开源数据科学工具。在本书中,你将逐步学习如何使用更优选的技术,针对现实世界的业务问题提供切实可行的解决方案。本书为没有数据分析和编程经验的读者编写。章专门为初学者讲解Pyhton和R的基础知识。此后的每一章都提供了使用Python和R解决数据科学问题的分步说明和实践演练。对于那些有数据分析经验的读者而言,他们将一站式学习如何使用Python和R进行数据科学实践。本书的主题涵盖数据准备、探索性数据分析、准备建模数据、决策树、模型评估、错误分类代价、朴素贝叶斯分类、神经网络、聚类、回归建模、降维和关联规则挖掘。此外,本书还包含一些令人兴奋的新主题,如随机森林和广义线性模型。本书在每章的结尾提供了大量的练习,共有500多道习题。通过实践性的分析习题,读者将能轻松应对使用真实数据集解决有趣业务问题的挑战。 目录 章数据科学导引1 1.1为何学习数据科学1 1.2何为数据科学1 1.3数据科学方法论2 1.4数据科学任务5 1.4.1描述5 1.4.2估计6 1.4.3分类6 1.4.4聚类6 1.4.5预测6 1.4.6关联7 1.5习题7 第2章Python和R语言基础9 2.1下载Python9 2.2Python编程基础10 2.2.1在Python中使用注释10 2.2.2在Python中执行命令11 2.2.3在Python中导入软件包11 2.2.4将数据引入Python12 2.2.5在Python中保存输出13 2.2.6访问Python中的记录和变量14 2.2.7在Python中设置图形16 2.3下载R和RStudio18 2.4R语言编程基础19 2.4.1在R中使用注释20 2.4.2在R中执行命令20 2.4.3在R中导入软件包20 2.4.4将数据导入R21 2.4.5在R中保存输出23 2.4.6在R中访问记录和变量24 2.5习题26 第3章数据准备29 3.1银行营销数据集29 3.2问题理解阶段29 3.2.1明确阐明项目目标29 3.2.2将这些目标转化为数据科学问题30 3.3数据准备阶段30 3.4添加索引字段31 3.4.1如何使用Python添加索引字段31 3.4.2如何使用R添加索引字段32 3.5更改误导性字段值33 3.5.1如何使用Python更改误导性字段值33 3.5.2如何使用R更改误导性字段值35 3.6将分类数据重新表示为数字36 3.6.1如何使用Python重新表达分类字段值37 3.6.2如何使用R重新表达分类字段值38 3.7标准化数字字段39 3.7.1如何使用Python标准化数字字段40 3.7.2如何使用R标准化数字字段40 3.8识别异常值40 3.8.1如何使用Python识别异常值41 3.8.2如何使用R识别异常值42 3.9习题43 第4章探索性数据分析47 4.1EDA对比HT47 4.2叠加了response的条形图47 4.2.1如何使用Python构建叠加的条形图49 4.2.2如何使用R构建叠加的条形图50 4.3列联表51 4.3.1如何使用Python构建列联表52 4.3.2如何使用R构建列联表53 4.4叠加有响应的柱状图54 4.4.1如何使用Python构建叠加柱状图55 4.4.2如何使用R构建叠加柱状图58 4.5基于预测值的分箱59 4.5.1如何使用Python基于预测值执行分箱61 4.5.2如何使用R基于预测值执行分箱63 4.6习题64 第5章为建模数据做准备69 5.1迄今完成的任务69 5.2数据分区69 5.2.1如何使用Python对数据进行分区70 5.2.2如何使用R对数据进行分区71 5.3验证数据分区72 5.4平衡训练数据集73 5.4.1如何使用Python平衡训练数据集73 5.4.2如何使用R平衡训练数据集75 5.5建立模型性能基准76 5.6习题78 第6章决策树81 6.1决策树简介81 6.2分类与回归树83 6.2.1如何使用Python构建CART决策树83 6.2.2如何使用R构建CART决策树86 6.3用于构建决策树的C5.0算法88 6.3.1如何使用Python构建C5.0决策树89 6.3.2如何使用R构建C5.0决策树90 6.4随机森林91 6.4.1如何使用Python构建随机森林92 6.4.2如何使用R构建随机森林92 6.5习题93 第7章模型评估97 7.1模型评估简介97 7.2分类评价措施97 7.3灵敏度和特异度99 7.4精确度、召回率和Fβ分数99 7.5模型评估方法100 7.6模型评估的应用示例100 7.7说明不对称的错误成本104 7.8比较考虑和不考虑不相等错误成本的模型106 7.9数据驱动的错误成本107 7.10习题110 第8章朴素贝叶斯分类113 8.1朴素贝叶斯简介113 8.2贝叶斯定理113 8.3优选化后验假设114 8.4分类条件独立性114 8.5朴素贝叶斯分类的应用115 8.5.1Python中的朴素贝叶斯120 8.5.2R中的朴素贝叶斯123 8.6习题126 第9章神经网络129 9.1神经网络简介129 9.2神经网络结构129 9.3连接权重和组合函数131 9.4sigmoid激活函数133 9.5反向传播133 9.6神经网络模型的应用134 9.7解释神经网络模型中的权重136 9.8如何在R中使用神经网络137 9.9习题138 0章聚类141 10.1聚类的定义141 10.2k均值聚类算法简介142 10.3k均值聚类的应用143 10.4簇验证144 10.5如何使用Python执行k均值聚类145 10.6如何使用R执行k均值聚类147 10.7习题149 1章回归建模151 11.1估计任务151 11.2回归建模描述151 11.3多元回归建模的应用152 11.4如何使用Python执行多重回归建模154 11.5如何使用R执行多重回归建模156 11.6用于估计的模型评估158 11.6.1如何使用Python进行估计模型评估159 11.6.2如何使用R进行估计模型评估161 11.7逐步回归162 11.8回归的基准模型163 11.9习题164 2章降维169 12.1降维的必要性169 12.2多重共线性170 12.3使用方差膨胀因子识别多重共线性173 12.3.1如何使用Python识别多重共线性174 12.3.2如何使用R识别多重共线性175 12.4主成分分析177 12.5主成分分析的应用178 12.6我们应该提取多少分量179 12.6.1特征值准则179 12.6.2方差解释比例的准则180 12.7执行k=4的PCA180 12.8主成分分析的验证181 12.9如何使用Python进行主成分分析182 12.10如何使用R进行主成分分析184 12.11何时多重共线性不是问题187 12.12习题187 3章广义线性模型191 13.1广义线性模型概述191 13.2线性回归是一种广义线性模型192 13.3作为广义线性模型的逻辑回归192 13.4逻辑回归模型的应用193 13.4.1如何使用Python执行逻辑回归194 13.4.2如何使用R执行逻辑回归195 13.5泊松回归196 13.6泊松回归模型的应用197 13.6.1如何使用Python执行泊松回归197 13.6.2如何使用R执行泊松回归199 13.7习题199 4章关联规则203 14.1关联规则简介203 14.2关联规则挖掘的简单示例203 14.3支持度、信任度和提升度204 14.4挖掘关联规则206 14.5确认我们的指标211 14.6置信差准则212 14.7置信商准则213 14.8习题215 附录A数据汇总与可视化219 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。