网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 数据科学实战入门(使用Python和R)/大数据应用与技术丛书
分类
作者 (法)尚塔尔·D·拉罗斯//丹尼尔·T·拉罗斯
出版社 清华大学出版社
下载
简介
内容推荐
《数据科学实战入门:使用Python和R》一书将使你深入了解数据科学很流行的两大开源平台:Python和R。当前数据科学很好热门。Python和R是世界更流行的两个开源数据科学工具。在本书中,你将逐步学习如何使用更优选的技术,针对现实世界的业务问题提供切实可行的解决方案。本书为没有数据分析和编程经验的读者编写。章专门为初学者讲解Pyhton和R的基础知识。此后的每一章都提供了使用Python和R解决数据科学问题的分步说明和实践演练。对于那些有数据分析经验的读者而言,他们将一站式学习如何使用Python和R进行数据科学实践。本书的主题涵盖数据准备、探索性数据分析、准备建模数据、决策树、模型评估、错误分类代价、朴素贝叶斯分类、神经网络、聚类、回归建模、降维和关联规则挖掘。此外,本书还包含一些令人兴奋的新主题,如随机森林和广义线性模型。本书在每章的结尾提供了大量的练习,共有500多道习题。通过实践性的分析习题,读者将能轻松应对使用真实数据集解决有趣业务问题的挑战。
目录
章数据科学导引1
1.1为何学习数据科学1
1.2何为数据科学1
1.3数据科学方法论2
1.4数据科学任务5
1.4.1描述5
1.4.2估计6
1.4.3分类6
1.4.4聚类6
1.4.5预测6
1.4.6关联7
1.5习题7
第2章Python和R语言基础9
2.1下载Python9
2.2Python编程基础10
2.2.1在Python中使用注释10
2.2.2在Python中执行命令11
2.2.3在Python中导入软件包11
2.2.4将数据引入Python12
2.2.5在Python中保存输出13
2.2.6访问Python中的记录和变量14
2.2.7在Python中设置图形16
2.3下载R和RStudio18
2.4R语言编程基础19
2.4.1在R中使用注释20
2.4.2在R中执行命令20
2.4.3在R中导入软件包20
2.4.4将数据导入R21
2.4.5在R中保存输出23
2.4.6在R中访问记录和变量24
2.5习题26
第3章数据准备29
3.1银行营销数据集29
3.2问题理解阶段29
3.2.1明确阐明项目目标29
3.2.2将这些目标转化为数据科学问题30
3.3数据准备阶段30
3.4添加索引字段31
3.4.1如何使用Python添加索引字段31
3.4.2如何使用R添加索引字段32
3.5更改误导性字段值33
3.5.1如何使用Python更改误导性字段值33
3.5.2如何使用R更改误导性字段值35
3.6将分类数据重新表示为数字36
3.6.1如何使用Python重新表达分类字段值37
3.6.2如何使用R重新表达分类字段值38
3.7标准化数字字段39
3.7.1如何使用Python标准化数字字段40
3.7.2如何使用R标准化数字字段40
3.8识别异常值40
3.8.1如何使用Python识别异常值41
3.8.2如何使用R识别异常值42
3.9习题43
第4章探索性数据分析47
4.1EDA对比HT47
4.2叠加了response的条形图47
4.2.1如何使用Python构建叠加的条形图49
4.2.2如何使用R构建叠加的条形图50
4.3列联表51
4.3.1如何使用Python构建列联表52
4.3.2如何使用R构建列联表53
4.4叠加有响应的柱状图54
4.4.1如何使用Python构建叠加柱状图55
4.4.2如何使用R构建叠加柱状图58
4.5基于预测值的分箱59
4.5.1如何使用Python基于预测值执行分箱61
4.5.2如何使用R基于预测值执行分箱63
4.6习题64
第5章为建模数据做准备69
5.1迄今完成的任务69
5.2数据分区69
5.2.1如何使用Python对数据进行分区70
5.2.2如何使用R对数据进行分区71
5.3验证数据分区72
5.4平衡训练数据集73
5.4.1如何使用Python平衡训练数据集73
5.4.2如何使用R平衡训练数据集75
5.5建立模型性能基准76
5.6习题78
第6章决策树81
6.1决策树简介81
6.2分类与回归树83
6.2.1如何使用Python构建CART决策树83
6.2.2如何使用R构建CART决策树86
6.3用于构建决策树的C5.0算法88
6.3.1如何使用Python构建C5.0决策树89
6.3.2如何使用R构建C5.0决策树90
6.4随机森林91
6.4.1如何使用Python构建随机森林92
6.4.2如何使用R构建随机森林92
6.5习题93
第7章模型评估97
7.1模型评估简介97
7.2分类评价措施97
7.3灵敏度和特异度99
7.4精确度、召回率和Fβ分数99
7.5模型评估方法100
7.6模型评估的应用示例100
7.7说明不对称的错误成本104
7.8比较考虑和不考虑不相等错误成本的模型106
7.9数据驱动的错误成本107
7.10习题110
第8章朴素贝叶斯分类113
8.1朴素贝叶斯简介113
8.2贝叶斯定理113
8.3优选化后验假设114
8.4分类条件独立性114
8.5朴素贝叶斯分类的应用115
8.5.1Python中的朴素贝叶斯120
8.5.2R中的朴素贝叶斯123
8.6习题126
第9章神经网络129
9.1神经网络简介129
9.2神经网络结构129
9.3连接权重和组合函数131
9.4sigmoid激活函数133
9.5反向传播133
9.6神经网络模型的应用134
9.7解释神经网络模型中的权重136
9.8如何在R中使用神经网络137
9.9习题138
0章聚类141
10.1聚类的定义141
10.2k均值聚类算法简介142
10.3k均值聚类的应用143
10.4簇验证144
10.5如何使用Python执行k均值聚类145
10.6如何使用R执行k均值聚类147
10.7习题149
1章回归建模151
11.1估计任务151
11.2回归建模描述151
11.3多元回归建模的应用152
11.4如何使用Python执行多重回归建模154
11.5如何使用R执行多重回归建模156
11.6用于估计的模型评估158
11.6.1如何使用Python进行估计模型评估159
11.6.2如何使用R进行估计模型评估161
11.7逐步回归162
11.8回归的基准模型163
11.9习题164
2章降维169
12.1降维的必要性169
12.2多重共线性170
12.3使用方差膨胀因子识别多重共线性173
12.3.1如何使用Python识别多重共线性174
12.3.2如何使用R识别多重共线性175
12.4主成分分析177
12.5主成分分析的应用178
12.6我们应该提取多少分量179
12.6.1特征值准则179
12.6.2方差解释比例的准则180
12.7执行k=4的PCA180
12.8主成分分析的验证181
12.9如何使用Python进行主成分分析182
12.10如何使用R进行主成分分析184
12.11何时多重共线性不是问题187
12.12习题187
3章广义线性模型191
13.1广义线性模型概述191
13.2线性回归是一种广义线性模型192
13.3作为广义线性模型的逻辑回归192
13.4逻辑回归模型的应用193
13.4.1如何使用Python执行逻辑回归194
13.4.2如何使用R执行逻辑回归195
13.5泊松回归196
13.6泊松回归模型的应用197
13.6.1如何使用Python执行泊松回归197
13.6.2如何使用R执行泊松回归199
13.7习题199
4章关联规则203
14.1关联规则简介203
14.2关联规则挖掘的简单示例203
14.3支持度、信任度和提升度204
14.4挖掘关联规则206
14.5确认我们的指标211
14.6置信差准则212
14.7置信商准则213
14.8习题215
附录A数据汇总与可视化219
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/1/18 19:10:29