网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 大话数据科学 |
分类 | 教育考试-考试-计算机类 |
作者 | 陈文贤编 |
出版社 | 清华大学出版社 |
下载 | ![]() |
简介 | 内容推荐 本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算)进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语言计算。本书适合各个专业领域(包含金融、电商、保险、互联网等行业)想掌握数据科学的读者,也可以作为高校、社会培训机构教材。由于内容比较多,教师可自行选择教学内容。 作者简介 " 本书以独特的方式讲解数据科学,不仅让读者可以轻松学习数据科学理论,又可以动手(手算和机算) 进行数据科学实战。本书特色:全彩印刷,图形、表格、思维导图丰富;避免深奥的数学证明,采用简单 的数学说明;用各种学习图将本书内容贯穿起来;实战计算,包含小型数据的演算和大型数据的实战程序。 本书共13章,内容涵盖丰富的数据科学模型,包含关联分析、聚类分析、贝叶斯分类、近邻法、决策树、 降维分析、回归模型等算法。利用小数据例题介绍计算步骤,同时用R语言验证计算结果。另外,也有大 数据的案例数据,例如:推荐系统、支持向量机、集成学习等。另外,本书只有大数据的案例数据用R语 言计算。 本书适合各个专业领域(包含金融、电商、保险、互联网等行业)想掌握数据科学的读者,也可以作 为高校、社会培训机构教材。由于内容比较多,教师可自行选择教学内容。 " 目录 篇基础篇 章大数据概述3 1.1大数据与相关学科的定义4 1.1.1大数据的定义4 1.1.2数据挖掘6 1.1.3数据挖掘标准过程7 1.1.4机器学习9 1.1.5知识管理12 1.1.6数据科学14 1.1.7商业智能15 1.1.8人工智能17 1.1.9统计学与大数据比较19 1.1.10数据名词的定义21 1.2系统与模型概念22 1.2.1系统定义与成分22 1.2.2输入,处理,输出与黑箱23 1.2.3环境24 1.2.4反馈25 1.2.5效率与效果25 1.2.6模型与建模26 1.2.7模型的假定与参数27 1.2.8敏感,稳健或鲁棒28 1.2.9模型的过拟合28 1.3大数据分析模型的分类30 1.3.1后设模型30 1.3.2关系与因果31 1.3.3基于因果关系的统计学分类32 1.3.4基于因果关系的大数据分类32 1.3.5基于数据类型的分类34 1.3.6基于测量的分类35 1.3.7数据科学模型的其他分类36 1.4大数据的江湖传奇36 1.5R语言“词云图”代码40 1.6本章思维导图42 第2章大数据与R语言43 2.1大数据进位44 2.2R语言介绍45 2.2.1安装R语言软件45 2.2.2下载R语言程序包45 2.3R数据对象的属性与结构46 2.3.1数值47 2.3.2整数47 2.3.3字符串47 2.3.4逻辑47 2.3.5向量48 2.3.6因子49 2.3.7矩阵50 2.3.8数据框52 2.3.9数组52 2.3.10列表53 2.3.11时间序列54 2.3.12访问数据类型和结构54 2.3.13遗失值55 2.3.14读入ExcelCSV数据55 2.3.15编辑数据55 2.3.16保存ExcelCSV数据55 2.3.17数据输入窗口56 2.3.18R的数据结构和函数表56 2.4R的函数包56 2.5R的数据绘图59 2.6本章思维导图64 第二篇非监督式学习 第3章关联分析67 3.1关联分析介绍68 3.1.1事务与项目的定义68 3.1.2项集的关联规则69 3.2关联规则数据格式71 3.3关联规则的算法72 3.3.1Apriori算法73 3.3.2关联规则其他测度值74 3.3.3负关联规则75 3.4关联规则的优点和缺点76 3.4.1Apriori算法的优点76 3.4.2Apriori算法的缺点76 3.4.3关联规则的评估76 3.5关联规则的实例计算77 3.5.1尿布与啤酒77 3.5.2豆浆、烧饼与饭团79 3.5.3评估与应用82 3.6R语言实战82 3.6.1泰坦尼克号82 3.6.2商店数据86 3.6.3食品杂货数据90 3.6.4人口收入数据92 3.6.5鸢尾花数据93 3.7本章思维导图96 第4章聚类分析97 4.1聚类分析介绍98 4.2距离与相似度衡量99 4.2.1数值数据距离99 4.2.2标准化与归一化100 4.2.30-1数据距离和相似度100 4.2.4混合数据的距离102 4.2.5顾客数据的距离102 4.2.6距离和相似度的转换104 4.2.7计算距离的R函数104 4.3层次聚类分析106 4.3.1两类连接106 4.3.2顾客数据的聚类107 4.3.3层次聚类的优点和缺点110 4.4非层次聚类分析110 4.4.1K-mean聚类110 4.4.2PAM聚类112 4.4.3K-mean聚类的优点和缺点113 4.5聚类分析的评价113 4.6R语言实战115 4.6.1欧洲语言的聚类115 4.6.2美国电力公司数据118 4.6.3欧州人蛋白质数据120 4.6.4红酒数据124 4.6.5汽车数据126 4.7本章思维导图128 第5章降维分析129 5.1降维分析介绍130 5.2主成分分析131 5.2.1主成分分析的计算理论132 5.2.2主成分分析的计算步骤134 5.2.3主成分分析的优点和缺点134 5.3R语言程序135 5.4R语言实战138 5.4.1鸢尾花数据138 5.4.2美国罪犯数据138 5.4.3美国法官数据145 5.4.4国家冰球联盟资料146 5.4.5美国职业棒球数据149 5.4.6早餐麦片数据151 5.4.7红酒数据151 5.4.8心理学数据152 5.5本章思维导图154 第三篇监督式学习 第6章模型选择与评价157 6.1模型选择与评价步骤158 6.2大数据的抽样方法159 6.2.1保留方法抽样160 6.2.2自助抽样法162 6.2.3632自助法163 6.2.4过采样164 6.3交叉验证165 6.3.1k-折交叉验证165 6.3.2留一交叉验证166 6.4模型选择167 6.4.1参数和非参数学习168 6.4.2偏差和方差169 6.4.3模型的复杂度170 6.4.4正则化171 6.4.5认真学习和懒惰学习171 6.5模型评价172 6.5.1二元0-1分类器的评价——混淆矩阵172 6.5.2混淆矩阵的举例说明174 6.5.3二元分类器的成本计算176 6.5.4二元分类器例题数据R语言176 6.5.5多标签分类器的评价179 6.5.6多标签分类器评价R语言181 6.5.7交叉验证分类的评价183 6.5.8分类学习的ROC曲线183 6.5.9连续型目标变量回归模型的评价187 6.6R语言实战189 6.6.1R语言自动调模与调参189 6.6.2汽车数据190 6.6.3乳腺癌诊断数据190 6.7本章思维导图192 第7章回归分析193 7.1多元线性回归194 7.1.1多元线性回归模型194 7.1.2参数估计195 7.1.3适合性检验196 7.1.4实例计算197 7.1.5R语言的实例计算199 7.2变量(特征)选择200 7.2.1偏相关系数200 7.2.2逐步回归203 7.2.3部分子集回归204 7.2.4压缩方法205 7.3Logistic逻辑回归207 7.4R语言实战209 7.4.1股票数据209 7.4.2乳腺癌病理数据210 7.4.3医疗保险数据213 7.4.4棒球数据215 7.4.5波士顿房价数据218 7.4.6皮玛数据221 7.5本章思维导图224 第8章近邻法225 8.1学习器226 8.1.1认真学习器和懒惰学习器226 8.1.2基于实例学习器227 8.1.3参数学习器和非参数学习器228 8.2近邻法介绍229 8.2.1k-近邻法算法步骤229 8.2.2k-近邻法分类器230 8.2.3k-近邻法回归231 8.2.4自变量是分类变量232 8.3近邻法的优点和缺点232 8.4R语言实战233 8.4.1食材数据233 8.4.2鸢尾花数据234 8.4.3乳癌检查数据236 8.4.4美国总统候选人数据238 8.4.5玻璃数据240 8.4.6波士顿房价数据241 8.4.7皮玛数据242 8.5本章思维导图244 第9章贝叶斯分类245 9.1贝叶斯公式246 9.2贝叶斯分类247 9.2.1朴素贝叶斯分类247 9.2.2特征值是连续变量248 9.2.3朴素贝叶斯分类的优点和缺点249 9.3贝叶斯分类的实例计算249 9.3.1天气和打网球249 9.3.2验前概率与似然概率251 9.3.3拉普拉斯校准251 9.3.4R语言实例计算252 9.4R语言实战255 9.4.1泰坦尼克号数据255 9.4.2鸢尾花数据256 9.4.3垃圾邮件数据258 9.4.4皮玛数据261 9.5本章思维导图262 0章决策树263 10.1决策树概述264 10.1.1图形表示264 10.1.2逻辑表示265 10.1.3规则表示265 10.1.4数学公式表示265 10.2决策树的信息计算266 10.2.1信息计算266 10.2.2熵与信息267 10.2.3信息增益267 10.2.4信息增益比268 10.2.5基尼系数与基尼增益268 10.2.6卡方统计量269 10.2.7分枝法则的选择269 10.2.8回归树269 10.3决策树的实例计算270 10.4决策树的剪枝277 10.4.1贪婪算法277 10.4.2决策树剪枝278 10.5决策树的优点和缺点279 10.6R语言实战280 10.6.1决策树R语言包280 10.6.2打网球数据280 10.6.3泰坦尼克号数据283 10.6.4鸢尾花数据284 10.6.5皮玛数据289 10.6.6汽车座椅销售数据292 10.6.7波士顿房价数据295 10.6.8猫数据297 10.6.9驼背数据300 10.6.10美国总统选举投票数据301 10.6.11员工离职数据302 10.7本章思维导图306 1章支持向量机307 11.1支持向量机概述308 11.2优选间隔分类(硬间隔)310 11.3支持向量分类(软间隔)311 11.4支持向量机(核函数)313 11.4.1支持向量机的核函数313 11.4.2多元分类支持向量机315 11.5支持向量机的优点和缺点315 11.6支持向量机R语言应用316 11.6.1随机正态分布数据线性核函数317 11.6.2随机正态分布数据径向基核函数318 11.6.3三分类数据径向基核函数321 11.7R语言实战322 11.7.1基因表达数据322 11.7.2鸢尾花数据322 11.7.3猫数据323 11.7.4皮玛数据325 11.7.5字符数据328 11.7.6玻璃数据329 11.8本章思维导图332 2章集成学习333 12.1集成学习介绍334 12.2个别分类方法评价335 12.3Bagging学习337 12.4随机森林338 12.4.1随机森林介绍338 12.4.2随机森林算法步骤339 12.4.3R语言339 12.4.4随机森林的优点和缺点340 12.4.5非监督式学习-鸢尾花数据340 12.4.6美国大学数据341 12.5Boosting学习342 12.6Stacking学习343 12.6.1皮玛数据343 12.6.2员工离职数据344 12.7R语言实战345 12.7.1红酒数据345 12.7.2信用数据347 12.7.3皮玛数据348 12.7.4波士顿房价数据349 12.7.5汽车座椅数据352 12.7.6顾客流失数据353 12.8本章思维导图356 3章推荐系统357 13.1推荐系统概述358 13.2过滤推荐359 13.2.1相似度360 13.2.2基于用户的协同过滤360 13.2.3基于项目的协同过滤361 13.2.4协同过滤的评价362 13.2.5协同过滤的优点和缺点363 13.2.6混合的推荐机制364 13.3R语言应用365 13.3.1推荐系统R语言包365 13.3.2recommenderlab函数程序366 13.3.3模拟数据367 13.4R语言实战369 13.4.1电影数据369 13.4.2笑话数据373 13.5本章思维导图378 结语379 参考文献381 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。