![]()
内容推荐 "大数据分析包括查询型分析、描述性分析、探索性分析、挖掘型分析等。本书介绍基于R语言的大数据分析解决方案。全书分3篇共18章。第1篇R语言,包括第1~10章,分别为R语言概览、表达式、字符串与正规表达式、函数、向量、矩阵、数据框、列表、面向对象程序设计、数据存储;第2篇可视化,包括第11、12章,分别为统计绘图、图形文法ggplot2;第3篇数据分析,包括第13~18章,分别为数据分析基础、查询型分析与数据表、描述性统计与探索性分析、挖掘型分析、离群点检测、文本挖掘。 本书力求通俗易懂、简单实用,示例丰富,可供大数据领域工程技术人员、计算机类专业高年级本科学生和硕士研究生使用。 " 目录 目录
第1篇R语言 第1章R语言概览/31.1下载和安装R4 1.2安装和加载R程序包6 1.3R的基本使用7 1.4工作文件夹与工作空间10 1.5数据集12 第2章表达式/18 2.1字面量18 2.2运算符和表达式20 2.3日期时间23 第3章字符串与正规表达式/27 3.1字符串处理27 3.1.1字符个数27 3.1.2子串28 3.1.3拆分29 3.1.4连接30 3.1.5查找31 3.1.6替换31 3.1.7大小写转换32 3.1.8格式化32 3.2正规表达式33 第4章函数/37 4.1函数声明和调用37 4.2环境40 4.2.1环境的嵌套40 4.2.2访问环境42〖1〗R语言大数据分析目录〖3〗〖3〗4.2.3与函数相关的环境44 4.3控制结构46 第5章向量/51 5.1创建向量51 5.1.1枚举法51 5.1.2描述法52 5.1.3数列法53 5.1.4向量元素的命名54 5.1.5类型判断与类型转换54 5.2访问向量55 5.3算术运算57 5.4逻辑运算和关系运算60 5.5查询62 5.5.1条件查询62 5.5.2聚合查询63 5.6面向集合的查询66 5.7面向向量的程序设计67 5.8因子69 第6章矩阵/72 6.1创建矩阵72 6.2访问矩阵75 6.3矩阵运算77 第7章数据框/81 7.1创建数据框81 7.2访问数据框82 7.3tibble对象87 第8章列表/90 8.1创建列表90 8.2访问列表91 8.3泛函数93 第9章面向对象程序设计/102 9.1类的定义102 9.2静态属性104 9.3面向对象的R脚本设计107 第10章数据存储/113 10.1导入导出113 10.1.1函数read.table和write.table113 10.1.2函数read.csv和write.csv114 10.1.3函数readLines和writeLines116 10.1.4读取Excel工作表116 10.1.5ODBC数据源117 10.2持久化R数据对象119 10.3格式化输出120 10.4虚拟内存121 10.5操作文件和文件夹125 第2篇可视化 第11章统计绘图/13111.1绘图设备131 11.2布局133 11.3绘图函数135 11.4常用绘图参数145 11.5散点图148 11.6核密度图150 11.7箱线图151 11.8柱形图152 11.9饼图155 11.10直方图156 11.11折线图157 第12章图形文法ggplot2/158 12.1ggplot2简介158 12.2散点图170 12.3直方图175 12.4箱线图180 12.5柱形图182 12.6折线图187 12.7标注192 12.8统计变换197 12.9位置调整200 12.10尺度变换202 12.11切面212 12.12主题216 12.13色彩与构成217 12.13.1颜色与颜色的属性217 12.13.2色彩搭配218 12.14调色板218 12.15案例研究221 第3篇数 据 分 析 第13章数据分析基础/22913.1数据质量的度量229 13.2数据清洗变换230 13.2.1缺失值230 13.2.2重复232 13.2.3有效性233 13.2.4统计量233 13.3可视化234 13.4查询型大数据分析241 13.5探索性大数据分析242 13.6挖掘型大数据分析245 第14章查询型分析与数据表/247 14.1数据表247 14.2创建和引用数据表248 14.2.1创建数据表248 14.2.2引用数据表250 14.3查询数据表250 14.3.1按行号查询250 14.3.2条件查询251 14.3.3查询结果的类型252 14.3.4分组汇总254 14.3.5键和索引256 14.3.6应用只读变量查询258 14.3.7其他260 14.4去重263 14.5上卷266 14.6连接268 14.7集合运算271 14.8更新272 14.9行列变换276 第15章描述性统计与探索性分析/278 15.1总体与样本278 15.2概率分布280 15.3联合分布281 15.4可视化分布283 15.5样本平均数的分布285 15.6描述性统计287 15.6.1集中趋势287 15.6.2变异性287 15.7探索性数据分析292 15.7.1皮尔逊相关292 15.7.2斯皮尔曼等级相关297 15.7.3肯德尔相关299 15.8z分数301 15.9假设检验302 15.10卡方检验306 15.11抽样309 第16章挖掘型分析/312 16.1数据挖掘任务312 16.2决策树分类314 16.3朴素贝叶斯分类318 16.4K最近邻分类321 16.5一元线性回归324 16.6Logistic回归329 16.7分类算法的性能评估333 16.7.1查准率和查全率333 16.7.2ROC曲线334 16.8K均值聚类338 16.9EM聚类345 16.10Apriori关联规则347 16.11序列模式挖掘350 第17章离群点检测/354 17.1基于统计的检测356 17.2基于最近邻的方法360 17.3基于划分的算法361 17.3.1隔离森林算法362 17.3.2扩展的隔离森林算法364 17.4基于聚类的方法367 17.5多变量离群点检测371 17.6单变量离群点检测374 17.7贡献分析377 第18章文本挖掘/381 18.1文本挖掘简介381 18.2语篇分析382 18.3词嵌入383 18.4影评分类案例385 18.4.1基于词汇表的向量化386 18.4.2修剪词汇388 18.4.3Ngrams389 18.4.4特征哈希390 18.4.5变换DTM391 参考文献/392 |