![]()
内容推荐 这是一部能指导零基础的读者快速掌握R语言并利用R语言进入数据科学领域的著作。 两位作者在R语言和数据科学领域有丰富的实践经验,首先是非常有针对性地讲解了利用R语言进行数据处理需要掌握和使用的6大类17种工具,然后是结合这些工具的使用给出了5个典型的综合性案例,帮助读者迅速将理论与实践融会贯通。 全书一共11章,逻辑上分为两大部分: 第一部分R语言工具箱(第1-6章) 首先从数据导入、数据清洗、数据计算、循环和迭代等几个方面详细讲解了R语言中相关的各种常用的工具,然后深入地讲解了R语言中的“超级瑞士军刀”data.table包。掌握这部分内容,能满足R语言数据处理中的基本需求。 第二部分数据科学实战案例(第7-11章) 第7章首先对数据科学从业者的现状和未来应该掌握的技术和工具进行了介绍; 第8-11章通过4个综合性的案例讲解了使用R语言进行数据处理和分析的一整套流程和方法,与第一部分的内容融会贯通。 目录 推荐语 前言 第一部分 工具包篇 第1章 数据导入工具 1.1 utils—数据读取基本功 1.1.1 read.csv/csv2—逗号分隔数据读取 1.1.2 read.delim/delim2—特定分隔符数据读取 1.1.3 read.table—任意分隔符数据读取 1.2 readr—进阶数据读取 1.3 utils vs readr—你喜欢哪个? 1.4 readxl—Excel文件读取 1.5 DBI—数据库数据查询、下载 1.6 pdftools—PDF文件 1.7 jsonlite—JSON文件 1.8 foreign package统计软件数据 1.9 本章小结 第2章 数据清理工具 2.1 基本概念 2.2 tibble包—数据集准备 2.2.1 为什么使用tibble 2.2.2 创建tbl格式 2.2.3 as_tibble—转换已有格式的数据集 2.2.4 add_row/column—实用小工具 2.3 tidyr—数据清道夫 2.3.1 为什么使用tidyr 2.3.2 gather/spread—“长”“宽”数据转换 2.3.3 separate/unite—拆分合并列 2.3.4 replace_na / drop_na/—默认值处理工具 2.3.5 fill/complete—填坑神器 2.3.6 separate_rows/nest/unest—行数据处理 2.4 lubridate日期时间处理 2.4.1 为什么使用lubridate 2.4.2 ymd/ymd_hms—年月日还是日月年? 2.4.3 year/month/week/day/hour/minute/second—时间单位提取 2.4.4 guess_formats/parse_date_time—时间日期格式分析 2.5 stringr字符处理工具 2.5.1 baseR vs stringr 2.5.2 正则表达式基础 2.5.3 简易正则表达式创建 2.5.4 文本挖掘浅析 第3章 数据计算工具 3.1 baseR计算工具概览 3.1.1 基本数学函数 3.1.2 基本运算符号 3.1.3 基本统计函数 3.2 dplyr包实战技巧 3.2.1 常见实用函数中英对照 3.2.2 dplyr—行(Row)数据处理 3.2.3 dplyr—列(Column)数据处理 3.3 文本挖掘实操 第4章 基本循环—loops和*apply 4.1 for循环 4.1.1 基本概念 4.1.2 基本构建过程 4.1.3 简单应用 4.2 while循环 4.2.1 基本概念 4.2.2 基本构建过程 4.2.3 简单应用 4.3 “*apply”函数家族 4.3.1 lapply—“线性”数据迭代 4.3.2 sapply—简约而不简单 4.3.3 apply—多维数据处理利器 4.3.4 vapply—迭代的安全模式 4.3.5 rapply—多层列表数据处理 4.3.6 mapply—对多个列表进行函数运算 第5章 优雅的循环—purrr包 5.1 map函数家族 5.1.1 map—对单一元素进行迭代运算 5.1.2 map2和pmap—对两个及以上元素进行迭代运算 5.1.3 imap—变量名称或位置迭代 5.1.4 lmap—对列表型数据中的列表元素进行迭代运算 5.1.5 invoke_map—对多个元素进行多个函数的迭代运算 5.2 探测函数群 5.2.1 detect/detect_index—寻找第一个匹配条件的值 5.2.2 every/some—列表中是否全部或部分元素满足条件? 5.2.3 has_element—向量中是否存在想要的元素? 5.2.4 head/tail_while—满足条件之前和之后的元素 5.2.5 keep/discard/com-pact—有条件筛选 5.2.6 prepend—随意插入数据 5.3 向量操纵工具箱 5.3.1 accumulate和reduce家族—元素累积运算 5.3.2 其他工具函数 5.4 其他实用函数 5.4.1 set_names—命名向量中的元素 5.4.2 vec_depth—嵌套列表型数据探测器 5.5 循环读取、清理和计算 第6章 data.table—超级“瑞士军刀” 6.1 data.table简介 6.2 基本函数 6.2.1 fread—速读 6.2.2 DT[i, j, by]—数据处理句式基本结构 6.2.3 “:=”—急速修改数值 6.2.4 fwrite—速写,数据输出 6.3 进阶应用 6.3.1 有条件的急速行筛选 6.3.2 列选择的多种可能 6.3.3 批量处理列及列的分裂与合并 6.3.4 合并数据集 6.3.5 “长宽”数据置换 6.3.6 计算分析 第二部分 案例篇 第7章 数据科学从业者调查分析 7.1 案例背景及变量介绍 7.2 简单数据清洗 7.3 数据科学从业者探索性数据分析 7.4 封装绘图函数 7.5 通过柱状图进行探索性分析数据 7.6 未来将会学习的机器学习工具 7.7 明年将学习的机器学习方法 第8章 共享单车租用频次分析 8.1 案例简介 8.2 数据准备及描述性统计分析 8.3 数据重塑 8.4 柱状图在数据分析中的简单应用 8.5 柱状和扇形图在数据分析中的运用 8.6 折线图在数据分析中的运用 8.7 相关系数图综合分析 |