译者序
第2版前言
第1版前言
第一部分 探索性数据分析综述
第1章 绪论
1.1 何为探索性数据分析
1.2 全文概述
1.3 关于符号表示法
1.4 本书使用的数据集
1.4.1 非结构化文本文档
1.4.2 基因表达数据
1.4.3 Oronsay数据集
1.4.4 软件检测
1.5 数据变换
1.5.1 幂变换
1.5.2 标准化
1.5.3 数据球面化
1.6 深入阅读
练习
第二部分 模式发现的EDA方法
第2章 降维——线性方法
2.1 简介
2.2 主成分分析——PCA
2.2.1 基于样本协方差矩阵的PCA
2.2.2 基于样本相关矩阵的PCA
2.2.3 应该保留多少个维度
2.3 奇异值分解——SVD
2.4 非负矩阵分解
2.5 因子分析
2.6 Fisher线性判别
2.7 本征维数
2.7.1 最近邻法
2.7.2 关联维数
2.7.3 最大似然法
2.7.4 包数估计
2.8 总结与深入阅读
练习
第3章 降维——非线性方法
3.1 多维尺度分析——MDS
3.1.1 度量MDS
3.1.2 非度量MDS
3.2 流形学习
3.2.1 局部线性嵌入
3.2.2 等距特征映射——ISOMAP
3.2.3 海赛特征映射
3.3 人工神经网络方法
3.3.1 自组织映射
3.3.2 生成式拓扑映射
3.3.3 曲元分析
3.4 总结与深入阅读
练习
第4章 数据巡查
4.1 总体巡查法
4.1.1 Torus Winding法
4.1.2 伪总体巡查法
4.2 插值巡查法
4.3 投影追踪法
4.4 投影追踪索引
4.4.1 Posse卡方索引
4.4.2 矩索引
4.5 独立成分分析
4.6 总结与深入阅读
练习
第5章 发现类
5.1 简介
5.2 层次聚类法
5.3 优化方法——k均值聚类
5.4 谱聚类
5.5 文本聚类
5.5.1 非负矩阵分解——回顾
5.5.2 概率潜在语义分析
5.6 聚类评估
5.6.1 Rand索引
5.6.2 同型相关
5.6.3 上尾法
5.6.4 轮廓图
5.6.5 间隙统计
5.7 总结与深入阅读
练习
第6章 基于模型的聚类
6.1 基于模型的聚类方法概述
6.2 有限混合模型
6.2.1 多元有限混合模型
6.2.2 分量模型——协方差矩阵约束
6.3 最大期望算法
6.4 基于模型的层次聚合聚类
6.5 基于模型的聚类
6.6 基于模型聚类的密度估计和判决分析
6.6.1 模式识别介绍
6.6.2 贝叶斯决策理论
6.6.3 基于模型聚类的概率密度估计
6.7 由混合模型生成随机数据
6.8 总结与深入阅读
练习
第7章 平滑散点图
7.1 简介
7.2 loess
7.3 鲁棒loess拟合
7.4 loess残差分析与诊断
7.4.1 残差图
7.4.2 散布平滑
7.4.3 loess包络——向上和向下平滑
7.5 平滑样条及应用
7.5.1 样条回归
7.5.2 平滑样条
7.5.3 均匀间隔数据的平滑样条
7.6 选择平滑参数
7.7 二元分布平滑
7.7.1 中间平滑对
7.7.2 极平滑
7.8 曲线拟合工具箱
7.9 总结与深入阅读
练习
第三部分 EDA的图形方法
第8章 聚类可视化
8.1 树状图
8.2 树图
8.3 矩形图
8.4 ReClus图
8.5 数据图像
8.6 总结与深入阅读
练习
第9章 分布图形
9.1 直方图
9.1.1 一元直方图
9.1.2 二元直方图
9.2 箱线图
9.2.1 基本箱线图
9.2.2 基本箱线图的变形
9.3 分位数图
9.3.1 概率图
9.3.2 q—q图
9.3.3 分位数图
9.4 袋状图
9.5 测距仪箱线图
9.6 总结与深入阅读
练习
第10章 多元可视化
10.1 象形图
10.2 散点图
10.2.12 D和3D散点图
10.2.2 散点图矩阵
10.2.3 六边形分组散点图
10.3 动态图
10.3.1 识别数据
10.3.2 关联
10.3.3 笔刷
10.4 协同图
10.5 点阵图
10.5.1 基本点阵图
10.5.2 多路点阵图
10.6 绘点为线
10.6.1 平行坐标图
10.6.2 安德鲁曲线
10.6.3 安德鲁图像
10.6.4 其他绘图矩阵
10.7 再看数据巡查
10.7.1 总体巡查
10.7.2 组合巡查
10.8 双标图
10.9 总结与深入阅读
练习
附录A 近似度量
A.1 定义
A.1.1 相异性
A.1.2 相似性度量
A.1.3 二值数据的相似性度量
A.1.4 概率密度函数的相异性
A.2 变换
A.3 进阶阅读
附录B EDA相关软件资源
B.1 MATLAB程序
B.2 其他EDA程序