![]()
内容推荐 徐琴、刘智珺主编的《数据处理与知识发现》系统地介绍了数据预处理、数据仓库和数据挖掘的原理、方法及应用技术,以及采用Mahout对相应的挖掘算法进行实际练习。本书共有11章,分为两大部分。第1~7章为理论部分。第1章为绪论,介绍了数据挖掘与知识发现领域中的一些基本理论、研究方法等,也简单介绍了Hadoop生态系统中的Mahout;第2~7章按知识发现的过程,介绍数据预处理的方法和技术、数据仓库的构建与OLAP技术、数据挖掘原理及算法(包括关联规则挖掘、聚类分析方法、分类规则挖掘)、常见的数据挖掘工具与产品。第8~11章为实验部分,采用Mahout对数据挖掘各类算法进行实际练习。 本书应用性较强,与实践相结合,以小数据集为例详细介绍各种挖掘算法,使读者更易掌握挖掘算法的基本原理及过程;使用广泛的大数据平台———Hadoop生态系统中的Mahout对各种挖掘算法进行实际练习,实战性强,也符合目前数据处理与挖掘的发展趋势。 本书既便于教师课堂讲授,又便于自学者阅读,可作为高等院校高年级学生“数据挖掘技术”“数据仓库与数据挖掘”“数据处理与智能决策”等课程的教材。 目录 前言 上篇 理论部分 第1章 绪论 1.1 KDD与数据挖掘 1.1.1 KDD的定义 1.1.2 KDD过程与数据挖掘 1.2 数据挖掘的对象 1.3 数据挖掘的任务 1.4 Mahout简介 1.4.1 Mahout 1.4.2 Mahout算法库 1.4.3 Mahout应用 1.5 小结 1.6 习题 第2章 数据预处理 2.1 数据概述 2.1.1 属性与度量 2.1.2 数据集的类型 2.2 数据预处理 2.2.1 数据预处理概述 2.2.2 数据清理 2.2.3 数据集成 2.2.4 数据变换 2.2.5 数据归约 2.2.6 离散化与概念分层 2.3 小结 2.4 习题 第3章 数据仓库 3.1 数据仓库概述 3.1.1 从数据库到数据仓库 3.1.2 数据仓库 3.1.3 数据仓库系统结构 3.1.4 数据仓库中的名词 3.2 数据仓库的ETL 3.2.1 ETL的基本概念 3.2.2 ETL的工具 3.3 元数据与外部数据 3.3.1 元数据的定义 3.3.2 元数据的存储与管理 3.3.3 外部数据 3.4 数据仓库模型及数据仓库的建立 3.4.1 多维数据模型 3.4.2 多维数据模型的建立 3.5 联机分析处理OLAP技术 3.5.1 OLAP概述 3.5.2 OLAP与数据仓库 3.5.3 OLAP的模型 3.5.4 OLAP的基本操作 3.6 数据仓库实例 3.6.1 数据仓库的创建 3.6.2 数据的提取?转换和加载 3.7 小结 3.8 习题 第4章 关联规则挖掘 4.1 问题定义 4.1.1 购物篮分析 4.1.2 基本术语 4.2 频繁项集的产生 4.2.1 先验原理 4.2.2 Apriori算法的频繁项集产生 4.3 规则产生 4.3.1 基于置信度的剪枝 4.3.2 Apriori算法中规则的产生 4.4 FP-growth算法 4.5 多层关联规则和多维关联规则 4.5.1 多层关联规则 4.5.2 多维关联规则 4.6 非二元属性的关联规则 4.7 关联规则的评估 4.8 序列模式挖掘算法 4.8.1 序列模式的概念 4.8.2 Apriori类算法———AprioriAll算法 4.9 小结 4.10 习题 第5章 聚类分析方法 5.1 聚类分析概述 5.1.1 聚类的定义 5.1.2 聚类算法的要求 5.1.3 聚类算法的分类 5.1.4 相似性的测度 5.2 基于划分的聚类算法 5.2.1 基于质心的(Centroid-based)划分方法———基本K-means聚类算法 5.2.2 K-means聚类算法的拓展 5.2.3 基于中心的(Medoid-based)划分方法———PAM算法 5.3 层次聚类算法 5.3.1 AGNES算法 5.3.3 改进算法———BIRCH算法 5.3.4 改进算法———CURE算法 5.4 基于密度的聚类算法 5.5 聚类算法评价 5.6 离群点挖掘 5.6.1 相关问题概述 5.6.2 基于距离的方法 5.6.3 基于相对密度的方法 5.7 小结 5.8 习题 第6章 分类规则挖掘 6.1 分类问题概述 6.2 最近邻分类法 6.2.1 KNN算法原理 6.2.2 KNN算法的特点及改进 6.2.3 基于应用平台的KNN算法应用实例 6.3 决策树分类方法 6.3.1 决策树概述 6.3.2 信息论 6.3.3 ID3算法 6.3.4 算法改进:C4.5算法 6.4 贝叶斯分类方法 6.4.1 贝叶斯定理 6.4.2 朴素贝叶斯分类器 6.4.3 朴素贝叶斯分类方法的改进 6.5 神经网络算法 6.5.1 前馈神经网络概述 6.5.2 学习前馈神经网络 6.5.3 BP神经网络模型与学习算法 6.6 回归分析 6.7 小结 6.8 习题 第7章 数据挖掘工具与产品 7.1 评价数据挖掘产品的标准 7.2 数据挖掘工具简介 7.3 数据挖掘的可视化 7.3.1 数据挖掘可视化的过程与方法 7.3.2 数据挖掘可视化的分类 7.3.3 数据挖掘可视化的工具 7.4 Weka 7.4.1 Weka Explorer 7.4.2 Weka Experimenter 7.4.3 KnowledgeFlow 7.5 小结 7.6 习题 下篇 实验部分 第8章 Mahout入门 8.1 Mahout安装前的准备 8.1.1 安装JDK 8.1.2 安装Hadoop 8.2 Mahout的安装 8.3 测试安装 8.4 小结 第9 章 使用Mahout实践关联规则算法 9.1 FP树关联规则算法 9.1.1 Mahout 中Parallel Frequent Pattern Mining算法的实现原理 9.1.2 Mahout 的Parallel Frequent Pattern Mining算法实践 9.2 小结 第10 章 使用Mahout实践聚类算法 10.1 Canopy算法 10.1.1 Mahout中Canopy算法的实现原理 10.1.2 Mahout中Canopy算法实战
|