网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 数据挖掘算法与应用(Python实现)
分类
作者 孙家泽 王曙燕
出版社 清华大学出版社
下载
简介
内容推荐
本教材以数据挖掘的经典算法为主线,基础部分讲清楚数据挖掘的过程和经典算法:数据探索、数据预处理、分类与回归、聚类分析、关联规则挖掘、偏差检测等。同时增加实现应用部分,在应用实现部分,以Python作为描述语言,以解决某个应用的挖掘目标为前提,介绍案例背景,阐述分析方法与过程,完成模型构建,给出算法的具体实现,通过此项目的方法提升学生的算法理解和应用能力,适应当今大数据时代对于不错工程师的数据分析能力。
作者简介
孙家泽,男,博士,副教授,计算机软件方向硕士研究生导师。1980年7月出生,汉族。2006年至今,西安邮电大学计算机学院任教,2017-2018美国西密歇根大学访问学者,主讲数据挖掘,数据库技术,不错语言程序设计等课程,近5年先后主持多项软件工程和数据分析类的项目,获省市科技进步奖6次,授权国家发明2项,正在公开实审发明6项,软件著作权5项,学术专著2部,参编教材2部,发表论文30多篇,多篇被SCI/EI检索。主要从事数据挖掘、软件测试和群体智能算法等方面研究。
目录
章数据挖掘导论/1
1.1为什么进行数据挖掘2
1.1.1数据挖掘起源2
1.1.2数据挖掘是数据处理的不错阶段3
1.2什么是数据挖掘4
1.2.1广义技术角度的定义4
1.2.2狭义技术角度的定义5
1.2.3商业角度的定义6
1.2.4数据挖掘与机器学习6
1.3挖掘什么类型的数据7
1.3.1数据库数据7
1.3.2数据仓库数据8
1.3.3事务数据9
1.3.4其他类型的数据9
1.4能挖掘到什么知识10
1.4.1广义知识11
1.4.2关联知识12
1.4.3聚类知识13
1.4.4分类知识13
1.4.5预测型知识14
1.4.6偏差型知识14
1.4.7有价值的知识15
1.5数据挖掘方法15
1.5.1统计学16
1.5.2机器学习16
1.5.3数据库系统和数据仓库18
1.5.4智能优化19
1.6数据挖掘过程20
1.6.1Fayyad数据挖掘模型20
1.6.2CRISPDM模型211.6.3CRISPDM案例25
1.6.4数据挖掘过程的工作量26
1.6.5数据挖掘需要的人员26
1.7数据挖掘应用27
1.7.1数据挖掘在市场营销中的应用27
1.7.2数据挖掘在电信行业的应用28
1.7.3数据挖掘在银行业的应用29
1.7.4数据挖掘在社交网络分析中的应用29
1.7.5数据挖掘在软件工程中的应用30
1.8数据挖掘中的隐私权保护33
1.8.1侵犯隐私权的表现34
1.8.2保护隐私权的对策35
1.9数据挖掘课程学习方法和资源36
1.9.1数据挖掘课程学习方法36
1.9.2开源数据挖掘工具37
1.9.3经典测试数据集39
1.9.4著名国际会议和期刊40
1.10思考与练习41
数据挖掘算法与应用(Python实现)目录第2章数据探索与预处理/43
2.1数据属性类型44
2.2数据的统计描述45
2.2.1中心趋势度量: 均值、中位数和众数45
2.2.2度量数据散布47
2.3统计描述图形49
2.4数据相似性度量53
2.4.1数据矩阵与相异性矩阵53
2.4.2标称属性的相异性度量54
2.4.3二元属性的相异性度量54
2.4.4数值属性的相异性56
2.4.5序数属性的邻近性度量58
2.5数据清洗59
2.5.1缺失值处理59
2.5.2噪声数据处理62
2.5.3异常值处理67
2.6数据集成68
2.6.1实体识别问题68
2.6.2冗余和相关分析69
2.6.3数据值冲突的检测与处理71
2.7数据变换72
2.7.1数据变换策略概述72
2.7.2数据规范化72
2.7.3数据离散化和概念分层74
2.8数据归约78
2.8.1数值归约78
2.8.2属性归约81
2.9对数据预处理的点85
2.10思考与练习86
第3章关联规则挖掘/87
3.1基本概念87
3.2Apriori算法89
3.2.1Apriori算法详解90
3.2.2Apriori算法的例子95
3.2.3Apriori算法总结98
3.3FPGrowth算法98
3.3.1FPGrowth算法详解99
3.3.2FPGrowth算法的例子108
3.4关联规则评价109
3.5思考与练习112
第4章聚类分析/114
4.1聚类分析简介114
4.2基于划分的方法115
4.2.1kmeans算法115
4.2.2kmedoids算法118
4.3基于层次的方法120
4.3.1AGNES算法121
4.3.2DIANA算法122
4.3.3BIRCH算法124
4.4基于密度的方法129
4.5基于概率的聚类133
4.6聚类图数据138
4.6.1聚类图数据度量138
4.6.2复杂网络140
4.7聚类评估143
4.7.1估计聚类趋势144
4.7.2确定簇数145
4.7.3测定聚类质量145
4.8思考与练习152
第5章分类/154
5.1基本概念154
5.1.1什么是分类154
5.1.2分类的过程155
5.1.3分类器常见构造方法157
5.2KNN分类157
5.3贝叶斯分类160
5.3.1贝叶斯定理160
5.3.2朴素贝叶斯分类算法161
5.4决策树分类164
5.4.1相关定义165
5.4.2CART算法原理166
5.4.3CART算法实例167
5.4.4CART算法的优缺点169
5.4.5ID3算法原理169
5.4.6ID3算法实例170
5.4.7ID3算法的优缺点175
5.4.8C4.5算法原理176
5.4.9C4.5算法实例176
5.4.10C4.5算法的优缺点184
5.4.113种算法的比较185
5.5分类算法评价185
5.5.1常用术语185
5.5.2评价指标186
5.5.3分类器性能的表示189
5.5.4分类器性能的评估方法192
5.6思考与练习193
第6章不错分类算法/195
6.1组合分类算法195
6.1.1算法起源195
6.1.2AdaBoost算法基本原理196
6.1.3分类器创建197
6.1.4算法实例199
6.1.5AdaBoost算法的优缺点206
6.2粒子群分类算法206
6.2.1粒子群优化算法简介207
6.2.2基本粒子群优化算法207
6.2.3粒子群优化算法的特点209
6.2.4基于粒子群优化算法的分类器构造210
6.3支持向量机分类算法214
6.3.1支持向量机的基本概念214
6.3.2感知机模型215
6.3.3硬间隔支持向量机215
6.3.4软间隔支持向量机219
6.3.5非线性支持向量机221
6.3.6支持向量机算法实例222
6.3.7支持向量机算法的优缺点224
6.4BP神经网络分类算法224
6.4.1算法起源224
6.4.2BP神经网络的理论基础225
6.4.3BP神经网络基本原理229
6.4.4BP神经网络的学习机制230
6.4.5BP算法步骤233
6.4.6BP算法实例233
6.4.7BP算法的优缺点235
6.5思考与练习235
第7章Python数据分析/237
7.1搭建Python开发平台237
7.2Python数据分析库238
7.2.1NumPy238
7.2.2Pandas246
7.2.3SciPy251
7.2.4ScikitLearn252
7.3Python数据可视化254
7.3.1Matplotlib254
7.3.2Seaborn261
7.3.3Bokeh265
7.4思考与练习267
第8章Python数据挖掘/269
8.1数据探索269
8.2数据预处理270
8.2.1数据清洗271
8.2.2数据集成275
8.2.3数据归约277
8.2.4数据变换278
8.3聚类分析算法280
8.3.1kmeans算法280
8.3.2DBSCAN算法285
8.4关联规则算法288
8.4.1Apriori算法288
8.4.2FP树算法293
8.5分类算法298
8.5.1ID3算法299
8.5.2C4.5算法305
8.5.3KNN算法311
8.6思考与练习317
第9章泰坦尼克号乘客生存率预测/318
9.1背景与挖掘目标318
9.2算法介绍318
9.2.1线性回归算法318
9.2.2逻辑回归算法320
9.2.3随机森林算法322
9.3分析方法与过程326
9.3.1数据抽取326
9.3.2数据探索与分析327
9.3.3数据预处理330
9.3.4模型构建333
9.3.5模型检验335
9.4思考与练习336
0章基于关联规则的电影推荐/338
10.1选择数据源338
10.2数据探索340
10.2.1异常值分析340
10.2.2周期性分析341
10.2.3统计量分析342
10.3数据预处理344
10.3.1数据加载344
10.3.2缺失值处理344
10.3.3异常值处理345
10.4数据挖掘算法实现346
10.5算法评估346
10.6主要代码348
10.6.1频繁项集生成代码348
10.6.2关联规则生成代码350
10.6.3电影推荐代码351
10.7思考与练习351
1章航空公司客户价值分析/353
11.1背景与挖掘目标353
11.2分析方法与过程353
11.2.1数据抽取355
11.2.2数据探索356
11.2.3数据预处理357
11.2.4模型构建359
11.2.5模型检验360
11.3思考与练习361
2章基于协同过滤的音乐推荐/363
12.1推荐系统和协同过滤算法363
12.1.1推荐系统发展概况363
12.1.2基于用户的协同过滤算法365
12.1.3基于项目的协同过滤算法368
12.1.4两种算法的比较369
12.1.5协同过滤算法和基于内容的过滤算法比较370
12.1.6推荐系统的评价370
12.2音乐推荐371
12.2.1数据获取371
12.2.2数据预处理372
12.2.3数据分析及算法设计372
12.2.4结果输出和模型评价375
12.3思考与练习377
3章基于支持向量机的手写数字识别/378
13.1背景与支持向量机的概念378
13.1.1最优超平面378
13.1.2软间隔378
13.1.3线性不可分问题379
13.1.4支持向量机类型379
13.1.5支持向量机举例379
13.1.6支持向量机的应用381
13.2分析方法与过程382
13.2.1数据集介绍382
13.2.2数据集读取383
13.2.3数据集可视化383
13.3模型构建384
13.4模型检验386
13.5思考与练习387
4章基于神经网络的代码坏味检测/388
14.1神经网络388
14.2代码坏味检测389
14.2.1代码坏味简介389
14.2.2代码坏味研究现状391
14.2.3代码坏味公开数据集392
14.3基于神经网络算法的代码坏味检测392
14.3.1准备数据392
14.3.2构建神经网络393
14.3.3训练模型395
14.3.4生成预测结果398
14.4思考与练习399
参考文献/400
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/3/29 13:10:09