网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 数据挖掘算法与应用(Python实现) |
分类 | |
作者 | 孙家泽 王曙燕 |
出版社 | 清华大学出版社 |
下载 | ![]() |
简介 | 内容推荐 本教材以数据挖掘的经典算法为主线,基础部分讲清楚数据挖掘的过程和经典算法:数据探索、数据预处理、分类与回归、聚类分析、关联规则挖掘、偏差检测等。同时增加实现应用部分,在应用实现部分,以Python作为描述语言,以解决某个应用的挖掘目标为前提,介绍案例背景,阐述分析方法与过程,完成模型构建,给出算法的具体实现,通过此项目的方法提升学生的算法理解和应用能力,适应当今大数据时代对于不错工程师的数据分析能力。 作者简介 孙家泽,男,博士,副教授,计算机软件方向硕士研究生导师。1980年7月出生,汉族。2006年至今,西安邮电大学计算机学院任教,2017-2018美国西密歇根大学访问学者,主讲数据挖掘,数据库技术,不错语言程序设计等课程,近5年先后主持多项软件工程和数据分析类的项目,获省市科技进步奖6次,授权国家发明2项,正在公开实审发明6项,软件著作权5项,学术专著2部,参编教材2部,发表论文30多篇,多篇被SCI/EI检索。主要从事数据挖掘、软件测试和群体智能算法等方面研究。 目录 章数据挖掘导论/1 1.1为什么进行数据挖掘2 1.1.1数据挖掘起源2 1.1.2数据挖掘是数据处理的不错阶段3 1.2什么是数据挖掘4 1.2.1广义技术角度的定义4 1.2.2狭义技术角度的定义5 1.2.3商业角度的定义6 1.2.4数据挖掘与机器学习6 1.3挖掘什么类型的数据7 1.3.1数据库数据7 1.3.2数据仓库数据8 1.3.3事务数据9 1.3.4其他类型的数据9 1.4能挖掘到什么知识10 1.4.1广义知识11 1.4.2关联知识12 1.4.3聚类知识13 1.4.4分类知识13 1.4.5预测型知识14 1.4.6偏差型知识14 1.4.7有价值的知识15 1.5数据挖掘方法15 1.5.1统计学16 1.5.2机器学习16 1.5.3数据库系统和数据仓库18 1.5.4智能优化19 1.6数据挖掘过程20 1.6.1Fayyad数据挖掘模型20 1.6.2CRISPDM模型211.6.3CRISPDM案例25 1.6.4数据挖掘过程的工作量26 1.6.5数据挖掘需要的人员26 1.7数据挖掘应用27 1.7.1数据挖掘在市场营销中的应用27 1.7.2数据挖掘在电信行业的应用28 1.7.3数据挖掘在银行业的应用29 1.7.4数据挖掘在社交网络分析中的应用29 1.7.5数据挖掘在软件工程中的应用30 1.8数据挖掘中的隐私权保护33 1.8.1侵犯隐私权的表现34 1.8.2保护隐私权的对策35 1.9数据挖掘课程学习方法和资源36 1.9.1数据挖掘课程学习方法36 1.9.2开源数据挖掘工具37 1.9.3经典测试数据集39 1.9.4著名国际会议和期刊40 1.10思考与练习41 数据挖掘算法与应用(Python实现)目录第2章数据探索与预处理/43 2.1数据属性类型44 2.2数据的统计描述45 2.2.1中心趋势度量: 均值、中位数和众数45 2.2.2度量数据散布47 2.3统计描述图形49 2.4数据相似性度量53 2.4.1数据矩阵与相异性矩阵53 2.4.2标称属性的相异性度量54 2.4.3二元属性的相异性度量54 2.4.4数值属性的相异性56 2.4.5序数属性的邻近性度量58 2.5数据清洗59 2.5.1缺失值处理59 2.5.2噪声数据处理62 2.5.3异常值处理67 2.6数据集成68 2.6.1实体识别问题68 2.6.2冗余和相关分析69 2.6.3数据值冲突的检测与处理71 2.7数据变换72 2.7.1数据变换策略概述72 2.7.2数据规范化72 2.7.3数据离散化和概念分层74 2.8数据归约78 2.8.1数值归约78 2.8.2属性归约81 2.9对数据预处理的点85 2.10思考与练习86 第3章关联规则挖掘/87 3.1基本概念87 3.2Apriori算法89 3.2.1Apriori算法详解90 3.2.2Apriori算法的例子95 3.2.3Apriori算法总结98 3.3FPGrowth算法98 3.3.1FPGrowth算法详解99 3.3.2FPGrowth算法的例子108 3.4关联规则评价109 3.5思考与练习112 第4章聚类分析/114 4.1聚类分析简介114 4.2基于划分的方法115 4.2.1kmeans算法115 4.2.2kmedoids算法118 4.3基于层次的方法120 4.3.1AGNES算法121 4.3.2DIANA算法122 4.3.3BIRCH算法124 4.4基于密度的方法129 4.5基于概率的聚类133 4.6聚类图数据138 4.6.1聚类图数据度量138 4.6.2复杂网络140 4.7聚类评估143 4.7.1估计聚类趋势144 4.7.2确定簇数145 4.7.3测定聚类质量145 4.8思考与练习152 第5章分类/154 5.1基本概念154 5.1.1什么是分类154 5.1.2分类的过程155 5.1.3分类器常见构造方法157 5.2KNN分类157 5.3贝叶斯分类160 5.3.1贝叶斯定理160 5.3.2朴素贝叶斯分类算法161 5.4决策树分类164 5.4.1相关定义165 5.4.2CART算法原理166 5.4.3CART算法实例167 5.4.4CART算法的优缺点169 5.4.5ID3算法原理169 5.4.6ID3算法实例170 5.4.7ID3算法的优缺点175 5.4.8C4.5算法原理176 5.4.9C4.5算法实例176 5.4.10C4.5算法的优缺点184 5.4.113种算法的比较185 5.5分类算法评价185 5.5.1常用术语185 5.5.2评价指标186 5.5.3分类器性能的表示189 5.5.4分类器性能的评估方法192 5.6思考与练习193 第6章不错分类算法/195 6.1组合分类算法195 6.1.1算法起源195 6.1.2AdaBoost算法基本原理196 6.1.3分类器创建197 6.1.4算法实例199 6.1.5AdaBoost算法的优缺点206 6.2粒子群分类算法206 6.2.1粒子群优化算法简介207 6.2.2基本粒子群优化算法207 6.2.3粒子群优化算法的特点209 6.2.4基于粒子群优化算法的分类器构造210 6.3支持向量机分类算法214 6.3.1支持向量机的基本概念214 6.3.2感知机模型215 6.3.3硬间隔支持向量机215 6.3.4软间隔支持向量机219 6.3.5非线性支持向量机221 6.3.6支持向量机算法实例222 6.3.7支持向量机算法的优缺点224 6.4BP神经网络分类算法224 6.4.1算法起源224 6.4.2BP神经网络的理论基础225 6.4.3BP神经网络基本原理229 6.4.4BP神经网络的学习机制230 6.4.5BP算法步骤233 6.4.6BP算法实例233 6.4.7BP算法的优缺点235 6.5思考与练习235 第7章Python数据分析/237 7.1搭建Python开发平台237 7.2Python数据分析库238 7.2.1NumPy238 7.2.2Pandas246 7.2.3SciPy251 7.2.4ScikitLearn252 7.3Python数据可视化254 7.3.1Matplotlib254 7.3.2Seaborn261 7.3.3Bokeh265 7.4思考与练习267 第8章Python数据挖掘/269 8.1数据探索269 8.2数据预处理270 8.2.1数据清洗271 8.2.2数据集成275 8.2.3数据归约277 8.2.4数据变换278 8.3聚类分析算法280 8.3.1kmeans算法280 8.3.2DBSCAN算法285 8.4关联规则算法288 8.4.1Apriori算法288 8.4.2FP树算法293 8.5分类算法298 8.5.1ID3算法299 8.5.2C4.5算法305 8.5.3KNN算法311 8.6思考与练习317 第9章泰坦尼克号乘客生存率预测/318 9.1背景与挖掘目标318 9.2算法介绍318 9.2.1线性回归算法318 9.2.2逻辑回归算法320 9.2.3随机森林算法322 9.3分析方法与过程326 9.3.1数据抽取326 9.3.2数据探索与分析327 9.3.3数据预处理330 9.3.4模型构建333 9.3.5模型检验335 9.4思考与练习336 0章基于关联规则的电影推荐/338 10.1选择数据源338 10.2数据探索340 10.2.1异常值分析340 10.2.2周期性分析341 10.2.3统计量分析342 10.3数据预处理344 10.3.1数据加载344 10.3.2缺失值处理344 10.3.3异常值处理345 10.4数据挖掘算法实现346 10.5算法评估346 10.6主要代码348 10.6.1频繁项集生成代码348 10.6.2关联规则生成代码350 10.6.3电影推荐代码351 10.7思考与练习351 1章航空公司客户价值分析/353 11.1背景与挖掘目标353 11.2分析方法与过程353 11.2.1数据抽取355 11.2.2数据探索356 11.2.3数据预处理357 11.2.4模型构建359 11.2.5模型检验360 11.3思考与练习361 2章基于协同过滤的音乐推荐/363 12.1推荐系统和协同过滤算法363 12.1.1推荐系统发展概况363 12.1.2基于用户的协同过滤算法365 12.1.3基于项目的协同过滤算法368 12.1.4两种算法的比较369 12.1.5协同过滤算法和基于内容的过滤算法比较370 12.1.6推荐系统的评价370 12.2音乐推荐371 12.2.1数据获取371 12.2.2数据预处理372 12.2.3数据分析及算法设计372 12.2.4结果输出和模型评价375 12.3思考与练习377 3章基于支持向量机的手写数字识别/378 13.1背景与支持向量机的概念378 13.1.1最优超平面378 13.1.2软间隔378 13.1.3线性不可分问题379 13.1.4支持向量机类型379 13.1.5支持向量机举例379 13.1.6支持向量机的应用381 13.2分析方法与过程382 13.2.1数据集介绍382 13.2.2数据集读取383 13.2.3数据集可视化383 13.3模型构建384 13.4模型检验386 13.5思考与练习387 4章基于神经网络的代码坏味检测/388 14.1神经网络388 14.2代码坏味检测389 14.2.1代码坏味简介389 14.2.2代码坏味研究现状391 14.2.3代码坏味公开数据集392 14.3基于神经网络算法的代码坏味检测392 14.3.1准备数据392 14.3.2构建神经网络393 14.3.3训练模型395 14.3.4生成预测结果398 14.4思考与练习399 参考文献/400 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。