内容推荐 李涛著的《大数据时代的数据挖掘/学术中国大数据》以当前热点的数据挖掘应用贯穿全书,通过详解大数据挖掘技术在系统日志、工作票、可持续性研究、推荐系统、智能问答系统、社交媒体、生物信息学与健康医疗、隐私保护等方面的实际应用案例,阐述了如何更好地应用和学习数据挖掘技术。本书融入了数据挖掘前沿技术和典型应用,不仅适合热爱和关心数据挖掘技术的学术界和工业界人士阅读,还适合作为各大高校的数据挖掘和机器学习课堂的实践教材和参考书籍。本书有助于读者更好地理解数据挖掘技术背后的根源和本质。 作者简介 李涛(1975-2017),曾任南京邮电大学计算机学院、软件学院院长,南京邮电大学大数据研究院院长。2004年7月获美国罗彻斯特大学计算机科学博士学位,2004-2014年先后任美国佛罗里达国际大学计算机学院助理教授、副教授、正教授、研究生主管。2016年入选创新类国家“千人计划”特聘专家。研究兴趣主要包括数据挖掘、机器学习、信息检索及生物信息学等领域,在基于矩阵方法的数据挖掘和学习、音乐信息检索、系统日志数据挖掘、数据挖掘的各种应用等方面做出了有影响力的研究。曾获得2006年美国国家科学基金会颁发的杰出青年教授奖、2010年IBM大规模数据分析创新奖和佛罗里达国际大学最高学术研究奖。 目录 第1章 数据挖掘简介 1.1 大数据时代的数据挖掘 1.1.1 大数据的特点“4V+4V” 1.1.2 数据挖掘 1.1.3 从数据挖掘应用的角度看大数据 1.2 数据挖掘技术的发展历史 1.3 十大数据挖掘算法简介 1.4 数据挖掘平台:FIU-Miner 1.4.1 FIU-Miner平台简介 1.4.2 FIU-Miner系统架构 1.4.3 FIU-Miner应用实例 参考文献 第2章 系统日志和事件的挖掘 2.1 数据驱动的网络运维 2.1.1 网络运维1.0阶段:简单数据处理 2.1.2 网络运维2.0阶段:分布式大数据处理框架 2.1.3 网络运维3.0阶段:网络运维平台套件 2.1.4 网络运维4.0阶段:智能化网络运维 2.2 系统日志分析的目的 2.2.1 系统问题诊断 2.2.2 调试与优化 2.2.3 系统安全维护 2.3 日志数据分析管理系统的架构 2.3.1 日志数据的收集和预处理 2.3.2 历史日志数据存储 2.3.3 日志事件数据的分析以及对分析结果的展示和使用 2.4 系统日志的数据形式 2.4.1 无结构的日志数据 2.4.2 结构化与半结构化的日志数据 2.4.3 非结构化数据的转换 2.5 基于日志数据的异常检测 2.5.1 基于监督学习的异常检测 2.5.2 基于无监督学习的异常检测 2.6 系统故障根源跟踪 2.6.1 日志事件的依赖性挖掘 2.6.2 基于依赖关系的系统故障追踪 2.7 日志事件总结 2.7.1 事件总结算法基本要求及相关工作 2.7.2 基于事件发生频率变迁描述的事件总结 2.7.3 基于马尔可夫模型描述的事件总结 2.7.4 基于事件关系网络描述的事件总结 参考文献 第3章 工作票数据挖掘 3.1 工作票简介 3.2 工作票产生机制和亟待解决的问题 3.3 研究现状 3.3.1 工作票分类 3.3.2 工作票推荐 3.3.3 整体解决方案和工具 3.4 工作票漏报和误报检测 3.4.1 漏报和误报 3.4.2 基于规则的误报识别方法 3.4.3 半监督的工作票漏报发现方法 3.4.4 评价 3.5 层次多标签工作票分类 3.5.1 问题描述 3.5.2 层次损失函数和期望损失最小化 3.5.3 算法和解决方案 3.5.4 实验 3.6 工作票解决方案推荐 3.6.1 背景 3.6.2 基于KNN的推荐方法 3.6.3 划分方法 3.6.4 概率融合方法 3.6.5 度量学习方法 3.6.6 实验 参考文献 第4章 大数据与计算可持续性研究 第5章 推荐系统 第6章 智能问答系统 第7章 文本挖掘 第8章 多媒体数据挖掘 第9章 社交媒体挖掘 第10章 时空数据挖掘 第11章 生物信息学 第12章 隐私保护和数据挖掘 第13章 健康医疗大数据中的数据挖掘技术 |