![]()
内容推荐 本书由斯坦福大学“Web挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。书中包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等主要内容。第3版新增了决策树、神经网络和深度学习等内容。几乎每节都有对应的习题,以此来巩固所讲解的内容。读者还可以从网上获取相关拓展资料。 本书适合作为本科生、研究生数据挖掘课程的教材,也适合对数据挖掘感兴趣的技术人员阅读。 作者简介 尤雷·莱斯科夫(Jure Leskovec),Pinterest公司首席科学家,斯坦福大学计算机科学系副教授,研究方向为大型社交和信息网络的数据挖掘。他的研究成果获得了很多奖项,如Microsoft Research Faculty Fellowship、Alfred P.Sloan Fellowship和Okawa Foundation Fellowship,还获得了很多最佳论文奖,同时也被《纽约时报》《华尔街日报》《华盛顿邮报》《连线》及NBC、CBC等流行的社会媒体刊载。他还创建了斯坦福网络分析平台(SNAP)。 目录 第1章 数据挖掘基本概念 1.1 数据挖掘的定义 1.1.1 建模 1.1.2 统计建模 1.1.3 机器学习 1.1.4 建模的计算方法 1.1.5 数据概括 1.1.6 特征抽取 1.2 数据挖掘的统计限制 1.2.1 整体情报预警 1.2.2 邦弗朗尼原理 1.2.3 邦弗朗尼原理的一个例子 1.2.4 习题 1.3 相关知识 1.3.1 词语在文档中的重要性 1.3.2 哈希函数 1.3.3 索引 1.3.4 二级存储器 1.3.5 自然对数的底e 1.3.6 幂定律 1.3.7 习题 1.4 本书概要 1.5 小结 1.6 参考文献 第2章 MapReduce和新软件栈 2.1 分布式文件系统 2.1.1 计算节点的物理结构 2.1.2 大规模文件系统的结构 2.2 MapReduce 2.2.1 Map任务 2.2.2 按键分组 2.2.3 Reduce任务 2.2.4 组合器 2.2.5 MapReduce的执行细节 2.2.6 节点故障的处理 2.2.7 习题 2.3 使用MapReduce的算法 2.3.1 基于MapReduce的矩阵-向量乘法实现 2.3.2 向量v无法放入内存时的处理 2.3.3 关系代数运算 2.3.4 基于MapReduce的选择运算 2.3.5 基于MapReduce的投影运算 2.3.6 基于MapReduce的并、交和差运算 2.3.7 基于MapReduce的自然连接运算 2.3.8 基于MapReduce的分组和聚合运算 2.3.9 矩阵乘法 2.3.10 基于单步MapReduce的矩阵乘法 2.3.11 习题 2.4 MapReduce的扩展 2.4.1 工作流系统 2.4.2 Spark 2.4.3 Spark实现 2.4.4 TensorFlow 2.4.5 MapReduce的递归扩展版本 2.4.6 整体同步系统 2.4.7 习题 …… 第3章 相似项发现 第4章 数据流挖掘 第5章 链接分析 第6章 频繁项集 第7章 聚类 第8章 Web广告 第9章 推荐系统 第10章 社会网络图挖掘 第11章 降维处理 第12章 大规模机器学习 第13章 神经网络与深度学习 |