网站首页  软件下载  游戏下载  翻译软件  电子书下载  电影下载  电视剧下载  教程攻略

请输入您要查询的图书:

 

书名 分布式计算系统(数据科学与工程专业系列教材)
分类
作者
出版社 高等教育出版社
下载
简介
内容推荐
本书聚焦于Hadoop、Spark、Flink等面向数据密集型应用的分布式计算系统,将原理、架构、编程的知识进行有机结合,统一从设计思想、体系架构、工作原理、容错机制和编程示例5个维度进行剖析。本书注重通过横向比较阐释该类系统设计的共性原理,帮助读者形成完整、统一的知识体系。
本书概述了分布式计算系统(第1章),根据应用场景的差异将分布式计算系统划分为批处理系统(第3、4章)、流计算系统(第7、8章)、批流融合系统(第9、10章)、图处理系统(第11章),并选取了各个类别中的典型代表。由于这些分布式计算系统不可能孤立地存在,因此本书也介绍了面向文件存储(第2章)、资源管理(第5章)以及协调服务(第6章)的系统。
本书可作为高等院校数据科学与大数据技术专业高年级本科生的教学用书,以及计算机科学与技术、软件工程、数据科学与工程等专业研究生的教学用书,也可作为部分业界研发人员的参考用书。
作者简介
徐辰,华东师范大学数据科学与工程学院副教授。曾在柏林工业大学VolkerMarkl教授课题组担任高级研究助理,参与Apache Flink系统的研发。目前主要承担与分布式计算系统相关的本科生和研究生课程教学工作,从事分布式数据管理与智能计算系统的研究工作。相关研究成果发表在SIGMOD、VLDB、ICDE、TKDE等数据管理领域顶级国际会议和期刊,出版Springer学术专著1部。曾入选上海市青年科技英才扬帆计划,主持或参与多项国家重点研发计划、国家自然科学基金项目,以及与腾讯、阿里巴巴等企业的合作研发项目。
目录
第1章 绪论
1.1 分布式系统
1.1.1 分布式系统的概念
1.1.2 分布式系统的类型
1.2 从数据管理角度看分布式系统
1.2.1 数据管理系统的发展历程
1.2.2 大数据背景下数据管理面临的挑战
1.2.3 面向数据管理的分布式系统
1.3 分布式计算系统
1.3.1 分布式计算系统的概念
1.3.2 系统生态圈
1.4 本书组织结构
本章小结
习题
第2章 Hadoop文件系统
2.1 设计思想
2.2 体系架构
2.2.1 架构图
2.2.2 应用程序执行流程
2.3 工作原理
2.3.1 文件分块与备份
2.3.2 文件写入
2.3.3 文件读取
2.3.4 文件读写与一致性
2.4 容错机制
2.4.1 NameNode故障
2.4.2 DataNode故障
2.5 编程示例
2.5.1 写文件
2.5.2 读文件
本章小结
习题
第3章 批处理系统MapReduce
3.1 设计思想
3.1.1 MPI与MapReduce
3.1.2 数据模型
3.1.3 计算模型
3.2 体系架构
3.2.1 架构图
3.2.2 应用程序执行流程
3.3 工作原理
3.3.1 数据输入
3.3.2 Map阶段
3.3.3 Shuffle阶段
3.3.4 Reduce阶段
3.3.5 数据输出
3.4 容错机制
3.4.1 JobTracker故障
3.4.2 TaskTracker故障
3.4.3 Task故障
3.5 编程示例
3.5.1 词频统计
3.5.2 关系表自然连接及其优化
3.5.3 网页链接排名
3.5.4 K均值聚类
本章小结
习题3
第4章 批处理系统Spark
4.1 设计思想
4.1.1 MapReduce的局限性
4.1.2 数据模型
4.1.3 计算模型
4.2 体系架构
4.2.1 架构图
4.2.2 应用程序执行流程
……
第5章 资源管理系统Yarn
*第6章 协调服务系统Zookeeper
*第7章 流计算系统Storm
*第8章 流计算系统Spark Streaming
*第9章 批流融合基础
第10章 批流融合系统Flink
*第11章 图处理系统Giraph
参考文献
随便看

 

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 101bt.net All Rights Reserved
更新时间:2025/4/20 15:55:23