《Ganglia系统监控》由梅西著,Ganglia引起了计算机网络监控领域的一场大型革命,它独到的设计理念、强大的功能、丰富的插件,以及它与Nagios、sFlow等工具的有机结合,成为大型计算机网络监控领域当之无愧的王者。本书详细介绍了Ganglia的设计、功能和使用方法,并配有大量的实例解析,帮助你快速上手使用Ganglia,而当你开始使用Ganglia的时候,就会发现,以后再也离不开它了。
《Ganglia系统监控》由Ganglia的设计者和维护人员梅西亲自执笔,知识性和权威性毋庸置疑。本书不但展示了如何从任意规模的集群、网格或云基础架构中收集系统指标并使其可视化,而且为如何针对20000台主机每10秒跟踪一次CPU利用率等问题提供答案。一旦你知晓Ganglia的主要部件如何协同工作,就会明白Ganglia是解决上述问题的最佳选择。本书颇具实践性,可以帮助经验丰富的系统管理员更好地运用Ganglia 3.X。
《Ganglia系统监控》还可以帮助你了解如何扩展基本的指标库,取回当前指标数值,查看指标的汇聚视图,观察数据时序的趋势。你也可以通过一些实际Ganglia案例了解它是如何满足监控的一些需求的。
前言
第1章 初识Ganglia
规模的问题
主机即监控系统
基于冗余的结构
Ganglia是否适合你
gmond:字节大爆炸
gmetad:整合所有信息
gweb:下一代数据分析
稍等!这并不是所有
第2章 Ganglia的安装和配置
Ganglia的安装
Ganglia的配置
安装后的工作
第3章 可扩展性
谁会关注可扩展性
gmond和Ganglia集群的可扩展性
gmetad存储规划和可扩展性
第4章 Ganglia的Web界面
Ganglia的Web界面导航
gweb的Search选项卡
gweb的Views选项卡
gweb的AggregatedGraphs选项卡
gweb的CompareHosts选项卡
gweb的Events选项卡
gweb的AutomaticRotation选项卡
gweb的Mobile选项卡
自定义复合图表
其他特性
认证和授权
第5章 指标管理和扩展
gmond:指标收集代理
基本指标
扩展指标
利用模块扩展gmond
利用gmetric扩展gmond
如何在C/C++、Python和gmetric之间做出选择
XDR协议
Java和gmetric4j
真实世界:利用NVML模块进行GPU监控
第6章 Ganglia故障排查与处理
概述
有用的资源
对监控系统进行监控
常用故障排查机制及工具
在前台/调试模式下运行
常见的部署问题
典型问题及解决步骤
第7章 Ganglia与Nagios
发送Nagios数据到Ganglia
使用Nagios监控Ganglia指标
在NagiosUI中显示Ganglia数据
使用Nagios监控Ganglia
第8章 Ganglia与sFlow
架构
标准sFlow指标
Java虚拟机指标
配置gmond以接收sFlow
HostsFlow代理
故障解决
联合其他sFlow工具使用Ganglia
第9章 Ganglia案例分析
Tagged公司
SARA
路透社财务软件
Lumicall(Android上的移动VoIP)
稍等,多少指标?监控Quantcast
工具箱中的很多工具:监控Etsy
附录A 先进的指标配置与调试
附录B Ganglia和Hadoop/HBase