Nagios监控Nutanix状态
终于买到了Nutanix,价格确实是不便宜,但是真的香,CPU型号是Intel Xeon Gold 5218,内存256G,磁盘2*Intel S4610 480G,6*4T HDD,总共5台服
终于买到了Nutanix,价格确实是不便宜,但是真的香,CPU型号是Intel Xeon Gold 5218,内存256G,磁盘2*Intel S4610 480G,6*4T HDD,总共5台服务器,提供50T磁盘空间。相较于原来的E5 2640v4和IBM Storwize v5030,跑数时间可以节约超过一半,从原来的3个小时,缩短到80分钟。我们甚至计划买一台i7主机,超频到5G,挂在Nutanix环境下,专门用来跑数。真的只能说香,非常香。
针对Nutanix环境的监控,其实要分成3个部分,首先是底层的硬件监控,主要监控硬件的失效,这个是通过之前写的文章,使用Lenovo服务器的IPMI接口来实现的。
狄星宇:Lenovo XCC 带外监控的实现其次是针对Nutanix环境的监控,希望看到的数据只要是磁盘IOPS和带宽,Hypervisors的CPU和内存利用率,以及CVM主机状态和磁盘在线状态。这也是这篇文章的内容。
最后就是针对Hypervisors的监控,以前我们会通过这个层面来监控主机硬件状态,CPU和内存利用率,但现在这部分已经交给之前两个层面来实现了,所以这个层次就只剩下网卡状态了。
回到Nutanix的监控上面,通过Nagios Exchange就可以找到现成的脚本,这也是买业内流行产品的好处,开源软件的资源很多,如果买了菊厂的,八成就要自己造轮子了。
先来看看脚本的Help信息。
可以看到用法很复杂,包括地址,认证协议,用户名,认证密码,加密协议和加密密码,这些都是SNMPv3要求的内容,Nutanix不像Lenovo XCC,可以偷懒不配置加密和认证,所以命令比较长,后面的两个参数“type”和“subtype”才是我们需要琢磨的。
其中“Type”包括Containers,VirtualMachines,Disks,Cluster,Controllers,HyperVisors和Pools,之后的subtype则依据Type的不同而有很多参数。先在shell里面执行一个命令试试看。
这里读取的是CPU利用率,后面括号内的数字未脚本自定义的告警值。
这里读取的是Containers的IOPS,并通过”-r“精确指定读取某个Container。
之后就可以在Centreon里面添加command了,我没有采用一条command里面多个”$arg“的方式,而是采用多个command的方式来实现,如下图所示。
这样就会有多个command,下图是我最终的command列表。一共有5个,包括container IOPS/bandwidth,CVM状态,Disk状态,hypervisors的CPU和内存利用率以及整个集群的磁盘利用率。
最终在Centreon里面呈现的结果如下,个人感觉还是很满意的。
上一篇:炒底luna