/ 云监控服务 ces/ / / 快速构建主机监控能力
更新时间:2025-02-21 gmt 08:00

快速构建主机监控能力-九游平台

应用场景

主机资源作为最重要的云上资源,如何做好对它的监控、告警,在实际的运维过程中尤为重要。可以借助云监控快速构建主机监控能力,通过在华为云公共镜像主机(ecs实例)中安装agent插件,在主机监控以可视化的方式查看其监控数据,以及对重点业务指标进行配置监控告警,及时准确掌握主机资源的云上运行状态。本文以监控弹性云服务器,并为cpu使用率设置告警规则为例,为您介绍主机监控的具体操作流程。

操作流程

操作步骤

说明

准备工作

已购买了ecs弹性云服务器资源,同时在ces主机监控列表能看到资源信息。

步骤一:为主机配置安装agent插件

在主机操作系统安装ces agent插件上报的监控指标。

步骤二:查看主机监控指标

查看主机关键指标的监控数据

步骤三:为主机监控创建告警规则

为特定的监控指标设置自定义告警规则。

步骤四:查看主机告警记录

当监控指标触发用户设置的告警条件时,云监控服务使用消息通知服务向用户通知告警信息,也可以在告警记录中查看告警信息。

后续操作:屏蔽告警规则

当不需要接收告警触发后的通知消息,可以根据屏蔽规则进行屏蔽。

准备工作

账号下已购买了ecs弹性云服务器资源,同时在ces主机监控列表能看到资源信息。

步骤一:为主机配置安装agent插件

ecs会上报基础监控指标和操作系统监控指标,其中基础监控指标是ecs云服务本身上报的指标,但是这类指标的采集周期大部分是5分钟周期,另一种则是操作系统安装了ces agent插件上报的监控指标,即操作系统监控指标,这类指标由ces上报,在采集精度上更精准,粒度也更精细,为1分钟采集周期,监控场景的覆盖也更全面,因此一般建议用户购买ecs资源后安装agent插件。

如何安装agent插件?

首先需要从操作系统上区分一下,目前有windows和linux两种操作系统,安装agent的方式有所区别:

windows类型机器只能使用手动安装方式,目前在ces的主机监控列表页面有用户安装指南,可进行参考:

  1. 直接单击单台资源“未安装”即可弹出操作指导,根据操作指南登录机器后使用安装命令进行插件安装即可。
    图1 安装插件指引
  2. 九游平台官网文档也可参考安装agent(windows)

linux类型的机器目前安装agent支持单台安装和批量安装。目前部分机器支持在ces页面直接一键安装,或者在购买ecs的页面直接支持开启监控安装agent。

  1. 支持一键安装的机器可直接在页面单击安装按钮进行安装。
    图2 一键安装
  2. ces还支持批量在界面实现对已支持一键安装的机器进行批量安装,无需登录机器或者单台安装,更高效、便携,推荐用户使用该种方式进行安装。
    图3 安装&升级插件
  3. 部分机器还可支持在购买时直接开启监控,默认安装agent。详细操作步骤请参考。
    图4 开启详细监控
  4. linux不支持一键安装的机器,可以进行手动安装,手动安装包括单台安装和批量安装两种方式。单台安装直接单击安装图标后可弹出安装指引。
    图5 安装插件指引
  5. 除了单台安装,linux机器还支持批量安装agent插件,具体请参考批量安装agent

安装完成agent,可以在主机监控列表页进行查看,“插件状态”列显示“运行中”状态的即为插件安装成功。

图6 插件状态

步骤二:查看主机监控指标

  1. 登录管理控制台
  2. 在管理控制台左上角选择区域和项目。
  3. 单击“服务列表 > 云监控服务”。
  4. 单击页面左侧的“主机监控 > 弹性云服务器”,进入主机监控页面。
  5. 单击ecs实例所在行的名称或“操作”列的“查看监控指标”,可以查看操作系统监控指标、基础监控和进程监控。
    图7 查看监控指标
    图8 操作系统监控

进入指标详情页展示操作系统监控和基础监控,操作系统监控下展示的指标就是安装了agent之后会展示出来的指标,如果操作系统监控为空,可以安装agent成功之后再进行查看。

步骤三:为主机监控创建告警规则

当用户购买了主机资源后,对于资源的运行状态需要进行必要的监控,以及对重点业务指标进行配置监控告警,能及时准确掌握主机资源的云上运行状态。

云监控服务平台提供了为ecs或bms的监控指标创建告警规则的快捷入口。本步骤仅针对本示例进行参数设置及介绍,更多创建主机监控告警规则请参见“创建主机监控的告警通知

  1. 在主机监控页面的“操作”列,单击“创建告警规则”直接对单台资源配置告警规则。
    图9 创建告警规则
  2. 根据界面提示配置参数,其中,告警类型、云产品、资源层级、监控范围、监控对象默认预填写。
    图10 配置告警规则
    表1 主机监控告警内容配置说明

    参数

    示例

    说明

    告警类型

    指标

    告警规则适用的告警类型。不支持修改。

    云产品

    弹性云服务器 - 云服务器

    配置告警规则监控的服务名称。不支持修改

    资源层级

    云产品

    不支持修改。

    监控范围

    指定资源

    告警规则适用的资源范围

    触发规则

    自定义创建

    选择触发规则方式

    指标名称

    在下拉框中选择“云服务器-进程-进程id >(agent)指定进程cpu使用率”

    选择触发告警的指标

    告警策略

    原始值连续3次大于等于80%,每1天告警一次。

    触发告警规则的告警策略。
    说明:

    每1天告警一次是指告警发生后如果状态未恢复正常,每间隔一天重复发送一次告警通知。

    告警级别

    重要

    根据告警的严重程度不同等级

  3. 根据界面提示,配置告警通知参数。更多告警通知参数请参考创建告警规则和通知
    表2 主机监控告警通知配置说明

    参数

    示例

    说明

    发送通知

    开启

    当触发设置的告警条件时,是否发送告警通知。

    通知方式

    主题订阅

    选择告警通知方式

    通知对象

    云账号联系人

    • 当通知方式选择主题订阅时,需要选择发送告警通知的对象。
    • 当通知对象选择云账号联系人时,会发送告警通知到注册时的手机和邮箱。

    生效时间

    00:00-23:59

    • 当通知方式选择主题订阅时,需要设置生效时间。
    • 系统仅在生效时间内发送告警通知消息。

    触发条件

    依次勾选出现告警、恢复正常

    当通知方式选择主题订阅时,可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。

  4. 配置完成后可以在告警规则列表进行查看。

步骤四:查看主机告警记录

当接收到告警通知后,可在告警记录界面对主机资源触发的告警进行搜索查看,可通过资源id进行搜索,找到资源对应的告警信息。

图11 查看告警记录

后续操作:屏蔽告警规则

当不需要接收告警触发后的通知消息,可以根据屏蔽规则进行屏蔽,屏蔽生效后仅产生告警记录将不会接收到告警通知。

  1. 登录管理控制台。
  2. 单击“服务列表 > 云监控服务”。
  3. 选择“告警 > 告警规则”。
  4. 在“告警规则”界面,单击告警规则所在行“操作”列的“更多”,选择“屏蔽告警”,在弹出的“屏蔽告警”界面,选择“屏蔽时间”后,单击“确定”即可完成对告警规则的屏蔽。
    图12 屏蔽告警规则

相关信息

关于创建告警规则的更多参数信息,请参见“创建告警规则和通知

用户还可以屏蔽某个资源或某个资源下的告警策略。请参见“”。

云监控服务还提供了一键告警功能一键开启关键监控项告警的服务。具体操作请参考“”

相关文档

网站地图