快速构建主机监控能力-九游平台
应用场景
主机资源作为最重要的云上资源,如何做好对它的监控、告警,在实际的运维过程中尤为重要。可以借助云监控快速构建主机监控能力,通过在华为云公共镜像主机(ecs实例)中安装agent插件,在主机监控以可视化的方式查看其监控数据,以及对重点业务指标进行配置监控告警,及时准确掌握主机资源的云上运行状态。本文以监控弹性云服务器,并为cpu使用率设置告警规则为例,为您介绍主机监控的具体操作流程。
操作流程
操作步骤 |
说明 |
---|---|
已购买了ecs弹性云服务器资源,同时在ces主机监控列表能看到资源信息。 |
|
在主机操作系统安装ces agent插件上报的监控指标。 |
|
查看主机关键指标的监控数据 |
|
为特定的监控指标设置自定义告警规则。 |
|
当监控指标触发用户设置的告警条件时,云监控服务使用消息通知服务向用户通知告警信息,也可以在告警记录中查看告警信息。 |
|
当不需要接收告警触发后的通知消息,可以根据屏蔽规则进行屏蔽。 |
准备工作
账号下已购买了ecs弹性云服务器资源,同时在ces主机监控列表能看到资源信息。
步骤一:为主机配置安装agent插件
ecs会上报基础监控指标和操作系统监控指标,其中基础监控指标是ecs云服务本身上报的指标,但是这类指标的采集周期大部分是5分钟周期,另一种则是操作系统安装了ces agent插件上报的监控指标,即操作系统监控指标,这类指标由ces上报,在采集精度上更精准,粒度也更精细,为1分钟采集周期,监控场景的覆盖也更全面,因此一般建议用户购买ecs资源后安装agent插件。
如何安装agent插件?
首先需要从操作系统上区分一下,目前有windows和linux两种操作系统,安装agent的方式有所区别:
windows类型机器只能使用手动安装方式,目前在ces的主机监控列表页面有用户安装指南,可进行参考:
- 直接单击单台资源“未安装”即可弹出操作指导,根据操作指南登录机器后使用安装命令进行插件安装即可。
图1 安装插件指引
- 九游平台官网文档也可参考安装agent(windows)。
linux类型的机器目前安装agent支持单台安装和批量安装。目前部分机器支持在ces页面直接一键安装,或者在购买ecs的页面直接支持开启监控安装agent。
- 支持一键安装的机器可直接在页面单击安装按钮进行安装。
图2 一键安装
- ces还支持批量在界面实现对已支持一键安装的机器进行批量安装,无需登录机器或者单台安装,更高效、便携,推荐用户使用该种方式进行安装。
图3 安装&升级插件
- 部分机器还可支持在购买时直接开启监控,默认安装agent。详细操作步骤请参考。
图4 开启详细监控
- linux不支持一键安装的机器,可以进行手动安装,手动安装包括单台安装和批量安装两种方式。单台安装直接单击安装图标后可弹出安装指引。
图5 安装插件指引
- 除了单台安装,linux机器还支持批量安装agent插件,具体请参考批量安装agent。
安装完成agent,可以在主机监控列表页进行查看,“插件状态”列显示“运行中”状态的即为插件安装成功。

步骤二:查看主机监控指标
- 登录管理控制台
- 在管理控制台左上角选择区域和项目。
- 单击“服务列表 > 云监控服务”。
- 单击页面左侧的“主机监控 > 弹性云服务器”,进入主机监控页面。
- 单击ecs实例所在行的名称或“操作”列的“查看监控指标”,可以查看操作系统监控指标、基础监控和进程监控。
图7 查看监控指标
图8 操作系统监控
进入指标详情页展示操作系统监控和基础监控,操作系统监控下展示的指标就是安装了agent之后会展示出来的指标,如果操作系统监控为空,可以安装agent成功之后再进行查看。
步骤三:为主机监控创建告警规则
当用户购买了主机资源后,对于资源的运行状态需要进行必要的监控,以及对重点业务指标进行配置监控告警,能及时准确掌握主机资源的云上运行状态。
云监控服务平台提供了为ecs或bms的监控指标创建告警规则的快捷入口。本步骤仅针对本示例进行参数设置及介绍,更多创建主机监控告警规则请参见“创建主机监控的告警通知”
- 在主机监控页面的“操作”列,单击“创建告警规则”直接对单台资源配置告警规则。
图9 创建告警规则
- 根据界面提示配置参数,其中,告警类型、云产品、资源层级、监控范围、监控对象默认预填写。
图10 配置告警规则
表1 主机监控告警内容配置说明 参数
示例
说明
告警类型
指标
告警规则适用的告警类型。不支持修改。
云产品
弹性云服务器 - 云服务器
配置告警规则监控的服务名称。不支持修改
资源层级
云产品
不支持修改。
监控范围
指定资源
告警规则适用的资源范围
触发规则
自定义创建
选择触发规则方式
指标名称
在下拉框中选择“云服务器-进程-进程id >(agent)指定进程cpu使用率”
选择触发告警的指标
告警策略
原始值连续3次大于等于80%,每1天告警一次。
触发告警规则的告警策略。说明:每1天告警一次是指告警发生后如果状态未恢复正常,每间隔一天重复发送一次告警通知。
告警级别
重要
根据告警的严重程度不同等级
- 根据界面提示,配置告警通知参数。更多告警通知参数请参考创建告警规则和通知
表2 主机监控告警通知配置说明 参数
示例
说明
发送通知
开启
当触发设置的告警条件时,是否发送告警通知。
通知方式
主题订阅
选择告警通知方式
通知对象
云账号联系人
- 当通知方式选择主题订阅时,需要选择发送告警通知的对象。
- 当通知对象选择云账号联系人时,会发送告警通知到注册时的手机和邮箱。
生效时间
00:00-23:59
- 当通知方式选择主题订阅时,需要设置生效时间。
- 系统仅在生效时间内发送告警通知消息。
触发条件
依次勾选出现告警、恢复正常
当通知方式选择主题订阅时,可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。
- 配置完成后可以在告警规则列表进行查看。
步骤四:查看主机告警记录
当接收到告警通知后,可在告警记录界面对主机资源触发的告警进行搜索查看,可通过资源id进行搜索,找到资源对应的告警信息。

后续操作:屏蔽告警规则
当不需要接收告警触发后的通知消息,可以根据屏蔽规则进行屏蔽,屏蔽生效后仅产生告警记录将不会接收到告警通知。
- 登录管理控制台。
- 单击“服务列表 > 云监控服务”。
- 选择“告警 > 告警规则”。
- 在“告警规则”界面,单击告警规则所在行“操作”列的“更多”,选择“屏蔽告警”,在弹出的“屏蔽告警”界面,选择“屏蔽时间”后,单击“确定”即可完成对告警规则的屏蔽。
图12 屏蔽告警规则
相关信息
关于创建告警规则的更多参数信息,请参见“创建告警规则和通知”
用户还可以屏蔽某个资源或某个资源下的告警策略。请参见“”。
云监控服务还提供了一键告警功能一键开启关键监控项告警的服务。具体操作请参考“”
相关文档
意见反馈
文档内容是否对您有帮助?
如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨