使用云监控实现GPU云服务器的GPU监控和报警(下)

  • 时间:
  • 浏览:1

gpu_memory_useutilization

%

groupId

名称

参数说明:Project=acs_ecs_dashboard,Metric及Dimensions参考上述监控项表格中的GPU指标。

GPU维度解码器使用率

gpu_gpu_temperature

分组维度GPU显存空闲率

instanceId

instance_gpu_gpu_usedutilization

TopN表格形式同样能非常方便的查看各个实例的GPU利用率和编码器/解码器利用率以及显存使用情况,从而判断业务运行是否正常,以及判断资源利用是否充分。

%

groupId

分组维度GPU功率

单位

℃ 

group_gpu_memory_totalspace

Bytes

gpu_encoder_utilization

instanceId,gpuId

%

instance_gpu_memory_usedutilization

分组维度GPU显存使用率

groupId

group_gpu_memory_usedspace

GPU相关监控指标提供四个维度的数据

下图是以折线图形式展示特定分组的分组维度GPU温度的平均值,还都可不可不上能能一目了然的查看指定分组相关实例的GPU温度波动情况。

GPU维度GPU功率

%

gpu_memory_freespace

GPU维度显存使用量

gpu_power_readings_power_draw

还都可不可不上能能使用OpenAPI来查询GPU监控数据。参考文档:https://help.aliyun.com/document_detail/51936.html

%

         或者自定义监控的架构设计 脚本都可不可不上能能用户买车人实现,或者云监控控制台上自定义监控的展示维度也很有限,都可不可不上能能查看指定VM指定GPU的某个数据。

GPU维度显存使用率

实例维度指标对单个ECS实例上的多个GPU监控数据做最大值、最小值、平均值的聚合。便于查看实例层面的整体使用情况。

GPU维度显存总量

instanceId,gpuId

instance_gpu_gpu_temperature

实例维度GPU使用率

上一篇文章其他人介绍了怎么能能使用阿里云云监控服务提供的自定义监控功能,利用自定义监控提供的API或者SDK,通过自定义脚本还都可不可不上能能将GPU云主机内架构设计 的GPU数据上报,在云监控控制台上上加相应的GPU监控项,就还都可不可不上能能实现对指定GPU实例内指定GPU的相应数据进行监控,对相应监控项设置相应数据的报警规则,就能实现监控数据的自动报警。

分组维度GPU解码器使用率

dimensions

instanceId,gpuId

%

instance_gpu_memory_usedspace

还都可不可不上能能在云监控控制台Dashboard中创建自定义GPU监控大盘,以多种图表类型大盘展示分别分组、实例、GPU维度的各个GPU指标。

下图是以TopN表格形式展示实例维度GPU温度的最大值,并以倒序依据展示,还都可不可不上能能一目了然的查看用户账号下所有GPU实例的实时温度情况,并选则GPU温度最高的实例。

gpu_memory_totalspace

groupId

GPU维度GPU温度

下图是以TopN表格形式展示实例维度GPU功率的平均,并以倒序依据展示,还都可不可不上能能一目了然的查看用户账号下所有GPU实例的实时功率情况,并选则GPU功率最高的实例。

groupId

instance_gpu_encoder_utilization

%

℃ 

%

实例维度GPU显存空闲量

实例维度GPU解码器使用率

云监控插件从1.2.28版本开始支持GPU数据的架构设计 。云监控Agent(即云监控插件)的安装还都可不可不上能能参考云监控官方使用文档:云监控Agent安装。一起去支持Linux和Window操作系统。

使用云监控实现GPU云服务器的GPU监控和报警(上) - 自定义监控

也还都可不可不上能能在云监控控制台主机监控每种一键点击安装最新的云监控插件,并查看云监控插件的版本,如下图:

groupId

下图是以折线图形式展示特定分组的实例维度GPU显存使用量的平均值,还都可不可不上能能一目了然的查看相关实例的显存使用量波动情况。

  分组维度GPU温度

groupId

instanceId,gpuId

group_gpu_gpu_temperature

instanceId

MetricName

instanceId,gpuId

实例维度GPU温度

GPU维度显存空闲率

instanceId

%

分组维度GPU使用率

instanceId

实例维度GPU编码器使用率

W

分组维度GPU显存总量

使用云监控实现GPU云服务器的GPU监控和报警(下)- 云监控插件监控

GPU维度编码器使用率

instanceId,gpuId

GPU维度的指标,架构设计 每个GPU层面的监控数据。

dimensions

Bytes

group_gpu_encoder_utilization

本文或者完整性介绍怎么能能通过安装云监控插件来实现更全面、更易用的GPU云监控和报警。

         通过使用阿里云提供的云监控插件,还都可不可不上能能一键安装就实现GPU指标的架构设计 和上报,一起去展示维度上还都可不可不上能能与目前的ECS一样获得更多维度的展示,比如Dashborad监控大盘,还都可不可不上能能监控集群级别的GPU指标,主机监控则还都可不可不上能能在四个页面显示该实例所有GPU的所有监控指标。

instanceId

instance_gpu_decoder_utilization

instance_gpu_power_readings_power_draw

group_gpu_memory_freespace

group_gpu_memory_usedutilization

实例维度GPU功率

instanceId,gpuId

group_gpu_memory_freeutilization

在云监控控制台中进入主机监控,进入都可不可不上能能查看监控数据的实例,点击GPU监控标签页,就还都可不可不上能能就看该实例所有GPU的GPU使用率、编码器/解码器使用率、显存使用量、GPU功率、GPU温度等监控数据。

%

%

Bytes

MetricName

Bytes

groupId

%

gpu_memory_usedspace

实例维度GPU显存使用率

分组维度指标对单个应用分组里的多个ECS 实例的监控数据做最大值、最小值、平均值的聚合。便于查看集群层面的整体使用情况。

instanceId

instanceId

instanceId

group_gpu_decoder_utilization

单位

gpu_decoder_utilization

Bytes

GPU维度显存空闲量

instanceId

名称

gpu_memory_freeutilization

名称

分组维度GPU显存使用量

分组维度GPU显存空闲量

instance_gpu_memory_freeutilization

instance_gpu_memory_totalspace

instanceId

W

实例维度GPU显存总量

MetricName

instanceId,gpuId

gpu_gpu_usedutilization

Bytes

group_gpu_gpu_usedutilization

实例维度GPU显存空闲率

%

instanceId,gpuId

Bytes

groupId

实例维度GPU显存使用量

group_gpu_power_readings_power_draw

W

Bytes

instance_gpu_memory_freespace

分组维度GPU编码器使用率

新增的GPU监控项上加报警规则依据同ECS的其他指标一样,还都可不可不上能能针对某一特定指标设置报警规则,如下图:

单位

groupId

dimensions

目前都可不可不上能能GPU计算型实例支持GPU云监控,实例必都可不可不上能能安装GPU驱动和云监控插件的1.2.28以上版本,即可在主机监控查看GPU相关监控数据、配置报警规则,或在Dashboard中配置监控图表。

Bytes

推荐通过创建模板后将模板应用于分组的依据批量上加GPU报警。查看报警模板最佳实践。

%

instanceId,gpuId

%

GPU维度GPU使用率