楼主 Java/Golang 程序员一名, 这周末想练习一下 Python, 就写了一个阿里云的 Prometheus Exporter, 主要功能是通过 CloudMonitor 的 API 收集云资源的监控指标. 也算能解决几类问题吧:
- 集成: 假如你已经维护了 Prometheus, 那么这个项目能帮你把阿里云云监控集成到现有的监控栈中;
- 提效: 接入 Prometheus 意味着可以走 Alertmanager 和 Grafana. 阿里云的警报规则和看板功能比起 Alertmanager 和 Grafana 还是差了点意思;
- 分析: 典型场景有出机器的资源利用率报表, 帮助做容规. PromQL 非常强大, 用过都说好;
- 省钱: 这点就见仁见智了, 人力成本通常比云监控的那点资源费更高, 但在云资源上省钱本身很可能是个 KPI...
项目地址: https://github.com/aylei/aliyun-exporter
目前还缺一个实例相关信息指标, 只有 instanceId 不太好分组和定位问题, 把 region, zone, hostname 包括规格这些信息都加上就好用多了, 预计在下个版本再完善一下.
