
前段时间代码中有个问题,找了非常久才找到,最后发现是因为服务器在阿里云,而阿里云到 Datadog 的网络不通。于是我们不得不放弃了 DataDog,用 Grafana 搭起来一套监控系统
搜资料的时候发现,Grafana 中文的优秀教程非常少,不是已经过时就是 CSDN 上复制粘贴的各种奇怪文章。于是我们在搭起来监控系统的过程中,特意将过程抽象记录了下来,结合之前在厂里的经验写了这篇教程,并附上了代码
这篇文章里,我会从原理出发,讲到为什么要用 Grafana,再到 Grafana 的启动和配置。系统监控不只是运维赖以生存的工具,它对日常开发也有非常大的作用。这也是为什么之前在厂里,虽然是工程师也推荐阅读 Google SRE 手册(同样强烈推荐)
能熟练地使用 Grafana/Prometheus 等系统,对于开发来说绝对是走到哪都好用的技能,希望这篇文章能够帮到大家。如果对你有帮助欢迎留言告诉我
本文对应的: GitHub Repo
1 defunct9 2020-08-13 07:37:58 +08:00 via iPhone 讲讲如何收集交换机带宽并计算 95th 吧 |
2 KalaSearch OP @defunct9 好的,不过这篇已经非常长了。如果你有好的文章推荐也请发给我,我会加到后面 |
3 chotow 2020-08-13 08:22:58 +08:00 楼主要不要再写一下 Logstash 和 Kibana,ELK 也是挺常用的。 |
4 iplcbest 2020-08-13 08:23:08 +08:00 via Android 配置挺复杂,感谢分享 |
5 opengps 2020-08-13 08:24:19 +08:00 文章特别好,Grafana 对于大厂来说简直不可或缺 |
6 v2byy 2020-08-13 08:33:54 +08:00 via iPhone 通俗易懂,赞 |
7 wenbinwu 2020-08-13 08:43:36 +08:00 把不同种类的 metrics 都解释清楚就更好了 |
8 RedBeanIce 2020-08-13 09:30:07 +08:00 强无敌 |
9 KalaSearch OP |
10 hhyvs111 2020-08-13 10:10:47 +08:00 我们公司也用的这个,不错 |
11 linvon 2020-08-13 10:29:39 +08:00 prometheus 的话,还是在文章里改下描述吧,是 prometheus 主动向数据源拉取数据的,这也是它与 influxdb 这种数据库的主要区别,不然容易误导新手 |
12 KalaSearch OP @linvon 能详细点说下哪个部分让你觉得表意不是这样吗? |
nbsp; 13 summer0 2020-08-13 11:01:33 +08:00 @KalaSearch 同问 讲讲如何收集 90,95th 的 |
14 keepfun 2020-08-13 11:05:10 +08:00 应该讲下怎么画图 画各种各样的图形 |
15 lzlee 2020-08-13 14:21:03 +08:00 兄弟你这是要当 教程王 啊 粗略看了一下, 感觉把简单事情讲得很清楚 楼主费心了 |
16 nowcoder 2020-08-13 14:52:29 +08:00 请教一下楼主,时间序列的数据里,如果中途有一段时间是没数据的,展示的折线图如何在这段时间内显示为 0 ? 现在是直接一条折线过去的,希望两个数据点的时差超过 k 秒,就显示为空 |
18 linvon 2020-08-13 15:28:09 +08:00 |
19 seanxx 2020-08-13 16:05:24 +08:00 是不错,我们一直在用 |
20 weilongs 2020-08-13 16:38:17 +08:00 去年公司让做了 Grafana 的汉化。 过后来版本代码化有点大,不能复用其他版本。 |
23 agdhole 2020-08-13 21:33:35 +08:00 楼主的卡拉搜索怎么收费的,有免费额度吗? |
24 ETiV 2020-08-13 22:53:05 +08:00 |
25 KalaSearch OP @linvon 感谢,编辑的时候没读到,的确不太严谨,一会改一下 |
26 clifftts 2020-08-14 09:20:13 +08:00 先收藏 |
27 leestar54 2020-08-14 09:46:10 +08:00 隐约感觉是广告贴,但是又没有证据的样子[狗头]。 |
28 csdreamdong 2020-08-14 09:58:36 +08:00 同问,,带宽 95 计费的问题 |
29 ixinshang 2020-08-14 13:27:22 +08:00 @csdreamdong 表示关注 |
30 ixinshang 2020-08-14 13:31:02 +08:00 请教 1 个问题 @csdreamdong @KalaSearch 我是配合 zabbix 使用的,通过 SNMP 获取的值,原始数据是间隔 5 分钟,在使用 grafana 查看值的时候,两天之内,数据间隔是 5 分钟的。 超过 2 天,时间间隔就大于 5 分钟,查了相关的资料,没查到能设置的地方,两位能否赐教一下。 |
31 WilsonGGG 2020-08-14 15:39:54 +08:00 这个网站设计的蛮好看的,手撸还是模板? |
32 StrongNoodles 2020-08-14 16:19:47 +08:00 先收藏,有空再看。。 |
33 Leigg 2020-08-14 22:51:26 +08:00 via Android 可以先把 es 教程出完吗 |
34 KalaSearch OP |
35 tianshiyeben 2020-08-21 13:46:42 +08:00 我也贴下我的监控系统,哈哈,www.wgstart.com |
36 zoyua 2020-08-24 10:18:10 +08:00 学习了,多谢 |
38 chaleaoch 2020-09-14 10:09:32 +08:00 thanks! |
39 winglight2016 2020-09-14 16:31:02 +08:00 我刚开始以为 grafana 是面向数据分析的 dashboard,直到开始定制第一个图表才发现,数据集必须使用指定的数据结构,这实在太死板了,仅仅适合于实时 log 数据。 |
40 berserk 2020-09-16 09:17:25 +08:00 赞,分享! |
41 hullhutt 2020-09-16 10:34:52 +08:00 真的是第一个 dashboard,太浅显了,有没有更深一步的 讲讲 grafana 使用过程中的问题和不足,以及适用的地方 具体的仪表盘的使用,调整,期待后面 |