![]() | 1 yinanc 2019-06-17 11:34:19 +08:00 server 酱 http://sc.ftqq.com/3.version |
![]() | 2 Cooky 2019-06-17 11:35:35 +08:00 via Android 你们运维没有监控系统??? |
![]() | 3 SakuraSa 2019-06-17 11:38:47 +08:00 感觉由服务器主动上传监控信息(调用量 /可用率 /延时)到监控服务器的方式比较普遍。 监控服务器发现监控值超出设定的阈值,或者一段时间没有上报后报警。 |
![]() | 4 uqf0663 2019-06-17 11:40:30 +08:00 via Android 阿里云有个 “云监控”可以用,不是阿里云的机器也可以用 |
![]() | 5 Eugene1024 OP |
![]() | 6 rainfox 2019-06-17 11:47:09 +08:00 各种云监测服务…… |
7 liwl 2019-06-17 11:49:23 +08:00 @Eugene1024 找不找代维呀~ |
8 johnniang 2019-06-17 11:52:48 +08:00 via Android |
9 aricxu 2019-06-17 12:00:17 +08:00 ![]() 我就简单粗暴了点,直接服务器上跑 shell 定时监控进程,如果挂了就 钉钉机器人 /其他机器人 /短信 /电话 通知一下;其实还可以直接重启进程的。检测的话,ps 一下咯。 |
![]() | 10 nanlou 2019-06-17 12:03:12 +08:00 ![]() 如果生产环境在云上可以看看各家的云监控,如果是自有机房的话可以使用开源的 Zabbix、Nagios、Open-Falcon 之类的自建监控系统,话说这不是最基本的操作吗。。。。 |
![]() | 12 shm7 2019-06-17 12:59:34 +08:00 via iPhone 直接定时访问,不就是最靠谱的手段么?你不管怎么检测,只要不访问,都无法确定服务是可访问的啊! |
![]() | 13 awhane 2019-06-17 13:05:23 +08:00 服务器 A 和服务器 B 都部署监控系统,最低保障监控系统的高可用。 然后看下 https://prometheus.io/就行了 |
![]() | td width="10" valign="top"> 14 internelp 2019-06-17 13:14:18 +08:00 运维不知道有监控系统吗,挂了自动发消息。 |
![]() | 15 Finest 2019-06-17 13:25:50 +08:00 ![]() 心跳包、定时 ping |
16 37Y37 2019-06-17 13:41:10 +08:00 ![]() 另外找个机器部署个监控系统,zabbix,nagios 啥的都行啊,有云服务最好了 |
![]() | 17 hopingtop 2019-06-17 13:49:28 +08:00 prometheus 解君愁 |
![]() | 18 vZexc0m 2019-06-17 13:56:01 +08:00 via Android ![]() 阿里云云监控。免费版也能满足要求。 |
![]() | 19 hiplon 2019-06-17 13:59:14 +08:00 ![]() zabbix 就好了 |
20 huson 2019-06-17 15:46:00 +08:00 你们运维工程师是纸糊的吧 监控报警都不做的吗 |
21 turi 2019-06-1 15:51:21 +08:00 ![]() 没脚本监控? 我们的运维直接撸脚本,挂了发一封邮件,然后重启服务器。 第二天我们来 gdb XXXXX 看原因。 |
22 okwork 2019-06-17 16:03:29 +08:00 首先要有异常提醒,其次要有宕机自动重启的机制,第三要用负载均衡的策略。这样基本就可以不用人肉等候了 |
![]() | 23 PHPJit 2019-06-17 16:05:57 +08:00 zabbix +1 |
![]() | 24 akira 2019-06-17 17:13:07 +08:00 ![]() @Eugene1024 云服务一般都会有提供监控 /告警服务的。 如果是托管主机,国内也有不少三方的云监控 /告警服务,直接用就是了. |
![]() | 25 Shirakawa 2019-06-17 17:25:54 +08:00 ![]() python 写个脚本请求 http 状态码 然后联动钉钉机器人就好了 |
![]() | 26 cominghome 2019-06-17 17:58:52 +08:00 ![]() 最优解: 用云的话,大部分有自带的,理论上你只需要配置一个告警规则就行。 次解: 搭建一个 zabbix 把服务器监控上,应该花不了 1 天。 |
![]() | 27 Mazexal 2019-06-17 18:03:34 +08:00 ![]() 心跳包......不过必须要两台服务器以上才可以这么搞 |
28 zqx 2019-06-17 21:16:26 +08:00 ia Android ![]() 一个服务,每隔半分钟就调目标机器的服务,超时就把机器信息回传给企业微信,企业微信推送到具体机器的应用的负责人 |