服务器挂了如何自动提醒运维或则对应的后端人员? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Eugene1024
V2EX    问与答

服务器挂了如何自动提醒运维或则对应的后端人员?

  •  
  •   Eugene1024 2019-06-17 11:21:57 +08:00 3998 次点击
    这是一个创建于 2318 天前的主题,其中的信息可能已经有所发展或是发生改变。
    背景: 因为某种原因服务器挂掉了或则程序挂掉了,经常在休息的时候公司的人或则用户就打电话来,“小明,服务器又挂了,快起来看看是咋回事? ”
    我:怎么又挂了,等下我起来看看

    每次接到这种电话的时候都怀疑人生,而且在消息传递的期间有时间延迟,所以想到服务器挂了的时候能不能第一时间就提醒下运维或则后端人员,具体的提醒可能就有多种方式了,如短信,微信,邮件,电话等等,这里主要想了解下这种自动提醒的实现方式

    自己想到了一种方法: 找一个服务器 B 部署一个测试程序,测试程序打开,定时(比如一分钟)访问 A 服务器,如果访问 A 访问不到了触发提醒

    想知道还有其它哪些实用的实现方式
    第 1 条附言    2019-06-20 23:53:31 +08:00
    谢谢各位大佬的回复,大佬们真的提供了很多思路
    yinanc
        1
    yinanc  
       2019-06-17 11:34:19 +08:00
    Cooky
        2
    Cooky  
       2019-06-17 11:35:35 +08:00 via Android
    你们运维没有监控系统???
    SakuraSa
        3
    SakuraSa  
       2019-06-17 11:38:47 +08:00
    感觉由服务器主动上传监控信息(调用量 /可用率 /延时)到监控服务器的方式比较普遍。
    监控服务器发现监控值超出设定的阈值,或者一段时间没有上报后报警。
    uqf0663
        4
    uqf0663  
       2019-06-17 11:40:30 +08:00 via Android
    阿里云有个 “云监控”可以用,不是阿里云的机器也可以用
    Eugene1024
        5
    Eugene1024  
    OP
       2019-06-17 11:40:59 +08:00
    @yinanc easy 老师写的工具,这个我知道,但这个只是消息提醒的方式,我实际上想知道如何检测到服务器或则程序蹦了
    @Cooky 小公司专职运维都没有,当然也没有监控系统
    rainfox
        6
    rainfox  
       2019-06-17 11:47:09 +08:00
    各种云监测服务……
    liwl
        7
    liwl  
       2019-06-17 11:49:23 +08:00
    @Eugene1024 找不找代维呀~
    johnniang
        8
    johnniang  
       2019-06-17 11:52:48 +08:00 via Android
    aricxu
        9
    aricxu  
       2019-06-17 12:00:17 +08:00   1
    我就简单粗暴了点,直接服务器上跑 shell 定时监控进程,如果挂了就 钉钉机器人 /其他机器人 /短信 /电话 通知一下;其实还可以直接重启进程的。检测的话,ps 一下咯。
    nanlou
        10
    nanlou  
       2019-06-17 12:03:12 +08:00   1
    如果生产环境在云上可以看看各家的云监控,如果是自有机房的话可以使用开源的 Zabbix、Nagios、Open-Falcon 之类的自建监控系统,话说这不是最基本的操作吗。。。。
    botian
        11
    botian  
       2019-06-17 12:23:20 +08:00 via Android
    @yinanc 服务器都挂了,怎么发通知?
    应该用外部的监测
    shm7
        12
    shm7  
       2019-06-17 12:59:34 +08:00 via iPhone
    直接定时访问,不就是最靠谱的手段么?你不管怎么检测,只要不访问,都无法确定服务是可访问的啊!
    awhane
        13
    awhane  
       2019-06-17 13:05:23 +08:00
    服务器 A 和服务器 B 都部署监控系统,最低保障监控系统的高可用。
    然后看下 https://prometheus.io/就行了
    td width="10" valign="top">
    internelp
        14
    internelp  
       2019-06-17 13:14:18 +08:00
    运维不知道有监控系统吗,挂了自动发消息。
    Finest
        15
    Finest  
       2019-06-17 13:25:50 +08:00   1
    心跳包、定时 ping
    37Y37
        16
    37Y37  
       2019-06-17 13:41:10 +08:00   1
    另外找个机器部署个监控系统,zabbix,nagios 啥的都行啊,有云服务最好了
    hopingtop
        17
    hopingtop  
       2019-06-17 13:49:28 +08:00
    prometheus 解君愁
    vZexc0m
        18
    vZexc0m  
       2019-06-17 13:56:01 +08:00 via Android   1
    阿里云云监控。免费版也能满足要求。
    hiplon
        19
    hiplon  
       2019-06-17 13:59:14 +08:00   1
    zabbix 就好了
    huson
        20
    huson  
       2019-06-17 15:46:00 +08:00
    你们运维工程师是纸糊的吧 监控报警都不做的吗
    turi
        21
    turi  
       2019-06-1 15:51:21 +08:00   1
    没脚本监控?
    我们的运维直接撸脚本,挂了发一封邮件,然后重启服务器。
    第二天我们来 gdb XXXXX 看原因。
    okwork
        22
    okwork  
       2019-06-17 16:03:29 +08:00
    首先要有异常提醒,其次要有宕机自动重启的机制,第三要用负载均衡的策略。这样基本就可以不用人肉等候了
    PHPJit
        23
    PHPJit  
       2019-06-17 16:05:57 +08:00
    zabbix +1
    akira
        24
    akira  
       2019-06-17 17:13:07 +08:00   1
    @Eugene1024 云服务一般都会有提供监控 /告警服务的。
    如果是托管主机,国内也有不少三方的云监控 /告警服务,直接用就是了.
    Shirakawa
        25
    Shirakawa  
       2019-06-17 17:25:54 +08:00   1
    python 写个脚本请求 http 状态码 然后联动钉钉机器人就好了
    cominghome
        26
    cominghome  
       2019-06-17 17:58:52 +08:00   1
    最优解: 用云的话,大部分有自带的,理论上你只需要配置一个告警规则就行。
    次解: 搭建一个 zabbix 把服务器监控上,应该花不了 1 天。
    Mazexal
        27
    Mazexal  
       2019-06-17 18:03:34 +08:00   1
    心跳包......不过必须要两台服务器以上才可以这么搞
    zqx
        28
    zqx  
       2019-06-17 21:16:26 +08:00 ia Android   1
    一个服务,每隔半分钟就调目标机器的服务,超时就把机器信息回传给企业微信,企业微信推送到具体机器的应用的负责人
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3317 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 32ms UTC 11:05 PVG 19:05 LAX 04:05 JFK 07:05
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86