Nagios 电邮报警管理超过 1000 个节点 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xianlin
V2EX    DevOps

Nagios 电邮报警管理超过 1000 个节点

  •  
  •   xianlin 2017-02-11 00:09:28 +08:00 5973 次点击
    这是一个创建于 3177 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题, 10 个还好,如果 1000 个邮件估计就像潮水一般涌过来了,

    所以

    如果你管理 1000-2000 个节点,如果只能设定电邮报警的话,有什么可以改进的地方么?

    我的想法:

    任何一个报警只发一次电邮,然后去一个定制的网页看看那些节点有问题。

    这个方法有缺陷么?还是有其他更好的方法?谢谢!

    第 1 条附言    2017-02-11 07:39:37 +08:00
    好奇,这里有兄弟在管理超过 1000 个节点的么?如果有 50 个节点有报警,你们是怎么通知的? 50 封邮件? 50 个短信?
    第 2 条附言    2017-02-11 13:57:52 +08:00
    stackoverflow 上已经有人问过这个问题了, 2010 年
    http://serverfault.com/questions/129177/nagios-grouping-notifications
    21 条回复    2017-03-05 22:31:46 +08:00
    wd
        1
    wd  
       2017-02-11 05:29:08 +08:00 via iPhone
    节点之间有关系吗?如果有关系可以配置依赖关系 这样上级节点挂掉 下级节点就不用报了

    如果节点之间没关系 那应该想办法避免报警那么容易被触发 否则如果报警都是真实的报警 那为社么要减少 不是都需要处理吗?
    xianlin
        2
    xianlin  
    OP
       2017-02-11 07:38:16 +08:00
    @wd 这个方法好,但如果没关系,如何用一封邮件来告诉我所有的报警呢?

    没说要减少报警,而是要减少邮件数量的同时可以知道所有的报警。

    谢谢这位兄弟回复!
    panyanyany
        3
    panyanyany  
       2017-02-11 08:38:08 +08:00
    r#2 @xianlin 发邮件的时候只显示统计信息,即有多少个节点报了多少种错误。如果要看详细信息就自己登陆到服务器上,或者一个专门的网站上去查看。
    xianlin
        4
    xianlin  
    OP
       2017-02-11 08:54:34 +08:00
    @panyanyany 统计信息如何得来的?从 nagios 里面写程序插件拿到么?如果有 50 个报警轮流发生,间隔 5 秒钟,统计的话得设计个窗口来统计这 250 秒内的报警吧?那么重要的报警还是得第一时间内直接发邮件了?
    wd
        5
    wd  
       2017-02-11 09:15:59 +08:00 via iPhone
    @xianlin 就我的了解 貌似 nagios 没有这个机制
    有个思路是不要让 nagios 报警 只存一份到 db 然后自己实现报警 比如定时扫描 db 综合这段时间的所有报警生成你想要的报警信息

    不过貌似动作有点太大 想要很好的实现报警逻辑还需要比较多的事情
    pc10201
        6
    pc10201  
       2017-02-11 10:26:53 +08:00
    建议用 zabbix ,有依赖管理功能
    jarlyyn
        7
    jarlyyn  
       2017-02-11 10:36:54 +08:00 via Android
    没这经验,感觉需要再跑个通知服务,监控程序通知服务的接口,由通知服务决定怎么通知
    swulling
        8
    swulling  
       2017-02-11 10:37:52 +08:00 via iPhone
    汇聚报警,当然最重要的是你的系统应该是自愈系统……而不是发单机报警
    jhaohai
        9
    jhaohai  
       2017-02-11 10:46:13 +08:00 via iPhone
    prometheus 支持告警合并,可以指定一组标签,把有同样标签集的告警合并到一封邮件里
    Lax
        10
    Lax  
       2017-02-11 10:48:58 +08:00
    “任何一个报警只发一次电邮,” --- 不需要每个都发,短期内可以归并。
    “然后去一个定制的网页看看那些节点有问题。” --- nagios 有状态页面。

    -----

    简单的报警抑制:

    1. 第 1 条 alert 事件: 发报警。开一个定时器。
    2. 第 2 条 alert 事件开始:检查定时器已存在,消息进缓冲不发。
    3. 定时器到期:把缓冲所有的消息 __归并成一条邮件__ 发出,开一个新定时器。-- 循环 1-3 ,知道缓冲区为空。
    Nicksxs
        11
    Nicksxs  
       2017-02-11 11:06:17 +08:00
    正想在生产环境部署这个监控,碰到些问题,不知道方不方便请教下,我的邮箱: [email protected]
    xianlin
        12
    xianlin  
    OP
       2017-02-11 13:55:08 +08:00
    @Lax 你说的这个可以在开源免费的 Nagios 里面实现么?还是要自己开发的?
    SharkIng
        13
    SharkIng  
       2017-02-11 14:39:13 +08:00
    我们的 Nagios 上有 2200 个服务器监控
    主要没有懂你的意思,一般来说不可能一起全部坏了啊,怎么可能一次行收到 1000 个邮件呢?
    ksupertu
        14
    ksupertu  
       2017-02-11 16:25:06 +08:00 via iPhone
    换小米的
    lslqtz
        15
    lslqtz  
       2017-02-11 16:49:08 +08:00 via iPhone
    首次直接报警 其他服务报警或定时器到时合并报警
    服务对应问题不紧急可以临时关闭服务,然后采取页面报警
    紧急可以考虑上短信报警
    Lax
        16
    Lax  
       2017-02-13 01:07:54 +08:00 via iPhone
    @xianlin 我是自己写的一小段脚本做的,七八年前。没关注现在有没有其他人放出高质量的代码。
    感觉你现在遇到的问题,不是开源的东西有什么你就应该用什么,否则踩坑填坑也是无底洞。先想清楚需要什么,开源能不能有现成的,如果没有就自己开工去搞一个。如果经验不足没有好思路,参考开源方案的思路设计会有帮助。
    xianlin
        17
    xianlin  
    OP
       2017-02-13 01:44:23 +08:00
    @Lax 言之有理,自己开工去搞一个这句话听起来很爷们!
    xianlin
        18
    xianlin  
    OP
       2017-02-28 12:38:49 +08:00
    @lslqtz Nagios 可以使用定时器功能?英文是叫做 notification delay 吧,好像有个参数就是 first_notification_delay
    xderam
        19
    xderam  
       2017-03-04 16:37:12 +08:00
    xianlin
        20
    xianlin  
    OP
       2017-03-04 17:08:38 +08:00
    @xderam 应该可以不过要给钱
    xderam
        21
    xderam  
       2017-03-05 22:31:46 +08:00
    @xianlin 有开源的,不过等你玩明白开源的了,还不如自己写一个了呢。可能你只要开源的某个部分。具体叫啥名我忘记了,肯定有。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     919 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 20:15 PVG 04:15 LAX 13:15 JFK 16:15
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86