阿里云太恶心了,会杀进程。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kkhu2004
V2EX    服务器

阿里云太恶心了,会杀进程。

  •  
  •   kkhu2004 2017-12-06 11:35:18 +08:00 11563 次点击
    这是一个创建于 2871 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如果只是重启服务器也就罢了,居然杀进程。 导致服崩溃。

    关服务器我都没意见,杀进程是什么鬼?数据库里的用户数据我都担心无法保密。

    已经出现 2 次了,朋友的也出现同样现象。

    第 1 条附言    2017-12-06 12:53:51 +08:00
    关键不是进程被杀,而是系统的隐私。

    消耗资源太高,重启服务器、关服务器都没问题。

    但进程被杀,意味着阿里随时监控我的服务器内部!
    这样我的用户数据安全性怎么保证?
    第 2 条附言    2017-12-06 12:56:23 +08:00
    可能没描述清楚。

    阿里 [选择性] 的杀进程,让我开始担心用户数据安全性。
    42 条回复    2018-09-14 11:55:08 +08:00
    myliyifei
        1
    myliyifei  
       2017-12-06 11:46:50 +08:00 via Android   1
    能否具体一点
    kkhu2004
        2
    kkhu2004  
    OP
       2017-12-06 11:53:23 +08:00
    系统里有一个进程,是和其他服务器同步的,带宽占用一直恒定在 100K。
    cpu 偶尔会飙到 100%。
    每次都是这个进程消失,其他家的服务器这个进程一直很稳定。只有阿里的出现过这问题。

    上次还以为偶然。
    今天是朋友的也出现了同样问题。我再一查,我的又来了。
    kkhu2004
        3
    kkhu2004  
    OP
       2017-12-06 11:55:05 +08:00
    设置了自动重启时服务会自己启动。机器重启都行,
    下面还得再写个自动监控进程重启的。恶心
    cloudzhou
        4
    cloudzhou  
       2017-12-06 11:58:34 +08:00   1
    从服务端角度来看,很合理。如果一个进程死循环,难道要影响所有的同一台实体机器虚拟机么
    3dwelcome
        5
    3dwelcome  
       2017-12-06 12:01:28 +08:00 via iPhone   1
    进程被杀是会收到 signal 信号的、口说无凭、最好有证据。
    deadEgg
        6
    deadEgg  
       2017-12-06 12:15:35 +08:00   1
    @cloudzhou
    不合理吧,虚拟化的东西是保证环境内稳定。
    除非一些越界行为影响到本身实体机的,否则虚拟化环境的东西不应该被外部强制杀死。
    合理的管控我认为应该是合理的分配限制虚拟化资源,而不是暴力去 kill
    jixiangqd
        7
    jixiangqd  
       2017-12-06 12:21:41 +08:00   1
    看看 oom killer 日志里有没有杀你进程的行为?
    inroading
        8
    inroading  
       2017-12-06 12:23:38 +08:00   1
    阿里云
    [Wed Dec 06 09:59:01 2017] [notice] child pid 1928 exit signal Bus error (7)
    [Wed Dec 06 10:02:03 2017] [notice] child pid 1959 exit signal Bus error (7)
    [Wed Dec 06 10:06:28 2017] [notice] child pid 2280 exit signal Bus error (7)
    [Wed Dec 06 10:08:04 2017] [notice] child pid 2289 exit signal Bus error (7)
    [Wed Dec 06 10:12:29 2017] [notice] child pid 2745 exit signal Bus error (7)
    [Wed Dec 06 10:17:19 2017] [notice] child pid 2202 exit signal Bus error (7)
    [Wed Dec 06 10:27:46 2017] [notice] child pid 2686 exit signal Bus error (7)
    [Wed Dec 06 10:35:29 2017] [notice] child pid 3030 exit signal Bus error (7)
    [Wed Dec 06 10:50:41 2017] [notice] child pid 1499 exit signal Bus error (7)
    [Wed Dec 06 10:54:42 2017] [notice] child pid 3862 exit signal Bus error (7)
    [Wed Dec 06 11:01:08 2017] [notice] child pid 3874 exit signal Bus error (7)
    [Wed Dec 06 11:12:09 2017] [notice] child pid 3864 exit signal Bus error (7)
    [Wed Dec 06 11:23:17 2017] [notice] child pid 4282 exit signal Bus error (7)
    [Wed Dec 06 11:24:10 2017] [notice] child pid 4589 exit signal Bus error (7)
    [Wed Dec 06 11:24:29 2017] [notice] child pid 3870 exit signal Bus error (7)
    [Wed Dec 06 11:32:22 2017] [notice] child pid 4603 exit signal Bus error (7)
    [Wed Dec 06 11:34:19 2017] [notice] child pid 3782 exit signal Bus error (7)
    [Wed Dec 06 11:36:22 2017] [notice] child pid 4604 exit signal Bus error (7)
    [Wed Dec 06 11:40:08 2017] [notice] child pid 4584 exit signal Bus error (7)
    [Wed Dec 06 11:55:19 2017] [notice] child pid 4927 exit signal Bus error (7)
    [Wed Dec 06 11:59:50 2017] [notice] child pid 4592 exit signal Bus error (7)
    [Wed Dec 06 12:07:54 2017] [notice] child pid 3875 exit signal Bus error (7)
    [Wed Dec 06 12:12:26 2017] [notice] child pid 5480 exit signal Bus error (7)
    thetast
        9
    thetast  
       2017-12-06 12:26:26 +08:00 via Android   1
    的确第一次听说,确定不是因为其他问题?要 kill 是怎么 kill 的?如果是这样,问题很严重。
    just1
        10
    just1  
       2017-12-06 12:28:34 +08:00 via Android   1
    系统资源不够,系统 kill 的吧
    AntonChen
        11
    AntonChen  
       2017-12-06 12:48:08 +08:00   1
    是不是 OOM 被杀了,看看系统日志有没有相关信息
    l57t7q
        12
    l57t7q  
       2017-12-06 12:48:12 +08:00 via Android   1
    遇到过,redis 实例被 kill,原因就是内存资源不足
    kkhu2004
        13
    kkhu2004  
    OP
       2017-12-06 12:53:23 +08:00
    @cloudzhou
    @deadEgg
    @just1
    @l57t7q
    关键不是进程被杀,
    而是系统的隐私。

    消耗资源太高,关服务器,重启服务器都没问题。

    但进程被杀,意味着阿里随时监控我的服务器内部!
    这样我的用户数据安全性怎么保证?
    ovear
        14
    ovear  
       2017-12-06 12:55:36 +08:00   1
    @kkhu2004 先干掉阿里云那个云盾先把
    swulling
        15
    swulling  
       2017-12-06 12:55:42 +08:00 via iPhone   1
    想知道怎么做到只重启服务器,但是进程不收影响的
    ivmm
        16
    ivmm  
       2017-12-06 12:57:54 +08:00   1
    拿出详细的日志记录出来,谁都逃不了

    最好还是不要凭空臆测
    wzw
        17
    wzw  
       2017-12-06 13:02:39 +08:00 via Android   1
    我也遇到过,楼主是不是独享的机器类型
    liuminghao233
        18
    liuminghao233  
       2017-12-06 13:06:29 +08:00 via iPhone   2
    东西直接放人家服务器上还谈隐私
    这不是搞笑吗

    另外感觉是程序本身的问题

    写个 while(1)挂一天应该都不会杀你
    要不试一试
    just1
        19
    just1  
       2017-12-06 13:08:36 +08:00 via Android   1
    @kkhu2004 所有的系统都有自动杀进程,这关阿里什么事,莫名背锅
    doubleflower
        20
    doubleflower  
       2017-12-06 13:16:40 +08:00 via Android   1
    我没碰到过,ali 应该不会这么无聊
    lxy
        21
    lxy  
       2017-12-06 13:57:14 +08:00   1
    遇到过,不需要死循环,编译打包的时候,CPU 100%,5~10 分钟后可以稳定重现杀进程。
    但是阿里这种处理方式不好。我有另一台国外 VPS,由于代码缺陷,触发了一个死循环,一段时间后面板会提示已限制 CPU 使用,但是进程还是在运行的。
    wzw
        22
    wzw  
       2017-12-06 14:10:12 +08:00   1
    @lxy @just1 如果是独享机器会好一些, 现在阿里云有 N 种让你选, 如果是共享机器, 很容易 被杀进程, 内存用多了也会.

    我上次遇到以后,解决办法很简单, +钱. (1. 独享 2.比预计多 50%内存, 目前超级稳定)
    tomoya92
        23
    tomoya92  
       2017-12-06 14:14:13 +08:00   1
    碰到过

    当时是 1G 的内存,1G 的 CPU,tomcat 启动了两个项目,然后运行一段时间就会莫名的挂掉,去阿里云看,进程没了

    估计是内存用超了,系统检测到了,就给关了
    kkhu2004
        24
    kkhu2004  
    OP
       2017-12-06 14:35:27 +08:00
    @liygheart
    @wzw
    @lxy
    非常感谢。我的进程占用估计也是差不多,平均小时会有 30 秒的 90%+。
    每天估计偶尔也会出现 @lxy 的情况。
    同样也是国外的就一直很稳定。
    flynaj
        25
    flynaj  
       2017-12-06 14:43:26 +08:00 via Android   1
    gcp,cpu 占用 100%只会提示你升级,进程不会被杀
    asdwddd
        26
    asdwddd  
       2017-12-06 15:03:13 +08:00   1
    @kkhu2004 @liuminghao233 vps 里面的数据库,密码和重要信息,服务商是可以随时导出和查看的,难道这不是常识吗?
    kimqcn
        27
    kimqcn  
       2017-12-06 16:51:31 +08:00   1
    感觉正常,记得以前用过其他的免费虚拟主机,装个 tomcat 启动时自动被杀。
    kkhu2004
        28
    kkhu2004  
    OP
       2017-12-06 17:00:32 +08:00
    @kimqcn 免费虚拟主机,被杀我也认了。:)

    关键花了钱的。限制了 cpu、限制了内存、限制了带宽。
    还干扰我服务器内部进程干什么?
    看了一下平均 cpu 消耗只有 6%,内存 30%,带宽 30%。
    FindHao
        29
    FindHao  
       2017-12-06 17:12:29 +08:00 via Android   1
    阿里云国际我觉得还是挺良心的。之前因为我的一个错误配置,cpu 100%跑了一个月,,啥问题没有。。
    kkhu2004
        30
    kkhu2004  
    OP
       2017-12-06 17:17:33 +08:00
    @FindHao 我刚刚看了,可能还是内存原因,有几个峰值达到 1G 的上限。其他都正常
    不过即使这样也不能杀进程啊。
    maro
        31
    maro  
       2017-12-06 19:13:07 +08:00   1
    我估计阿里认为你中了病毒在发包 然后杀掉发包进程
    shiny
        32
    shiny  
       2017-12-06 19:30:00 +08:00   1
    这不是操作系统自身的特性吗?我也目睹过,直接显示 killed
    codehz
        33
    codehz  
       2017-12-06 20:00:36 +08:00 via Android   1
    @kkhu2004 内存突然太高被杀很正常。。。。。OOM 模块杀进程就是取占内存最大的那个。。。。前面有人提到了。。
    aveline
        34
    aveline  
       2017-12-06 20:10:23 +08:00   3
    OOM Kill 是内核干的啊,楼主你是不是傻逼
    ericFork
        35
    ericFork  
       2017-12-06 20:21:20 +08:00   2
    你是不是没有配 SWAP ……看看 dmesg 或者 kernel log 是不是被 OOM Killer 杀了吧,这锅你要硬让阿里云背的话,记不记得阿里云有个诨号叫千万云
    kingcc
        36
    kingcc  
       2017-12-06 20:40:24 +08:00 via Android   1
    呵…我之前差不多一个情况 ,cpu 基本跑满,跑了两天阿里云的人就给我打电话了,问我需不需要帮助 23333
    kkhu2004
        37
    kkhu2004  
    OP
       2017-12-06 23:21:40 +08:00
    @ericFork
    @codehz
    第一次知道这个功能,非常感谢。
    惭愧,如果真是这样,那就错怪阿里了。
    kkhu2004
        38
    kkhu2004  
    OP
       2017-12-07 00:21:44 +08:00
    日志 /var/log/messages 里没发现 Out of Memory: Kill process 的条目
    暂时不管它了。
    多谢各位的帮助。
    xierch
        39
    xierch  
       2017-12-07 01:24:50 +08:00   1
    > 东西直接放人家服务器上还谈隐私
    > 这不是搞笑吗

    什么鬼话。
    Quaintjade
        40
    Quaintjade  
       2017-12-07 08:46:28 +08:00 via Android   1
    npm 装 Wikibook 遇到过 CPU 飙高约 2 分钟然后 Killed,不过自己加了 swap 之后就好了。
    我至今遇到所有 Killed 都是因为内存不足。
    zeyond
        41
    zeyond  
       2017-12-07 13:15:40 +08:00   1
    @xierch 噗 i
    d0n910u
        42
    d0n910u  
       2018-09-14 11:55:08 +08:00   1
    oom 可以是被 Alihids invoked, 然后杀掉你的 mysqld, 但这是早前版本里才看到的,最近没看到过这样的字眼了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2980 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 13:02 PVG 21:02 LAX 06:02 JFK 09:02
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86