携程事件后关于运维工程师，安全工程师的问题！！

This topic created in 4005 days ago, the information mentioned may be changed or developed.

1.有专职的运维工程师吗？
2.有专职的安全工程师吗？
3.用的什么系统？什么版本管理工具？什么运维管理工具？
4.如何发布新版本？
5.会聘请第三方安全机构检测吗？

我自己先回答：
创业公司没有专职的运维和安全工程师但是简单的都能搞，linux centos64 6.5 git gitlab shell/python/docker 部分使用jenkins做分发顺便跑准入测试，新版本都是工程师自己上的，小版本迭代，出问题自己回滚，乌云老大比较熟偶尔帮忙检查一下漏洞

运维

工程师

专职

21 replies 2015-05-29 23:33:00 +08:00

codeninja

May 29, 2015

乌云老大比较熟偶尔帮忙检查一下漏洞
这就满牛逼的了感觉

publicID001

May 29, 2015

唉提交洞总是被miss

welsmann

May 29, 2015

乌云老大....剑心？

johnsmith123

May 29, 2015

再好的系统也难防内鬼

lhy360121

May 29, 2015

服务器超过千台以后，你会发现你进入了另一个世界。

markfang

May 29, 2015

@lhy360121 怎么理解？

AntiGameZ

May 29, 2015

@markfang 给一台服务器打个补丁，ssh 上去敲几行代码就行。一千台机器还能这么干么？

phoenixlzx

May 29, 2015

@AntiGameZ ansible/puppet 是干啥吃的啊(

RIcter

May 29, 2015

专职运维倒是都有，但是很多公司没有专职的安全工程师是真的。
_(:3」∠)_
等公司大了一般才会去找安全工程师吧。
像某钩现在还小，不知道找个安全工程师，被爆菊了都不知道呢还。

erevus

May 29, 2015

专职运维倒是都有，但是很多公司没有专职的安全工程师是真的。
_(:3」∠)_
等公司大了一般才会去找安全工程师吧。
像某ABAB现在还小，不知道找个安全工程师，被爆菊了都不知道呢还。

wy315700

May 29, 2015

看了读研的时候选择安全专业是选对了。。。

当初好多人安利我，说安全没啥用，不会有人关心的。

9hills

May 29, 2015

@phoenixlzx 然后puppet配错，所有机器都挂了。laf

Flyshit

May 29, 2015 via Android

@erevus 最近好像zone里不见你出现了？

shinko

May 29, 2015

@9hills 批量操作的时候，我都喜欢先用一两台机器测试通过了，在大量来的。

mywaiting

May 29, 2015

有大量机器的时候，应该分为好批次的机器吧，代码版本按feature打flag，每次上线按flag部署，几个批次的机器迭代着部署，从几台、几十台、几百台最后全部机器部署，线上按flag分小部分流量实际线上测试代码。

嗯嗯，就是类似facebook那样的上线方式，也不至于像ctrip那样酿成这样的大事故吧。

听说amazon有个叫apollo的上线系统，几乎可以在线上实现每秒部署一次新代码版本，按照ctrip这玩法，amazon早该被删除几十万次了。

反正我是不懂ctrip这么多的运维和安全都是干嘛去了，线上代码上线前没有充分的自动测试和小流量测试的么？代码发布没有统一的管理出了问题要大家去找发布邮件（微博看到的所谓内部聊天记录，不知道真假），这ctrip的技术部门感觉好像是拿了工资不作为啊！莫名其妙的。

而且全部瘫痪这样的事情应该也是线上系统应该考虑的，就没有应急预案和灾备的么？一个NASDAQ上市的大公司这点技术能力都没有，还要恢复这么久，看着我也是醉了。风平浪静的时候，大家都在游泳，潮水退去了，才发现自己在裸泳，这不是一个所谓大公司的技术部的表现啊。

还好有个elong，好歹也是资本意义上的“灾备”，要不这脸都往那搁啊。

总而言之，ctrip这搞什么鬼，也只有他们自己知道了。留下很多的教训，是很多很多的教训，怎么汲取这个教训，就看各个公司的了。

phoenixlzx

May 29, 2015

@RIcter R菊苣日掉了某钩么！

RIcter

May 29, 2015

@phoenixlzx 并不是我干的(