网站可靠性工程师( SRE )
岗位职责
- 保障服务稳定可靠:SRE 负责内外部网站、平台服务的 99.99% 的可靠性;
- 协调沟通第三方服务:从调研、协调到使用第三方服务,诸如 CDN、公有云;
- 管理公有云资源如:AWS、Azure、GCP、Aliyun 等网络、存储、计算资源;
- 负责监控报警体系建设、错误收集、后续处理及持续改进;
- 负责 CI、CD 的工具调研、选型和调优,及日常的 Oncall ;
- 不断的用自动化工具优化以上这些流程;
任职要求
- 三年以上运维开发或内部工程效率工具开发相关领域经验;
- 熟悉 Go/Python 一种编程语言,熟悉 Shell 和 Linux 常用操作;
- 对容器编排系统( K8s、Docker )有较深入的理解及相关开发或使用经验;
- 对各个公有云有丰富的使用管理经验,并有强大的成本意识;
- 具有探索精神,有强烈的责任感及合作精神,具备优秀的学习能力和创新能力;
来吧来吧,请把简历发送到: [email protected]
