[SREcon18 Americas] 我的推荐清单(运维、SRE、DevOps、分布式系统相关) - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
9hills
V2EX    DevOps

[SREcon18 Americas] 我的推荐清单(运维、SRE、DevOps、分布式系统相关)

  •  
  •   9hills 2018-06-02 20:05:36 +08:00 1163 次点击
    这是一个创建于 2687 天前的主题,其中的信息可能已经有所发展或是发生改变。

    SREcon18 Americas 最近放出了视频资料,我整理后,觉得值得看的 Talk 如下:

    听力不好的同学(比如我),推荐打开 Youtube 自动生成的英文字幕。
    部分主题没有被列入,选题和推荐指数纯属个人口味偏好,没有任何原因。

    1. [Workshop] Containers from Scratch

    Workshop 是动手环节,这个主题是让你从头实现容器,对理解容器的原理很有帮助。

    2. [Workshop] How to Build a Distributed System in 3 Hours

    这个 Workshop 来自 Google,让你在三小时内设计一个 N+2 的多地域分布式系统,难度系数很高。建议学过 MIT 6.824 后再来看这个。

    3. [Workshop] Ansible for SRE Teams

    就是一个 Ansible 实战指南,对 Ansible 感兴趣的可以了解下:https://github.com/Eronarn/deploying-applications-with-ansible

    从我个人的角度,我觉得中小规模的公司,使用 Ansible 自动化是一个相当不错的选择。

    4. [Workshop]Tech Writing 101 for SREs

    如何写技术文章,如故障报告、文档之类,参考 https://lisafc.github.io/tw101-reading/ ,不过这种文章得翻译下才行。

    5. [Workshop]Chaos Engineering Bootcamp

    Netflix 的 Chaos Engineering 也算是一个招牌了,就和 Baidu 的 AIOps 一样,有兴趣的可以看看。

    6. If You Don ’ t Know Where You ’ re Going, It Doesn ’ t Matter How Fast You Get There

    偏向 IT 团队管理,介绍怎么评价效能,设定目标等。比如对变更,他提出了四个指标:部署频率应该 on demand、全量部署耗时 < 1h、MTTR < 1h、变更导致服务异常率 < 15%。

    对于需要带领一个运维团队的同学,建议观看。

    7. Stable and Accurate Health-Checking of Horizontally-Scaled Services

    对大规模水平扩展的服务,怎么做稳定而又精确的健康检查?做过相关事情的同学应该有所体会,这个问题并没有看起来那么简单。推荐有类似困扰或对分布式系统监控有兴趣的同学了解下。

    8. Don ’ t Ever Change! Are Immutable Deployments Really Simpler, Faster, and Safer?

    最早的服务部署,基本都是原地更新(增量或者全量),而在容器化时代,部署方式变成了创建-销毁-重新创建 模式,容器部署后不再改变,只有销毁重建。所以题目才说现在是 Immutable Deployments,但是这种部署方式真的可以更加简单、快速和安全么?

    9. Lessons Learned from Our Main Database Migrations at Facebook

    用 Facebook 自己的经历推荐他们的 MyRocks (需要翻墙),基于 RocksDB 引擎的 MySQL。对分布式的关系数据库有兴趣的,可以看看。

    10. Leveraging Multiple Regions to Improve Site Reliability: Lessons Learned from Jet.com

    多地域实践经验总结,比较实用。

    11. Lessons Learned from Five Years of Multi-Cloud at PagerDuty

    PageDuty 的 Multi-Cloud 实践,有兴趣的可以看。

    12. Help Protect Your Data Centers with Safety Constraints

    讲述了 Google 如何控制变更引入的风险,思路比较新颖,提出了使用一个 sanity check API 来对变更进行管控。

    13. Real World SLOs and SLIs: A Deep Dive

    讲述了一些现实场景下的 SLO 和 SLI 的设定的例子,对不知道怎么给自己服务设定的,可以参考下。

    14. Learning at Scale Is Hard! Outage Pattern Analysis and Dirty Data

    使用机器学习的方法进行故障诊断的一些探索性的想法。

    15. Containerization War Stories

    Pinterest 容器化碰到的一些坑。

    16. Monitoring DNS with Open-Source Solutions

    其实就是对开源监控系统的一个评测。

    • Data Collection: Packetbeat, Collectd, DSC, Fievel, and GoPassiveDNS
    • DB engines: Prometheus, Druid, ClickHouse, InfluxDB, ElasticSearch, and OpenTSDB
    • Visualization: Kibana, Grafana, and Graphite Web

    17. Security as a Service

    安全即服务,嘛我不是安全团队的,不感兴趣。

    18. "Capacity Prediction" instead of "Capacity Planning": How Uber Uses ML to Accurately Forecast Resource Utilization

    Uber 使用机器学习进行“容量预测”,取代以前的“容量规划”的一些探索。容量很复杂,这个仅仅是一个探索方向。

    19. Distributed Tracing, Lessons Learned

    分布式 Trace 的一些心得。

    20. Know Thy Enemy: How to Prioritize and Communicate Risks

    认识和管理风险,这个是 Google CRE 团队的入门文章。看过 《 Google SRE 》的就会发现大部分书里都提过。

    21. Building Shopify's PaaS on Kubernetes

    K8s 实战经验<_<

    22. Automatic Metric Screening for Service Diagnosis

    陈老师的故障根因诊断!

    23. Approaching the Unacceptable Workload Boundary

    关于容量和工作负载的文章,如果你对性能瓶颈、压测感兴趣,可以看看。

    2 条回复    2018-07-02 16:27:26 +08:00
    Etuloser
        1
    Etuloser  
       2018-06-06 11:04:32 08:00
    感谢分享,mark
    kylechou94
        2
    kylechou94  
       2018-07-02 16:27:26 +08:00
    谢谢分享
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2897 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 13:46 PVG 21:46 LAX 06:46 JFK 09:46
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86