鼓励在组织中引入SRE的数据点

由于没有站点可靠性工程专门的stackexchange，因此我发现这已经结束了。

有很多很棒的资源可以用作关于SRE原理[SRE幻灯片]的灵感来源。

仍然找不到：

简短
简洁
示例
激励花费资源在组织中实施SRE。

我在职业生涯中所经历的大部分都是高度机密的案件和数字。我担心，SRE知道的大多数数字都将保持“内部”状态，以便在公司内部进行内部呈现。

但是，也许您知道一些研究（最好是一组）事后研究的例子。（即使一个接一个都是好的），从中我们可以提出一个强有力的论据，例如“将SRE模型引入组织后，每x的发布速度从n增加到m的更改速度，可用性提高y，成本降低z （头脑风暴）还是其他硬数据点？

[SRE幻灯片]-一些示例：

站点可靠性工程：企业采用的故事（ITSM学院网络研讨会）由ITSM Academy，Inc.
SRE从头开始，由
Square平台工程师Grier Johnson
GOTO 2017•Google的站点可靠性工程•Christof Leng

聚苯乙烯如果可以将该问题改写为更好地适合本网站指南，请在评论中为我提供建议，并给我一些改进的建议。否则，我将不胜感激其他更好的平台（但是，例如reddit.com/r/sre对我的印象并不深刻）

对于试图实施SRE做法的团队来说，SRE手册是一本好书。

Chef.io有很多资源，其中包括4个关于devop和速度的网络研讨会，这可能会让您着迷：Chef.io/resources一些客户的故事，例如Rakuten也可以为您提供一些见解，我不知道有明确的硬性规定说

book.ACCELERATE（Forsgene，Gene）与DevOps相同，但某些数据点可能兼容，例如服务MTTR（平均恢复时间）

#1 楼

您正在寻找的数字类型可能很难找到，因为它们是高度可变的（根据我的经验，即使在一个组织内，它也因服务与团队而异。）现在免费提供，其中包括两个可能有用的案例研究（第3章）。另外，New Relic的SRE电子书在总结SRE方面做得非常好。

处理此问题的另一种方法是尝试利用对服务的了解来进行风险评估。并估计停机时间，可以避免是否有SRE和开发人员支持来消除这些风险

随着时间的流逝，我了解到某些决策者在风险发生后将不会意识到。因此，您需要进行风险评估，并等待预期发生的事情或寻找数据点，例如x＆y发生了多少没有采用sre做法的公司，反之亦然。

– Grzegorz Wierzowiecki
19年2月12日在16:56

#2 楼

我同时在多家公司的DevOps和站点可靠性工程组织中工作。我想说SRE的优势比DevOps更为具体。

DevOps强调原理和心态，例如DevOps的三种方式：系统思考，放大反馈回路以及不断实验和学习的文化。 DevOps是对敏捷的扩展，它是一种不同的运营模式。
站点可靠性工程强调Google（及其他公司）为实现高水平的服务可用性和对客户的信任度而采用的特定方法，指标和措施。 f.ex：SLI和SLO的辛苦与改进的比率，定量风险分析和数学方法。

由于SRE实施DevOps，尝试比较做一个但不做的组织有点不公平。这样做，所以我实际上建议可以将Accelerate中的所有内容同样容易地应用于站点可靠性工程，因此，如果您需要从同行评审的数据驱动分析开始。

编程黑洞网

鼓励在组织中引入SRE的数据点

评论

#1 楼

评论

#2 楼