Skip to content

选择 SLI 指标和设定 SLO 目标的方法

选择 SLI 的两大原则是什么?VALET 法则是什么?怎么来计算 SLO?

ERROR Budget 错误预算 提示你还有多少次犯错的机会

在 SLO 落地实践时,我们通常就把 SLO 转化为错误预算,以此来推进稳定性目标达成。

稳定性燃尽图 故障定级 (该问题消耗的错误预算) 稳定性共识机制

  • 剩余预算充足或未消耗完之前,对问题的发生要有容忍度
  • 剩余预算消耗过快或即将消耗完之前,SRE 有权中止和拒绝任何线上变更。 基于错误预算的告警

案例

核心链路 区分不同场景下哪些是核心应用,哪些是非核心应用

设定 SLO 有哪些原则?

第一,核心应用的 SLO 要更严格,非核心应用可以放宽 第二,强依赖之间的核心应用,SLO 要一致。 第三,弱依赖中,核心应用对非核心的依赖,要有降级、熔断和限流等服务治理手段。 第四,Error Budget 策略,核心应用的错误预算要共享,就是如果某个核心应用错误预算消耗完,SLO 没有达成,那整条链路,原则上是要全部暂停操作的

如何验证核心链路的 SLO?

容量压测

混沌工程

混沌工程是 SRE 稳定性体系建设的高级阶段,一定是 SRE 体系在服务治理、容量压测、链路跟踪、监控告警、运维自动化等相对基础和必需的部分非常完善的情况下才会考虑的。