Skip to content

绝大部分的故障,往往只要能定位出问题出在哪儿了,一般都可以快速地解决故障,慢就慢在不知道问题出在哪儿,所以说我们大部分时间都花在寻找问题上了。

MTTI:从发现故障到响应故障

第一件事,判断出现的问题是不是故障; 第二件事,确定由谁来响应和召集。

监控体系建设 确保关键角色必须在线,随时应急响应。

On-Call 的流程机制建设

  1. 确保关键角色在线
  2. 组织 War Room 应急组织
  3. 建立合理的呼叫方式 熟悉某个系统的最快最好的方式就是参与 On-Call,而不是看架构图和代码
  4. 确保资源投入的升级机制
  5. 与云厂商联合的 On-Call