绝大部分的故障,往往只要能定位出问题出在哪儿了,一般都可以快速地解决故障,慢就慢在不知道问题出在哪儿,所以说我们大部分时间都花在寻找问题上了。
MTTI:从发现故障到响应故障
第一件事,判断出现的问题是不是故障; 第二件事,确定由谁来响应和召集。
监控体系建设 确保关键角色必须在线,随时应急响应。
On-Call 的流程机制建设
- 确保关键角色在线
- 组织 War Room 应急组织
- 建立合理的呼叫方式 熟悉某个系统的最快最好的方式就是参与 On-Call,而不是看架构图和代码
- 确保资源投入的升级机制
- 与云厂商联合的 On-Call