在故障处理过程中采取的所有手段和行动,一切以恢复业务为最高优先级。
流程机制 在我自己团队的具体实践和场景中,我们按过程来分,会有如下的一个流程机制。
- 故障发现后,On-Call 的 SRE 或运维,最一开始就是 IC,有权召集相应的业务开发或其它必要资源,快速组织 War Room。
- 如果问题和恢复过程非常明确,IC 仍然是 SRE,就不做转移,由他来指挥每个人要做的具体事情,以优先恢复业务优先。
- 如果问题疑难,影响范围很大,这时 SRE 可以要求更高级别的主管介入,比如 SRE 主管或总监等,一般的原则是谁的业务受影响最大,谁来牵头组织。这时 SRE 要将 IC 的职责转移给更高级别的主管,如果是全站范围的影响,必要时技术 VP 或 CTO 也可以承担 IC 职责,或者授权给某位总监承担。
故障处理过程中效率如何,其实取决于三个因素:
技术层面的故障隔离手段是否完备; 故障处理过程中的指挥体系是否完善,角色分工是否明确; 故障处理机制保障是否经过足够的演练。
没有进展也是进展