事故复盘时间线流程图
复盘流程设计与具体方法
一、复盘前准备阶段
信息收集与整理(组织者核心工作)
具体方法:
-
建立事故档案模板
事故基本信息表: - 事故编号:[自动生成] - 发生时间:[精确到分钟] - 发现时间:[精确到分钟] - 影响范围:[具体业务模块] - 影响时长:[分钟/小时] - 涉及人员:[角色+姓名] - 业务影响:[具体指标]
-
核心提问清单(5W2H)
-
What(发生了什么):
- "请描述一下事故的具体表现是什么?"
- "用户看到了什么异常现象?"
- "系统日志显示了什么错误信息?"
-
When(时间节点):
- "事故最早出现的时间点是什么时候?"
- "什么时候被发现的?"
- "从发现到解决用了多长时间?"
- "各个处理阶段的时间节点是什么?"
-
Where(影响范围):
- "哪些系统/模块受到了影响?"
- "影响的地理区域或用户群体是什么?"
- "依赖的服务是否也出现了问题?"
-
Who(相关人员):
- "事故处理过程中涉及了哪些角色?"
- "每个角色的具体职责是什么?"
- "决策链上的关键人物是谁?"
-
Why(根本原因):
- "直接触发事故的原因是什么?"
- "为什么会出现这个触发条件?"
- "更深层次的系统性原因是什么?"
-
How(发生过程):
- "事故是如何逐步演化的?"
- "处理过程中采取了哪些措施?"
- "哪些措施有效,哪些无效?"
-
How Much(影响程度):
- "对业务的具体影响是什么?"
- "用户投诉数量是多少?"
- "经济损失如何量化?"
-
2025年6月20日...大约 10 分钟