科技小灵|开源危机管理工具 Dispatch,真香,Netflix

本文最初发布于Netflix技术博客 , 经授权由InfoQ中文站翻译并分享 。
什么是Dispatch?简单说 , 它是一个管理事件元数据和资源的危机管理编排框架 。 通过与组织中使用工具(像Slack、GSuite等)的深度集成 , Dispatch可以帮助我们有效地管理安全事件 。 它利用组织熟悉的工具来提供编排功能 , 而非引入另一种工具 。
这意味着你能让Dispatch专注于创建资源、安排参与者、发送通知和跟踪任务以及协助事后回顾——让你真正专注于解决问题!
危机管理的挑战
管理事件是一项压力很大的工作 。 因为 , 你同时要处理许多问题:范围是什么?谁能提供帮助?我还需要谁参与进来?我应该如何处理这一切?
一般来说 , 每一个事件都是独一无二的 , 如果同样的事件一而再再而三地发生 , 你就成消防员了 。
危机管理主要包含四个组件:
资源管理——不仅要管理收集到的与事件相关的数据 , 还有所有和事件响应相关的元数据 。 个人参与——理解让个人和团队参与的最佳方式 , 并根据事件上下文来进行 。 生命周期管理——提供事件指挥官(IC)工具 , 轻松管理事件的生命周期 。 事件学习——基于以前的事件加快对未来事件的分析 。在本文接下来的讨论中 , 我们会用到以下术语:
事件指挥官:负责推动事件解决的人 。 事件参与者:帮助解决事件的主题专家(SMEs) 。 资源:在事件中使用的文档、屏幕截图、日志或任何其他数字化信息 。事件处理步骤
普通事件的处理有很多步骤 , 其中很多通常都是由人即时处理的 。 让我们列举下:
声明一个事件——事件有许多不同的入口:自动报警、内部通知或外部通知 。 确定事件指挥官——根据事件来源、类型和优先级 , 确定负责推动特定事件的唯一负责人 。 创建沟通通道——事件处理期间的沟通很关键 。 创建标准化的专用沟通通道可以防止通信筒仓的出现 。 创建事件文档——包含最新事件信息的重要文件 , 其中包括事件描述、资源链接、面对面会议的纪要、打开的问题、行动项和时间表信息 。 确定个体资源——事件指挥官不会自己解决事件 , 他们必须在组织内找出其他的资源 , 让他们参与进来帮助自己 。 引导个体资源——光让其他资源参与进来还不够 , 事件指挥官还需要让这些资源了解当前的情况 。 通知关键干系人——对于任何给定的事件 , 如果关键干系人没有参与事件解决 , 则需要通知他们 。 推动事件解决——事件的实际解决 , 创建任务 , 提出问题 , 并跟踪答案 。 解决问题后记录解决问题的要点 。 执行事件后回顾(PIR)——回顾事件处理执行过程 , 跟踪事件发生后要采取的行动 , 并通过构建非正式知识来推动学习 。每个步骤都需要事件指挥官和事件参与者跨越不同的系统和接口 。 每次上下文切换都会增加响应者的认知负荷 , 分散他们解决事件本身的注意力 。
更好的危机管理
危机管理不是一项新挑战 , 像Jira、PagerDuty、VictorOps这样的工具都在帮助组织管理和响应事件 。 当开始自动化事件管理过程时 , 我们主要有两个目标:
使用已有的、用户熟悉的工具;降低事件处理所需的学习曲线 。 编目、存储并分析我们的事件数据 , 加速事件解决 。Dispatch
Dispatch是一个管理事件元数据和资源的危机管理编排框架 。 它使用组织中已经在使用的工具 , 为事件参与者提供一个全面的危机管理工具集 , 让他们能够专注于解决事件 。
与我们的许多工具不同 , Dispatch没有紧密绑定到AWS , Dispatch根本不使用任何AWSAPI 。 虽然Dispatch不使用AWSAPI , 但它利用已经在组织中广泛应用的多个API(例如Slack、GSuite、PagerDuty等) 。 除了所有内置的集成外 , Dispatch还提供了多个集成点 , 让其能适应几乎任何现有的环境 。
尽管是作为帮助Netflix管理安全事件的工具而开发的 , 但Dispatch并不局限于安全用例 。 它的核心目标是管理事件的整个生命周期 , 专注于让个体参与进来 , 并为他们提供推动事件解决所需的上下文 。