在产品工程团队中的某些时候,您会厌倦每一个紧急和关键的错误或问题。这通常发生在处理深夜松弛消息通知的几个问题之后。在这一点上,没有人真正知道哪件事是紧急事件,哪件事值得等到第二天早上,哪件事甚至不值得解决。所有这些都对团队文化和业务本身都是有害的。当一切都变得紧急时,没有什么是紧急的,没有人再关心了。
与其他流程不同,事件管理不会自然而然地出现。这是一种对抗混乱的防御机制;它需要创建并达成一致。
你不可能一下子把它都修好,也不可能从一开始就做得尽善尽美。但你需要从某个地方开始。这篇帖子是关于如何从与偶发事件管理毫无关系的转变为拥有一些东西。
您可能会感到急于采用Pager Duty的事件响应流程或Atlassian的事件管理流程。甚至不能使用这篇帖子里的内容。注意。我正在写对我的团队起作用的东西。不要只是照搬。你有头脑。好好利用它。
我的团队真的把所有这些都写在了一个交流页面上。写下来是不够的。每个人都应该同意使用它。你需要通过研讨会、讲座和培训课程进行教育,给出真实的例子,并确保每个人都理解你即将制定的基本流程。所有人都必须登机。
你可能需要解决的第一件事是每件事都是紧急和危急的。为此,您需要定义什么是真正的事件和几个严重级别。给出一些真实生活中的例子和如何报告每个事件的说明。如果它不完美,也不用担心。对于每个事件,您都会对其进行调整和迭代。
事件是导致服务中断或服务质量降低的事件,需要紧急响应。
拉斯维加斯的那部分很重要。紧急响应。一件事的影响如此之大,使某人有权扰乱他人的生活。
当您检测到事件时,请尝试分析影响并应用严重级别。严重程度是什么?事件的严重性是根据该事件对系统的影响得出的。它指示威胁的级别以及威胁如何影响系统。
涉及对公司或品牌声誉造成不可逆转损害的严重事件,即使意味着关闭网站,也必须立即解决。这永远不应该发生。
例如:安全漏洞暴露客户数据,主页上出现显示暴力内容的图片,客户账户被黑客攻击。
严重的系统事件会对许多客户使用产品的能力产生积极影响。这是一个主要的障碍事件,影响了整个服务的功能。它影响到整个业务。
例如:显示价格差异很大,折扣不应该存在,但适用于所有产品,网站关闭。
典型的回答:在#雷达频道上发送一条关于松弛的消息。如果10分钟内无人响应,请致电负责的工程经理。修复程序将尽快部署。
需要服务所有者立即注意的稳定性或影响客户的小事件。对于所涉及的团队来说,这是第一要务。第二天早上可以修好。
典型的回答:在#雷达频道上发送一条关于松弛的消息。如果它发生在办公时间以外,第二天就可以修复。
需要采取措施但不影响客户使用产品能力的小问题、美容问题或错误,必须优先处理。
例如:一位客户没有收到确认电子邮件。一位顾客买了一件没有库存的商品。产品的形象不正确。
典型的回答是:只在工作时间内。与负责服务/功能的团队的产品负责人和团队负责人交谈。
如果不能在合理的时间内解决事件,则可以升级事件的严重级别。如果发生这种情况,你将需要采取更严厉、更激烈的行动。
您不需要设置成熟事件管理流程的所有角色。您确实需要的最重要的一位是公关经理或公关主管。在一次事件中,会有人担任这一角色。这个人让每个人都知道情况的状况。检测到什么,正在调查什么,团队发现了什么,解决问题的时间框架,正在采取的行动,等等。
如果没有定期交流最新信息,人们就会变得神经质。甚至像“我们仍在调查中”这样的信息也是如此。有助于控制神经。每隔几分钟更新一次。可能看起来很多,但相信我,事实并非如此。处于危机模式时,过度沟通。这一点我怎么强调都不为过。
稍后,您可以添加其他角色,如指挥官或副手,设置随叫随到的流程等。所有这些都取决于您的需求,并根据您的组织和文化进行定制。
从小事做起。聊胜于无。做得比完美更好。教育并给人们时间去理解和使用这个过程。征求反馈,使用每个事后报告来分析事件管理流程,并尝试对其稍加改进。
非常感谢undra.com的插图。你可以半信半疑地订阅我的时事通讯,也可以不时地收到一封有更新消息的电子邮件。