灾难恢复(灾备) 或灾难数据恢复是组织在面对诸如极端天气事件、网络事件或其他导致重大中断的灾难事件时,关于如何恢复关键数据和系统并及时作出响应的计划。虽然这是一个简单的概念,但它常常被人们忽视,因为许多组织不会定期重新审视灾备计划,并且常常在发生重大事件后才意识到其重要性。
无论是企业还是其他组织,通常而言,他们不能持续离线或“停机”几天,因为网络(电脑)系统必须保持运行以确保组织正常运营。在更新灾备计划方面,部分企业或许已经走在前列。但随着技术、方法和灾害本身的变化,仍需要集中精力维持这些计划。为了做好准备,组织必须定期更新灾备计划、培训员工并采取主动而非被动的态度。组织不能等待着问题出现后再去解决,而是提前演练其计划,并监控和阻止任何可能导致数据丢失的行为。
一个成功的灾备计划是什么样的
成功的灾备计划包括在发生意外事件或灾难时应该采取的明确步骤,这些事件或灾难会破坏资源并使日常运营面临风险。该计划应包括在发生事件时采取的战术步骤以及明确的角色和责任。
制定灾备计划的第一个步骤是对整个IT基础设施进行审查和分析。为了进行这种审查,灾备计划应该有一个记录了从硬件和软件到设备、应用程序等的资产清单。清单中应该包含版本历史、系统位置、备份和保护方式以及任一备份的存储位置。所有这些细节都是至关重要的,这样当灾难发生时,组织的领导者就可以通过清单,准确了解系统在事件发生前是什么样子。
数据的备份及存储对灾备计划至关重要,它可以在制定恢复草案时为组织节省时间和金钱。如果一切都已备份并可用,那么让系统恢复到之前的状态就会更容易。考虑到这一点,一个关键的数据保护做法可以为组织节省时间、金钱并减轻压力,它就是Veeam的“3-2-1-1-0 ”备份原则。该原则表明了,组织应该在至少2种不同类型的存储介质上保存至少3份数据副本,并在异地保存1份备份。异地备份在面对像龙卷风、飓风或其他极端天气事件的情况下是尤为重要的。此外,其中1个存储介质应该是离线的。最后,所有的可恢复性方案要确保0错误。
此备份原则确保了数据被妥善备份,并且备份的位置有足够多的变化,进而确保一场灾难不会破坏所有的数据,并在发生任何灾难情况时都可以为组织提供完整的备份。
测试和演练灾备计划
随着组织推进 IT 现代化并推出新技术,他们也必须定期更新灾备计划以适应新变化,否则在发生灾难时部分 IT 基础设施可能会丢失。更新计划不仅包括将新项目添加到技术或工作负载列表中,还包括在需要时添加其他流程以创建整体的恢复计划,确保组织了解所运用的技术并就灾备计划进行相应的员工培训。
未来,为了尽可能多地消除人为错误,自动化将在运行、监控和提供灾备计划方面发挥关键作用。
为了确保灾备计划是全面的,并且员工在面对意外事件时知道自己的责任,组织应该演练他们的计划。组织应定期对灾备计划进行测试,并以现实世界中的常见情况作为测试主题,比如极端天气事件、人为错误导致的数据意外删除或系统锁定、以及网络攻击等。在这些场景下进行测试,对于确保灾备计划能够有效抵御各种类型的灾难是至关重要的。
测试还可以为组织提供有关优先级顺序的重要信息。如果发生影响多个数据领域的事件,组织领导者需要知道恢复的优先级,并且灾备计划是否可以满足多个恢复操作的需求。如果不对灾备计划进行测试,可能会导致管理不善、混乱,并最终导致组织在灾难发生时反应迟钝和恢复缓慢。
最后,灾备计划应该包括技术性较低的步骤,比如紧急沟通计划,里面详细说明组织将就内部和外部情况分享什么内容,以及如何分享。此外,计划中应明确每个员工的角色和职责所在。当灾难发生时,组织中的每个人都应该协同工作来实施灾备计划,使系统尽快恢复全面运转。
虽然这看起来工作量很大,但要知道,为灾难做准备的成本通常低于处理一场灾难和尝试恢复丢失数据的成本。
灾备计划的未来
在过去的一年里,许多组织不得不迅速作出支持远程工作环境的相关决策。在可预见的未来,灵活的远程工作环境是可能的,因此组织应确保花时间更新他们的灾备计划,以适应各种变化,并确保考虑到了所有设备。
在灾备计划方面,组织需要在必要时做出一些相应的调整,这包括当变化发生时对员工进行培训,让他们演练计划,并向他们及时更新需求变化的情况。在灾备计划方面,组织的每个成员都有着自己的角色,并对计划的成功发挥着作用。积极主动地为今天的灾难做好准备,组织就可以胸有成竹地面对未来可能出现的灾难。(本文由Veeam 产品战略高级总监 Rick Vanover撰写)