Обеспечение непрерывности бизнес-процессов и управление кризисными ситуациями
Информационные технологии стали неотъемлемой частью бизнеса XXI века. Они являются мощным двигателем экономики, однако источником рисков. Без бесперебойной работы ИТ-сервисов прерываются бизнес-процессы, что может привести к финансовым потерям и катастрофическим последствиям. Как обеспечить информационную безопасность и непрерывность бизнеса? Об этом мы подробно расскажем в этой статье.
Когда дело касается использования информационных технологий в бизнесе, обеспечение бесперебойности процессов становится еще более важным. Предприятия, занятые в кредитно-финансовой, телекоммуникационной, высокотехнологичной и производственной отраслях, особенно нуждаются в продуманной системе кризис-менеджмента. Однако, это также актуально для ритейла, электронной коммерции, государственного сектора и любой другой отрасли, где поставлены задачи по обеспечению непрерывности деятельности компании.
Существуют специальные регламенты, которые соблюдаются для лицензирования деятельности в ряде отраслей и указывают на необходимость непрерывности бизнеса. Риск сбоя в работе информационно-технических сервисов может иметь колоссальные материальные потери для банков и жизнь людей - если инцидент произойдет, например, в авиакомпании или на предприятии топливно-энергетического комплекса.
Риски могут возникнуть из-за природных бедствий, аварий в энергосистемах или киберпреступлений. При этом, уровень риска определяется последствиями инцидента для деловых процессов и функций. В связи с многообразием рисков, обеспечение информационной безопасности (ИБ) является актуальной и несомненно необходимой задачей.
В 2019 году компания DEAC провела опрос и выяснила, что решения по обеспечению бесперебойности процессов наиболее востребованы в финансовой и информационной сферах. Риск непрерывности бизнеса связанных с ИБ и изменениями в законодательстве страны является наиболее серьезным согласно данному опросу. Почти половина респондентов считает, что в ближайшее время эти риски будут только расти.
BCM (Business Continuity Management), BCP (Business Continuity Planning) и DRP (Disaster Recovery Planning) являются инструментами кризис-менеджмента, которые обеспечивают безопасность бизнеса в целом. Они вытекают из системы ИБ и следуют основным принципам анализа рисков появления и влияния чрезвычайных ситуаций на деловые процессы, контроля и управления инцидентами, а также стратегического и тактического планирования непрерывности информационно-коммуникационных технологий (ИКТ). BCM (BCP & DRP) широко применяются и регулируются международными, национальными и отраслевыми стандартами, такими как ISO/IEC 27001 и ISO 22301:2012. Обеспечение соответствия требованиям данных стандартов при выборе дата-центра для хранения информации или при внедрении их на предприятии, гарантирует безопасность данных и непрерывность бизнес-процессов.
Тем не менее, BCM, BCP и DRP не являются тождественными управлению ИБ, которое является лишь основой для данных дисциплин. BCM начинался с резервного копирования информации, но постепенно охватил вопросы ИБ и стал целостной структурой, взглядов на методы обеспечения непрерывности бизнеса, устойчивости организации к различным сбоям, разрушениям и потерям.
Управление непрерывностью бизнеса (BCM) является важным аспектом для любой организации. Приоритетные цели и задачи BCM зависят от масштаба и сферы деятельности, и во главу угла ставится управление определенным типом или классом взаимосвязанных инцидентов.
Один из основных комплексов происшествий, рассмотриваемых в рамках BCM, это управление инцидентами или Incident management (IM). Данный уровень охватывает целый комплекс происшествий высокой и средней вероятности возникновения. Задачи и цели IM — обеспечить сохранность, доступность и целостность информации, а также отказоустойчивость оборудования.
Другим важным комплексом в рамках BCM является управление непрерывностью бизнеса и аварийным восстановлением, или Business continuity & disaster recovery management. Он направлен на предотвращение инцидентов, которые могут привести к приостановке работы всей организации или ее важнейших бизнес-процессов. По исследованию, проведенному компанией Veeam Software в 2019 году, ежегодные мировые потери от простоев приложений превышают 20 млн долларов, а по России эта цифра немного ниже — 19,8 млн долларов.
Еще одним комплексом BCM является управление чрезвычайными (кризисными) ситуациями, или Crisis & emergency management. Он ставит своей задачей предупреждение крайне редких, но катастрофических по последствиям инцидентов, таких как экологические и гуманитарные катаклизмы или инфраструктурные разрушения в границах целого региона. В подобных случаях, высокий уровень обеспечения непрерывности деятельности предприятий необходим.
Ключевым понятием в управлении непрерывностью бизнеса (BCM) выступает «инцидент», под которым понимается любое незапланированное, внезапное происшествие, событие, ведущее к остановке ключевых и критичных процессов и функций, полной потере контроля над оборудованием. Недооценка влияния инцидентов на непрерывность бизнеса может привести к драматическим последствиям.
Примером тому служит компьютерная атака на мировом уровне, случившаяся 12 мая 2017 года, когда компьютеры по всему миру были атакованы вирусом-вымогателем WannaCry. Он шифровал файлы на устройствах, а для восстановления доступа к ним требовал выкуп. Параллельно с тем, WannaCry атаковал более 200 стран, сильнее всего пострадали Россия, Украина, Индия и Тайвань, и привел к остановке работы больниц, аэропортов, заводов и банков. Экономические потери, нанесенные данной кибератакой, составили около 4 млрд долларов.
Полтора месяца спустя, инцидент повторился, но уже с другой вредоносной программой – вирусом Petya. Российские и украинские компании понесли самые масштабные потери от него, исходя из данных исследований. Внедрение и применение программ BCM позволило бы значительно сократить размеры потерь, а возможно, и вовсе избежать катастрофических происшествий.
The Impact of Catastrophes on Shareholder Value (Rory J. Knight и Deborah J. Pretty) показывает, что кумулятивный доход сверх нормы компаний, успешно восстановивших деятельность после крупномасштабной аварии, через год составляет в среднем 10%. Корпорации, не внедрившие BCM, получают те же 10% и даже 15%, но уже со знаком минус. Управление непрерывностью бизнеса является залогом сохранности вложенных владельцами и акционерами средств, а также возможности и продолжительности работы предприятия.
Внедрение системы управления непрерывностью бизнеса (BCM) начинается со стратегических этапов, связанных с планированием и определением целей. При этом используются средства риск-менеджмента (Risk Management, RM), что позволяет оценить и управлять возможными рисками на предстоящих этапах.
Внедрение системы BCM - это комплексный подход, который включает в себя освоение технических и программных средств, регламентацию действий, распределение ответственности, а также обучение персонала. Однако, самостоятельное внедрение системы BCM может быть проблематично для компании. Поэтому, наиболее эффективным решением является обращение к ИТ-экспертам, которые грамотно разработают план мероприятий и помогут воплотить проект системы в жизнь.
В итоге, внедрение BCM позволяет компаниям минимизировать риски и сохранять непрерывность бизнеса в условиях кризиса или аварийных ситуациях. Кроме того, использование BCM способствует повышению эффективности работы компании в целом.
Анализ бизнес-процессов (Business Environment Analysis, BEA) позволяет определить риски, которые могут возникнуть в зависимости от характера деятельности компании. Например, отказ в работе системы учета пациентов медицинского учреждения является менее критичным по сравнению со сбоем в работе высокотехнологичного реанимационного оборудования. При этом в телекоммуникационной компании отказ приложения для автоматизации совместной деятельности рабочих групп вероятно не остановит бизнес-процессы, однако сбой в системе биллинга приведет к затратам на финансовые потери. Таким образом, точки критичности могут быть различны для каждого типа бизнеса, и анализ бизнес-процессов позволяет выявить эти точки и определить степень их влияния на деловую активность компании.
Анализ рисков (Risk Analysis, RA) позволяет выделить зависимые и независимые от информационных технологий (ИТ) риски. После выделения и градации бизнес-процессов по важности для компании следует определить группу ИТ-зависимых бизнес-процессов. Затем необходимо проверить технические и организационные механизмы по предотвращению перебоев в работе бизнес-процессов, выделить уязвимые точки и оценить угрозы. В результате можно выделить группы рисков, которые влияют на ИТ, и классифицировать их по мере важности.
Оценка влияния на бизнес (Business Impact Analysis, BIA) основана на карте ключевых бизнес-процессов с указанием нарушений, которые могут привести к убыткам. После этого строится модель, отображающая связь между нарушениями и категориями возможных потерь, которые могут быть оценены как количественно, так и качественно. К группам потерь могут относиться: деловая репутация, рыночная стоимость, уровень операционных издержек, возврат на инвестиции, штрафные санкции из-за нарушения контрактных обязательств и др. Такой подход позволяет провести детальную оценку влияния на бизнес и определить возможные потери.
Для аналитиков имеет большое значение получение достоверной информации о финансах бизнеса и текущей ситуации в ИТ-комплексе, а также о планах его расширения.
Также необходимо провести детальный анализ информационных сервисов, связанных с бизнес-процессами и информационными потоками. Оценка возможного ущерба позволит получить полную картину бизнеса, отразив уровень критичности всех бизнес-процессов и нарушений их функционирования в соответствии с потерями.
Аудит, проводимый аналитиками перед началом сотрудничества, поможет решить все вышеперечисленные задачи. В процессе такой всесторонней оценки будут выявлены слабые места в системе информационной безопасности клиента, которые затем можно будет укрепить.
Расчет экономического эффекта (стоимости простоя бизнес-процессов) предполагает определенные допущения о вероятности возможных инцидентов в ближайшее время, что позволяет определить наиболее подходящую стратегию.
Согласно экспертам, наличие ясного плана действий в экстренных ситуациях является фундаментальным для успешной защиты бизнеса и его операционной деятельности. В этом контексте, компании необходимо определиться с так называемыми тайм-аутами и производительной мощностью для отдельных бизнес-процессов в случае ЧС в сотрудничестве с аналитиками.
Первоначально, необходимо установить допустимое время восстановления (RTO), то есть интревал вынужденного простоя, который может быть технически сведен к секундам, однако не всегда оправдывает экономические затраты. Кроме того, также нужно определить целевую точку восстановления (RPO) - временной диапазон перед наступлением ЧС, за который все данные могут быть утрачены. В настоящее время, данный интервал может быть практически равен нулю, благодаря частоте и доступности технологий резервного копирования информации.
Наконец, последним этапом является определение уровня непрерывности бизнеса (LBC) - допустимого уровня производительности в случае ЧС в процентах от режима штатной работы. Этот параметр позволяет оценить, насколько быстро и эффективно компания может восстановить свою работоспособность после возникновения нежелательной ситуации.
Таким образом, правильно определенные тайм-ауты и производительная мощность являются важными компонентами бизнес-защиты и могут значительно уменьшить риски потенциального ущерба компании в экстренных ситуациях.
Планирование является процессом, который не является единоразовым и должен постоянно поддерживаться в актуальном и соответствующем состоянии. Для этого планы регулярно тестируются и обновляются новыми данными.
Ключевым аспектом по определению стратегии непрерывности бизнеса являются безопасность сотрудников, обеспечение рабочих помещений, технических средств и необходимых материалов, доступ к критически важной информации, беспрепятственные коммуникации с партнерами, клиентами, поставщиками и подрядчиками. Каждое направление требует отдельной подстратегии с определенными параметрами анализа рисков. Обеспечение непрерывности включает три стадии: реагирование, продолжение критичных процессов при условиях ЧС и восстановление штатной работы.
Выбор организационных и технических решений определяется стратегией BCM. Определяются приоритетные цели и задачи для поддержания непрерывности бизнеса, процедуры реагирования, области распространения системы BCM, кадровые потребности и степень вовлеченности персонала в реализацию программы внедрения.
Технические и организационные системы BCM включают использование «облачных» услуг. DRaaS (Disaster-Recovery-as-a-Service) используется для защиты информации, предоставляя услугу аварийного восстановления данных в облачных корпоративных средах. Это позволяет снизить расходы при сохранении уровня безопасности на уровне стандартов индустрии. Существуют различные варианты, но все они основаны на резервном копировании ИТ-инфраструктуры или критических ее элементов.
Резервные копии ИТ-инфраструктуры создаются по расписанию, заданному в соответствии с нужными RTO и RPO, и помещаются в хранилище. Такая схема подходит для малых организаций, где непрерывность не является критичной, но важны экономия и сохранность данных.
Инфраструктура копируется полностью, изменения в непрерывном режиме переносятся в облако, извлечение и восстановление информации происходит за минуты.
Резервная облачная инфраструктура полностью идентична основной и обновления в них происходят синхронно. Восстановление возможно за несколько секунд, что делает это решение актуальным для крупных финансовых и ИТ-компаний, госсектора, а также любых организаций, где нельзя терять ни минуты на простой.
Строительство отказоустойчивых ЦОДов становится все более актуальным для бизнеса, и это может быть необходимо как для создания новых, так и для оптимизации уже существующих центров обработки данных. Этого можно достичь путем проведения комплекса мероприятий, включающих в себя строительство специализированных зданий, а также инженерных, телекоммуникационных и ИТ-инфраструктур, их автоматизацию и сервисное обслуживание.
Существует также возможность создания мобильного ЦОДа. Однако, для более простого решения данной задачи, компании могут доверить организацию ИТ-инфраструктуры опытному провайдеру.
Развитие бизнеса обычно сопровождается увеличением вычислительных мощностей и усложнением ИТ-систем, что может привести к риску нарушения непрерывности деловой активности. Именно поэтому компаниям необходим план восстановления системы после инцидента (DRP), который является частью большего плана обеспечения непрерывности бизнеса (BCP). Данный план призван обеспечить максимально быстрое восстановление работоспособности ИТ-систем, поддерживающих как критичные бизнес-процессы, так и обычные операции. BCP, в свою очередь, должен предусматривать восстановление бизнес-процессов в целом.
Для обеспечения нормального функционирования системы необходима формирование программы сопровождения и эксплуатации систем BCM, включающую меры по периодической проверке системы, а также реагированию обслуживающего персонала на возникновение инцидентов.
Наконец, встраивание процессов в корпоративную культуру играет важную роль на пути к успешному планированию восстановления после происшествий. Для этого необходимо разработать меры и осведомить персонал о мерах, принимаемых в случае возникновения угроз, а также о мерах по устранению последствий внештатной ситуации. Компетентный персонал является ключевым фактором успеха на этом этапе.
Система ВСМ (вычислительная система мониторинга) станет настоящей отправной точкой для уверенной работы предприятия в экстренных ситуациях и поможет избежать убытков. Об этом свидетельствует ряд факторов, включающих:
- Готовность организации продолжать работу в случае возникновения аварий в ИТ-системах. Благодаря ВСМ, компания будет способна быстро реагировать на непредвиденные ситуации и минимизировать их воздействие на процессы бизнеса.
- Расчет вероятности простоя информационных систем в случае внештатной ситуации и возможных убытков. Система ВСМ помогает наиболее точно оценить риски и внести в необходимые изменения, предотвращающие потери при аварийных ситуациях.
- Прохождение аудита и соответствие требованиям регулирующих органов. Введение ВСМ поможет компании выполнять стандарты и требования по безопасности данных и информационных систем.
Хотя само внедрение вычислительной системы мониторинга может оказаться непростой задачей для компании, эффективность использования ВСМ не вызывает сомнений. Финансовые, кадровые и временные ресурсы для этого необходимы, однако, применение ВСМ может помочь компании значительно экономить ресурсы в будущем.
Фото: freepik.com