Disaster Recovery: sua empresa está realmente preparada?

A maioria dos profissionais de TI sabe que um ambiente de Disaster Recovery (DR), também chamado de ambiente de contingência, é a infraestrutura que entrará em uso caso um problema grave ocorra como incêndios, enchentes, quedas de energia, erro humano ou ataques de malware/ransonware, que prejudiquem servidores ou datacenters. O ambiente de DR permitirá que a empresa se mantenha em funcionamento enquanto o problema no ambiente produtivo está sendo solucionado.

Entendido o que é um ambiente de DR, é preciso ter em mente que não é consenso entre muitos gestores o uso desse tipo de estrutura, considerando que na maior parte do tempo ele não será usado. Mas essa questão deveria ir muito além: é preciso que eles se perguntem “qual será o prejuízo que a empresa terá se ocorrer uma parada inesperada em algum sistema crítico para o negócio?”

A palavra prejuízo leva à reflexão sobre diversos aspectos. Entre eles, danos à imagem, impacto na reputação do ambiente, perda de clientes, penalidades para o fechamento de contratos, riscos de ciberataques, ausência de treinamento para uma recuperação rápida e muitos outros pesadelos que tiram o sono de qualquer diretor financeiro.

De acordo com a empresa BackBox, especializada em backup e recuperações, 50% de todos os negócios já tiveram algum desastre ruim o bastante para interromper alguma aplicação, sendo 18,5 horas a média para o tempo de inatividade de uma aplicação (downtime). A mesma empresa afirma que pequenos negócios podem enfrentar perdas de US$ 8 mil por hora, enquanto empresas médias sofrem perdas entre US$74 mil a US$90 mil por hora. Já organizações de grande porte podem contabilizar prejuízos que variam de US$700 mil a US$800 mil por hora que a aplicação crítica ficou sem funcionar.

O estudo da BackBox aponta que cerca de 81% das paralisações duram pelo menos um dia e apenas 35% das pequenas empresas possuem planos de recuperação contra desastres. Impressiona o fato de que 75% das companhias pesquisadas informaram que seus planos contra paradas inesperadas (desastres) são inadequados.

O relatório “The State Of Disaster Recovery Preparedness 2017”, realizado em conjunto pela consultoria global Forrester Research e Disaster Recovery Journal, apresenta diversos estudos, envolvendo estratégias para Continuidade de Negócio (BC-Business Continuity) e Recuperação de Desastres (DR-Disaster Recovery). Com base em entrevistas com 73 tomadores de decisão, ele revelou que 45% dos entrevistados não estão contentes com suas estratégias e sentem-se inseguros.

Se realmente uma falha em seus sistemas críticos ocorrer estará em risco não só o impacto nos negócios, mas a reputação e a carreira de todos os responsáveis. A mesma pesquisa aponta que diversos motivos foram revelados para a criação de um ambiente DR, entre eles competitividade e necessidade de permanecer online, motivos legais, custos das próprias empresas paradas e elevação de riscos naturais ou riscos causados pelo homem.

Independentemente do motivo, desenvolver uma estratégia para a contratação de um ambiente de contingência é vital para a sustentabilidade de qualquer empresa. Mas se a justificativa for custos, basta avaliar o comparativo entre os valores que serão investidos para a recuperação e os prejuízos de uma parada inesperada em um ambiente crítico. Claramente este último serão superiores à construção de um ambiente que garanta a continuidade do negócio. É esta conta que deve ser feita pelos responsáveis pela infraestrutura do negócio para levar essa visão aos C-Levels e CEO.

Imagine que a contratação do ambiente DR seja prioritária e aprovada pela diretoria. É importante destacar que frequentemente um ambiente de Backup é confundido com um ambiente de DR, o que pode trazer sérias complicações, considerando que causa uma “falsa” sensação de continuidade, que não irá se estabelecer.

Backup é a cópia de dados em um disco, fita ou em um ambiente de cloud e o retorno dessa informação em caso de necessidade pode ser muito longo e o tempo cíclico para elaborar a atualização dos dados tende a ser muito longo. Outro ponto importante é o baixo uso de automação, além de grande carga de horas da equipe de TI para guiar a recuperação do ambiente produtivo.

Considerando os conceitos associados a um ambiente DR, o tempo entre replicações ou atualização das informações é chamado de Recovery Point Objective (RPO) e que o tempo para recuperar as informações e ativar o ambiente ou recuperar a aplicação prejudicada é chamado de Recovery Time Objective (RTO). Nem sempre eles são compreendidos pelas empresas e o resultado é um projeto incompleto ou confuso. É importante destacar que:

 

Não existem melhores práticas para serem usadas, tudo vai depender do negócio de cada empresa. Em um ambiente que integra contingência, é indispensável a presença de mecanismos para automação (estejam eles ligados à replicação de informações ou à orquestração) para que as máquinas e bancos de dados sejam ligados na ordem correta. 

Além de todos esses cuidados, é necessário ter uma equipe bem treinada, sendo apoiada por um bom run book – documento com a sequência de procedimentos e rotinas que devem ser seguidas por cada equipe envolvida no ambiente DR.

Tome como exemplo um ambiente produtivo virtualizado que necessita ser protegido com a presença de uma estrutura de DR, operando em um data center remoto. Quais são as atividades recomendadas para a construção desse ambiente?

Primeiramente, deve-se mapear todas as aplicações realmente críticas para o negócio, juntamente com o impacto caso elas parem de funcionar inesperadamente. Depois, é importante analisar se as aplicações identificadas estão devidamente configuradas, sem a configuração excessiva de disco, processamento ou memória RAM.

Com a validação do tamanho correto das aplicações, é necessário avaliar o impacto financeiro. Quanto tempo o negócio aceita ficar com suas principais aplicações sem atividade? O resultado dessa análise é a definição do RPO e RTO e em seguida partir para a criação do run book.

 

O ponto mais relevante para o sucesso desse projeto são as pessoas. A seguir pontos vitais para uma estratégia bem-sucedida:

  • Nomear uma equipe multidisciplinar para a elaboração das atividades quando for decretado o uso do ambiente DR. É importante considerar não só membros da equipe técnica, mas também da diretoria e do jurídico. Deve-se nomear uma pessoa para representar a empresa com o objetivo de elaborar comunicados aos jornalistas e à mídia eletrônica, reduzindo as perdas na imagem da instituição.
  • Capacitar e treinar a equipe para elaborar simulações, validando as atividades contidas com testes de DR. O resultado dos testes deve gerar um relatório com todos os pontos de melhoria.
  • Com os resultados das simulações, a equipe deve elaborar testes de DR duas vezes no ano. O resultado dos testes deve gerar um relatório apontando as evidências de cada atividade, proporcionando auxílio ao processo de auditoria ou aos investidores da empresa.

Os dois primeiros pontos possuem o objetivo de reduzir custos do ambiente de DR. Este ambiente deve impactar minimamente a equipe envolvida, sem abrir mão de transparência, simplicidade operacional e  suporte de uma equipe externa devidamente capacitada sempre que necessário.

 

 

Denis Souza

Analista de Produtos no UOL DIVEO, especialista em segurança de dados. Formação em Engenharia Elétrica pela Universidade Federal da Paraíba, com experiência de mais de 17 anos na área de tecnologia da informação, sendo destes 9 anos como Engenheiro de Redes de Computadores e 4 anos aplicados como Arquiteto de Solução para ambientes Data Center.