sua empresa tem um plano de desastre

Sua empresa está preparada para o próximo desastre?

A palavra desastre está associada a perdas, que podem ser de diversas naturezas e proporções. Quando alguém na Pixar acidentalmente executou um comando de exclusão no local que armazenava o filme Toy Story 2, um ano de trabalho foi apagado. O sistema de backup falhou e… adivinhem! Não havia mais filme.

 

Foi um verdadeiro desastre. Mas os desastres podem ocorrer de diversas maneiras: queda de energia, erro humano, falhas operacionais, ataques maliciosos e podemos mencionar até mesmo os desastres naturais, que muitas vezes fogem do nosso controle. Uma coisa é certa: em todos os casos, ter um plano preventivo é fundamental para anular seus efeitos ou, ao menos, minimizá-los.

 

Sua empresa tem um plano de contingência?

Segundo a edição mais recente do Relatório Global de Fraude & Risco, publicado anualmente pela consultoria Kroll, aproximadamente uma a cada quatro empresas (23%) sofreu nos últimos 12 meses pelo menos uma violação de sistema resultando em perda de dados de clientes ou funcionários. O problema é o segundo maior fator de vulnerabilidade – atrás apenas da infestação por vírus/worms – e o quarto mais recorrente no mundo empresarial.

 

O estudo entrevistou cerca de 550 executivos dos mais diferentes setores em todo o mundo que são responsáveis ou que influenciam diretamente as decisões quanto a programas e estratégias de segurança e combate a fraudes.

 

A segurança cibernética é a mais ameaçada. Ataques, roubos ou perda de informações sigilosas foram reportados por 85% dos respondentes, a maior taxa de incidência no mesmo período. Chama também a atenção o fato de que a maioria desses eventos se dá por vulnerabilidade de software, citado por 26% dos participantes.

 

Muitas empresas ainda adotam backups lentos, destinado à recuperação de ambiente e máquinas individuais – o que não representa uma solução abrangente de recuperação de aplicação e dados. Ou ainda, mantém DRs internos com alto custo e investimentos e sem a possibilidade de aumentar rapidamente sua capacidade. Além disso, em caso de desastre, a proteção fica comprometida.

 

Recuperação de desastre como serviço (DRaaS)

Atualmente, já chegaram ao mercado soluções de DRs com foco na recuperação de desastres de nível corporativo, sem a necessidade de investimento de capital. São soluções que permitem RPO (Recovery Point Objetive) de 15 minutos a até 24h, com implementação simples e realizada em poucos minutos. Com apenas um clique, é possível replicar e salvar as informações.

Simples, rápido, seguro, econômico e implementado por especialistas: essas são as características das soluções DRaaS – recuperação de desastres como serviço.

 

Veja mais sobre os benefícios desta modalidade:

  • Facilidade de uso da ferramenta
  • Recursos disponíveis da ferramenta
  • Custo inferior a soluções de DR tradicionais
  • Suporte dedicado e monitoramento
  • Planejamento e execução de testes de desastre

 

Com uma replicação assíncrona, simples e segura, o DRaaS é uma maneira fácil para iniciar sua jornada para a nuvem e começar a se beneficiar de uma TI ágil e escalável.

 

O UOL DIVEO tem atendido o mercado corporativo com serviços que permitem a continuidade dos negócios inclusive em casos de infecção por malwares / ransomwares.

Quer debater mais sobre abordagens para recuperação de desastre? Entre em contato conosco e compartilhe com a gente suas dúvidas.

 

Ambiente de DR: sua empresa está realmente preparada?

Como a maioria dos profissionais de TI sabem, ambiente de contingência ou ambiente de DR (Disaster Recovery) é a infraestrutura que entrará em uso caso um problema grave ocorra por causa de incêndios, enchentes, quedas de energia, erro humano ou caso um malware/ransonware prejudique os servidores ou um datacenter. O ambiente de DR  permitirá que a empresa se mantenha em funcionamento enquanto o problema no ambiente produtivo está sendo solucionado.

Entendido o que é um ambiente de DR, precisamos ter em mente que não é consenso entre muitos gestores se devemos usar ou não usar um ambiente de DR, já que na maior parte do tempo ele não será usado. Mas esta não é a pergunta correta a ser feita. Eles deveriam estar se perguntando “qual será o prejuízo que a minha empresa terá se tivermos uma parada inesperada em algum sistema crítico para o negócio?

A palavra prejuízo neste texto nos leva a refletir sobre diversos aspectos. Dentre eles podemos citar danos à imagem, impacto na reputação do ambiente, perda de clientes, penalidades para o fechamento de contratos, riscos de ciberataques, ausência de treinamento para uma recuperação rápida e muitos outros pesadelos que tiram o sono de qualquer diretor financeiro.

De acordo com a empresa BackBox, especializada em backup e recuperações, 50% de todos os negócios já tiveram algum desastre ruim o bastante para interromper alguma aplicação, sendo 18,5 horas a média para o tempo de inatividade de uma aplicação (downtime). A mesma empresa afirma que pequenos negócios podem enfrentar perdas de US$ 8.000,00 por hora, enquanto empresas médias sofrem perdas entre US$74,000 a US$90,000 por hora. Já empresas de grande porte podem ter perdas que variam de US$700,000 a até US$800,000 por hora que a aplicação crítica ficou sem funcionar.

O estudo da BackBox aponta que cerca de 81% das paralizações duram pelo menos um dia e apenas 35% das pequenas empresas possuem planos de recuperação contra desastres. É impressionante observar que 75% das empresas pesquisadas informaram que seus planos contra paradas inesperadas (desastres) são inadequados. Comecei a me questionar quais passos estariam sendo desenhados de maneira errada?

Insatisfeito com os números, decidi examinar o que revelava o relatório “The State Of Disaster Recovery Preparedness 2017”, feito com a participação da Forrester Research e  o Disaster Recovery Journal. O relatório mostra diversos estudos, envolvendo estratégias para Continuidade de Negócio (BC-Business Continuity) e Recuperação de Desastres (DR-Disaster Recovery). O relatório entrevistou 73 tomadores de decisão, mostrando que:

Note que 45% (34%+11%) dos entrevistados não estão contentes com suas estratégias e sentem-se inseguros. Se realmente uma falha em seus sistemas críticos ocorrer estará em risco não só o impacto nos negócios, mas a reputação e a carreira de todos os responsáveis.

A mesma pesquisa revela que diversos motivos foram revelados para a criação de um ambiente para DR dentre eles podemos citar: competitividade e necessidade de permanecer online, motivos legais, custos das próprias empresas paradas, elevação de riscos naturais ou riscos causados pelo homem, elevação da disponibilidade de uma aplicação crítica, responsabilidade legal, ambiente de DR identificado como prioridade máxima pela diretoria.

Independente do motivo, desenvolver uma estratégia para a contratação de um ambiente de contingência é inevitável para qualquer empresa. Mas se a justificativa for custos, basta olharmos os valores que serão gastos com os prejuízos de uma parada inesperada em um ambiente crítico. Claramente estes custos são superiores do que os custos da grande maioria dos ambientes de contingência. É esta conta que os responsáveis pelo negócio de uma instituição devem fazer, sendo o papel dos gerentes de infraestrutura primordial para que esta visão seja considerada pela diretoria.

Ok, vamos assumir que a contratação do ambiente de DR é prioritária e foi aprovada pela diretoria, é importante destacar que frequentemente um ambiente de Backup é confundido com um ambiente de DR e isto pode trazer sérias complicações.

Pode-se dizer que Backup é a cópia de dados em um disco, fita ou em um ambiente de Cloud e o retorno desta informação em caso de necessidade pode ser muito longo e o tempo cíclico para elaborar a atualização dos dados tende a ser muito longo. Outro ponto importante é o baixo uso de automação, além de grande carga de horas da equipe de TI para guiar a recuperação do ambiente produtivo. Resumindo: muito suor e elevada possibilidade para grandes perdas financeiras.

Se imaginarmos os conceitos ligados a um ambiente de DR, veremos que o tempo entre replicações ou atualização das informações é chamado de RPO (Recovery Point Objective) e que o tempo para recuperar as informações e ativar o ambiente ou recuperar a aplicação prejudicada é chamado de RTO (Recovery Time Objective). Nem sempre isto é compreendido pelas empresas e o resultado é um projeto incompleto ou confuso. Importante destacar que:

 

“Não existem melhores práticas para serem usadas, tudo vai depender do negócio de cada empresa.”

 

Em um ambiente envolvendo o conceito de Disaster Recovery (DR) veremos que é indispensável a presença de mecanismos para a automação, estejam eles ligados a replicação de informações ou estejam eles ligados a orquestração para que as máquinas e bancos de dados sejam ligados na ordem correta.  Resumindo: temos aqui baixíssimo suor usando ferramentas para obter mínimas perdas financeiras.

Com isto em mente, muitas empresas acreditam que é suficiente, mas isto é um grande engano. É necessário ter uma equipe bem treinada, sendo apoiada por um bom run book. Um run book é um documento com a sequência de procedimentos e rotinas que devem ser seguidas por cada equipe envolvida no ambiente de DR.

Para finalizar, vamos imaginar um ambiente produtivo virtualizado que necessita ser protegido com a presença de uma estrutura de DR operando em um Data Center remoto. Quais as atividades recomendadas para a construção deste ambiente?

  • Primeiro deve-se mapear todas as aplicações realmente críticas para o negócio, juntamente com o impacto caso estas aplicações parem inesperadamente o seu funcionamento;
  • Depois é importante analisar se as aplicações identificadas estão devidamente configuradas, sem a configuração excessiva de disco, processamento ou memória RAM;
  • Com a validação do size correto das aplicações, é necessário analisar o impacto financeiro. Quanto tempo o negócio aceita ficar com suas principais aplicações sem atividade? O resultado desta análise é a definição do RPO e RTO;
  • Definidos o RTO e RPO, basta criar o run book;
  • O quinto ponto é o mais importante, estando ele centrado em pessoas. Sendo necessário:

I. Nomear uma equipe multidisciplinar para a elaboração das atividades quando for decretado o uso do ambiente de DR. Importante considerar não só membros da equipe técnica, mas também membros da diretoria ou da equipe jurídica. Deve-se nomear uma pessoa que será a representação da empresa para elaborar comunicados aos jornalistas e a mídia eletrônica, reduzindo as perdas na imagem da instituição;

II. Capacitar e treinar a equipe para elaborar simulações validando as atividades contidas com testes de DR. O resultado dos testes deve gerar um relatório com todos os pontos de melhoria;

III. Com os resultados das simulações, a equipe deve elaborar testes de DR duas vezes no ano. O resultado dos testes deve gerar um relatório apontando as evidências de cada atividade feita proporcionando auxílio ao processo de auditoria ou aos investidores da empresa;

Tenha em mente que as atividades “a” e “b” possuem o objetivo de reduzir custos do ambiente de DR. Este ambiente deve impactar minimamente a equipe envolvida, sem abrir mão de transparência, simplicidade operacional e deve-se ter suporte de uma equipe externa devidamente capacitada sempre que necessário.

 

Denis Souza

 

Links Recomendados:

 

4 fatores importantes sobre nuvem e continuidade de negócios que você precisa saber agora mesmo

Os departamentos de TI estão sob constante pressão para disponibilizar novas tecnologias que permitam que a empresa mantenha dados críticos, aplicações, processos seguros e em funcionamento 24 x 7.

Some a isto ofertas de nuvem que permitem que a empresa terceirize parte da responsabilidade pela gestão e garantia de segurança e confiabilidade e temos o ambiente perfeito para a continuidade de negócios e recuperação de desastres ser deixada para segundo plano frente aos desafios do dia-a-dia de gerenciamento de TI.

Ao utilizar serviços baseados na nuvem é fácil perder de vista os principais riscos de continuidade de negócios e por isso listamos aqui 4 pontos importantes que você deveria ter em mente enquanto utiliza cloud computing para sua empresa.

 

1. Continuidade de negócios é mais que recuperação de desastres

A indústria é permeada com termos como “continuidade de negócios” e “recuperação de desastres”, o que pode torná-lo confuso para os líderes empresariais. Mesmo o termo “recuperação de desastres” leva a maioria dos profissionais de TI para o caminho errado.

Soluções de DR são normalmente utilizadas para “cenários de desastres” e “desastres” relacionados a causas naturais não são a causa mais comum de interrupção de TI.

Falhas de software, hardware e erro humano são as principais categorias responsáveis ​​por algum tipo de interrupção no negócio.

As empresas precisam de parar de pensar apenas em desastres e começar a considerar maneiras de evitar interrupções.

 

2. As nuvens nem sempre incluem alta disponibilidade e / ou garantia de continuidade de negócios

A todo momento o serviço de nuvem é entregue a partir de um Data Center.

Se esse Data Center tiver problemas, o fornecedor de nuvem pode mover suas cargas de trabalho rapidamente para um novo Data Center?

Sempre verifique como a empresa lida com isto para poder decidir como se preparar para isto.

Muitas vezes os players de nuvem pública disponibilizam maneiras de garantir a continuidade de negócios utilizando replicação de dados em Data Centers localizados em regiões distintas.

Fique atento: este recurso não é padrão na oferta de nuvem e precisa ser configurado individualmente na maioria dos casos.

 

3. A localização dos servidores garante mais do que latência

A nuvem não é um lugar mágico – onde seus arquivos são armazenados fisicamente realmente importa.

A localização dos servidores da nuvem pode afetar a velocidade de acesso e preços, mas é um erro pensar em localização apenas por este prisma.

Quando falamos em continuidade de negócios, localização em região diferente da principal e eventualmente o uso de fornecedores distintos realmente é algo a ser considerado.

 

4. Backup nem sempre é parte da oferta padrão

Fornecedores de nuvem nem sempre oferecem backup de dados armazenados dentro das métricas necessárias para o negócio de sua empresa.

Alguns fornecedores sequer oferecem backup dos dados como parte padrão de sua oferta.

Por padrão assuma que o fornecedor não oferece garantias e verifique com o mesmo como ele lida com backup, antes de definir um plano para isto.

 

Continuidade de negócios é um tema importante para você?

Se você quiser discutir os cenários de continuidade de negócios, com garantia de alta disponibilidade, segurança e conectividade integradas às ofertas em nuvem, entre em contato conosco pelo telefone (11) 3092 6161 ou pelo nosso formulário de contato.

 

Indisponibilidade de aplicações: Qual é o prejuízo para a sua empresa?

Passei alguns anos da minha carreira construindo projetos em ambiente de Data Center requisitados por diversas empresas de setores industriais distintos e muitas vezes percebi que o tema indisponibilidade e seus efeitos para o negócio como um todo não eram abordados com o aprofundamento necessário ou eram esquecidos ao se “espremer” por redução de custos. Lembro que em muitas reuniões tive que revelar este tema e perceber que era tratado com certa surpresa.

Se observarmos o relatório publicado pela Veeam (2016 Veeam Availability Report) feito com 1.140 tomadores de decisão de TI de 24 países, veremos claramente que as necessidades da corporação estão bem distantes de serem atendidas, e que as empresas de uma forma mais macro, precisam fazer da disponibilidade uma prioridade estratégica ou estarão arriscando a perda de até 16 milhões de dólares por ano em receita. Para ficar mais claro, vamos comparar os dados de 2014 com as informações obtidas em 2016:

  • O tempo de inatividade anual não planejado foi elevado:
    • 1,4 a 1,9 hora para aplicações essenciais.
    • 4 a 5,8 horas para aplicações não essenciais.
    • O número médio de eventos aumentou (de 13 para 15 eventos).
  • O custo médio anual do tempo de inatividade para uma organização pode chegar até US$ 16 milhões (US$ 6 milhões a mais que 2014).

É sempre importante destacar que o preço de uma indisponibilidade para um ambiente de produção pode ser mais impactante do que se pode imaginar. Observe a figura seguinte:

 

blog56546

 

Veja que mais da metade dos entrevistados (68%) revela que a confiança na organização pode ser afetada e 62% afirma que a confiança na marca pode sofrer danos. Os dados revelam que foram notadas quedas nos preços das ações, juntamente com a presença de processos judiciais. São dados que precisam e devem ser levados em consideração.

Imaginemos este acontecimento em empresas que operam com bolsa de valores ou com compras pela internet. É inaceitável imaginar que os consumidores de hoje aceitariam esperar 1 minuto para um site retornar ao funcionamento com o objetivo de concluir a sua compra. Questionar suas instituições se estão à altura deste desafio é uma tarefa que todos os líderes de negócio deveriam fazer.

Outro ponto importante para ser avaliado está centrado na causa do e nos efeitos do temido downtime (quedas funcionais) de uma aplicação. Quase metade dos entrevistados (48%) reportaram que suas organizações tiveram repetitivas experiências com quedas causadas pelo uso de upgrades na aplicação ou problemas gerados por correções feitas no sistema operacional. Aqui vale o questionamento: onde estão os ambientes para homologação e onde estão as metodologias para aplicação das correções em ambientes com cluster balanceados por cargas de trabalho?

Observe que a presença de um balanceamento de cargas é um importante aliado para corrigir um grupo de aplicações que apresentou algum tipo de problema. Outro elemento importantíssimo é o teste de backup. Somente 41% dos entrevistados afirmaram que usam seus backups como parte dos testes de recuperação e ainda assim, este backup possui uma recuperação em dias relativamente pequena. No Brasil, a média foi de 11 dias de dados recuperados por mês, na Alemanha 12 dias e na Itália 14.

Para concluir, é importante termos em mente que o desenho de qualquer projeto, seja ele físico ou virtual, deve considerar a sobrevivência da aplicação mesmo em condições de falhas. Claro que o desafio é sempre alinhar custos com perdas financeiras causadas pela ausência funcional da aplicação. Acredito que os números apresentados pela Veeam mostram que existe um longo caminho a ser trilhado, mas que existe solução se pensarmos estrategicamente com cuidado.

 

Denis Souza

 

Links indicados:

https://go.veeam.com/2016-availability-report-latam-br.html

http://convergecom.com.br/tiinside/home/internet/19/02/2016/indisponibilidade-de-aplicacoes-gera-prejuizo-de-us-16-milhoes-por-ano-as-empresas/

http://computerworld.com.br/brasileiras-perdem-us-18-milhoes-com-indisponibilidade-de-aplicacoes

monitoramento

Monitoração: você irá fracassar na escolha de uma solução.

Não quero assustá-lo, mas posso garantir que você irá fracassar na escolha da solução para monitorar o ‘negócio’ da sua empresa. Esta afirmação pode parecer um pouco arrogante, mas acredite, ela é verdadeira.

A explicação para isto é simples. Não existe solução pronta que irá atender a sua necessidade!

Siga o seguinte raciocínio:

  1. Quantas empresas estão focadas em sua área de atuação?
    Centenas, milhares talvez.
  2. Dentre estas empresas, quantas atuam em seu segmento de mercado?
    Dezenas, centenas talvez.
  3. Quantas destas possuem as mesmas regras de negócio?
    Algumas poucas talvez.
  4. E quantas possuem a mesma estratégia adota pela sua Empresa?
    Provavelmente nenhuma.
  5. Os processos de gestão são iguais?
    Com certeza não.

Com apenas 5 perguntas em uma visão macro ficou claro que mesmo empresas que atuam no mesmo nicho de mercado nunca terão exatamente a mesma ‘personalidade’. A ‘personalidade’ da empresa é única.

Por isto lhes afirmo, não existe solução pronta para a sua necessidade.

Feche seus ouvidos para os discursos decorados oferecidos pelos fornecedores sobre ferramentas perfeitas. A verdadeira solução de monitoração não será entregue por nenhuma ferramenta, ela está baseada em um conjunto de ferramentas integradas trabalhando em busca de um propósito único. Atender sua necessidade.

Justamente por isto não tenho como lhe indicar a melhor ferramenta para monitorar o negócio da sua empresa, mas posso te mostrar o caminho que você deve seguir para conseguir arquitetar a solução perfeita para a sua necessidade.

Em uma visão macro, para a sua solução de monitoração ser bem sucedida ela deve preocupar-se com as seguintes camadas:00

  • Escolher a Ferramenta de Monitoração: o único objetivo desta camada é realizar a coleta e processamento da informação, sendo que estas atividades não necessariamente precisam ser realizadas pela mesma ferramenta. Sua solução poderá contar com ‘n’ ferramentas de coleta e processamento, cada uma preparada para atender necessidades específicas;
  • Garantir Integração com a Ferramenta de Incidentes: é fundamental que todo alarme gerado pela monitoração reflita em um incidente na fila da Operação. O que muitos ignoram é a qualidade da informação disponibilizada no Incidente. Por isto é fundamental incluirmos nesta etapa as análises do Catálogo de Serviços e do CMDB;
  • Realizar Analytics dos Eventos: todos os eventos gerados devem ser indexados em uma ferramenta de analytics. Esta camada lhe trará inteligência para entender e trabalhar os dados coletados. Alguns exemplos interessantes do que pode ser extraído da camada de analytics são análises preditivas, indicadores operacionais e indicadores gerenciais;
  • Apresentar Métricas de Consumo: dar visibilidade à Operação de como está o comportamento dos ICs que suportam o ‘negócio’ da sua empresa é fundamental para a administração do dia a dia e para a análise de troubleshooting em momentos de crises;
  • Correlacionar Eventos: em muitas soluções de monitoração a correlação de eventos se resume em apontar as dependências entre ICs, quando na verdade o maior ganho desta camada é entender o comportamento do seu ambiente e filtrar as informações que realmente geram valor à Operação;
  • Provisionar novos Equipamentos: realizar o fluxo de provisionamento através de automação lhe permite garantir que todos ICs do seu ambiente possuem monitoração. Sempre que possível elimine atividades manuais, assim você irá mitigar consideravelmente falhas humanas no processo de monitoração;
  • Integrar todas as Camadas: o maior valor nesta solução é trabalhar com camadas independentes e não buscar que uma única ferramenta atenda a todas as camadas como um ‘monobloco’. Hoje em dia existe uma tendência muito forte de ferramentas se especializarem em determinados casos de usos. Além de ganharmos em qualidade no serviço prestado, teremos flexibilidade para montar ou alterar nossa solução. Para que isto ocorra é necessário desenvolver a integração que garanta os fluxos de comunicação e as regras de negócio entre cada camada.

Reflita sobre como sua solução de monitoração está atuando em cada uma das camadas citadas acima.

Nos próximos posts irei detalhar cada uma destas camadas, abordando a estratégia de implantação e cases que exemplificam o ganho real no dia a dia da Operação.