Indisponibilidade de aplicações: Qual é o prejuízo para a sua empresa?

Passei alguns anos da minha carreira construindo projetos em ambiente de Data Center requisitados por diversas empresas de setores industriais distintos e muitas vezes percebi que o tema indisponibilidade e seus efeitos para o negócio como um todo não eram abordados com o aprofundamento necessário ou eram esquecidos ao se “espremer” por redução de custos. Lembro que em muitas reuniões tive que revelar este tema e perceber que era tratado com certa surpresa.

Se observarmos o relatório publicado pela Veeam (2016 Veeam Availability Report) feito com 1.140 tomadores de decisão de TI de 24 países, veremos claramente que as necessidades da corporação estão bem distantes de serem atendidas, e que as empresas de uma forma mais macro, precisam fazer da disponibilidade uma prioridade estratégica ou estarão arriscando a perda de até 16 milhões de dólares por ano em receita. Para ficar mais claro, vamos comparar os dados de 2014 com as informações obtidas em 2016:

  • O tempo de inatividade anual não planejado foi elevado:
    • 1,4 a 1,9 hora para aplicações essenciais.
    • 4 a 5,8 horas para aplicações não essenciais.
    • O número médio de eventos aumentou (de 13 para 15 eventos).
  • O custo médio anual do tempo de inatividade para uma organização pode chegar até US$ 16 milhões (US$ 6 milhões a mais que 2014).

É sempre importante destacar que o preço de uma indisponibilidade para um ambiente de produção pode ser mais impactante do que se pode imaginar. Observe a figura seguinte:

 

blog56546

 

Veja que mais da metade dos entrevistados (68%) revela que a confiança na organização pode ser afetada e 62% afirma que a confiança na marca pode sofrer danos. Os dados revelam que foram notadas quedas nos preços das ações, juntamente com a presença de processos judiciais. São dados que precisam e devem ser levados em consideração.

Imaginemos este acontecimento em empresas que operam com bolsa de valores ou com compras pela internet. É inaceitável imaginar que os consumidores de hoje aceitariam esperar 1 minuto para um site retornar ao funcionamento com o objetivo de concluir a sua compra. Questionar suas instituições se estão à altura deste desafio é uma tarefa que todos os líderes de negócio deveriam fazer.

Outro ponto importante para ser avaliado está centrado na causa do e nos efeitos do temido downtime (quedas funcionais) de uma aplicação. Quase metade dos entrevistados (48%) reportaram que suas organizações tiveram repetitivas experiências com quedas causadas pelo uso de upgrades na aplicação ou problemas gerados por correções feitas no sistema operacional. Aqui vale o questionamento: onde estão os ambientes para homologação e onde estão as metodologias para aplicação das correções em ambientes com cluster balanceados por cargas de trabalho?

Observe que a presença de um balanceamento de cargas é um importante aliado para corrigir um grupo de aplicações que apresentou algum tipo de problema. Outro elemento importantíssimo é o teste de backup. Somente 41% dos entrevistados afirmaram que usam seus backups como parte dos testes de recuperação e ainda assim, este backup possui uma recuperação em dias relativamente pequena. No Brasil, a média foi de 11 dias de dados recuperados por mês, na Alemanha 12 dias e na Itália 14.

Para concluir, é importante termos em mente que o desenho de qualquer projeto, seja ele físico ou virtual, deve considerar a sobrevivência da aplicação mesmo em condições de falhas. Claro que o desafio é sempre alinhar custos com perdas financeiras causadas pela ausência funcional da aplicação. Acredito que os números apresentados pela Veeam mostram que existe um longo caminho a ser trilhado, mas que existe solução se pensarmos estrategicamente com cuidado.

* Denis Augusto Araújo de Souza, Analista de Produtos do UOLDIVEO. Autor da série de livros Tempestade Hacker, publicada pela Amazon.com.br.

Tags: Veeam, indisponibilidade, backup, tempo de inatividade, perda financeira.

 

Links indicados:

https://go.veeam.com/2016-availability-report-latam-br.html

http://convergecom.com.br/tiinside/home/internet/19/02/2016/indisponibilidade-de-aplicacoes-gera-prejuizo-de-us-16-milhoes-por-ano-as-empresas/

http://computerworld.com.br/brasileiras-perdem-us-18-milhoes-com-indisponibilidade-de-aplicacoes

Facilitando sua vida com o Splunk

Você é um Coordenador do time de Operações e reclama que não tem uma ferramenta prática que dê visibilidade para as tarefas do dia-a-dia ou dos servidores dos Data Centers? Ou é um Gerente fanático por KPIs?! Já sei, é um sysadmin esperto e quer saber de maneira fácil como está a saúde dos servidores que gerencia, de preferência em tempo real? Enfim, não importa a sua função ou cargo que ocupa, se você quer uma plataforma de big-data para pesquisar, monitorar e analisar dados de máquina então deve conhecer o Splunk.

 

Splunk, uma plataforma de Inteligência Operacional.

(Figura 1: Diagrama - Inteligência Operacional)
(Figura 1: Diagrama – Inteligência Operacional)

 

Inteligência Operacional? O que é isso?!

Um conjunto de métodos e tecnologias para gerar uma nova forma de visibilidade operacional, usando a TI para descobrir insights para o negócio.

 

Dados da máquina contêm os registros definitivos das atividades e comportamentos de seus clientes, usuários, transações, aplicativos, sistemas e redes.

  • São gerados em todos os lugares: aplicações, servidores, dispositivos de rede, logs, feeds RSS, mídias sociais, dispositivos móveis, dados meteorológicos, dados de GPS e muito mais.
  • É dinâmico e está em todos os lugares: em sua rede local, na nuvem, sistemas de SaaS, data centers globais etc.
  • São massivos em escala, difíceis de capturar e quase nunca usados estrategicamente.

As organizações devem aprender a capturar de forma eficaz, armazenar, correlacionar e analisar os dados gerados por máquinas para ganhar Inteligência Operacional.

Como o Splunk colabora com isso:

  • Indexando dados, executando pesquisas em fluxos de dados em real-time;
  • Extraindo campos dando sentido aos dados de máquina em tempo de pesquisa;
  • Convertendo Resultados de pesquisas em alertas programados;
  • Criando dashboards personalizados a partir de qualquer pesquisa ou correlação;
  • Enriquecendo a análise correlacionado diversas fontes de dados da empresa;
  • Reconhecendo eventos importantes e alertas de sistemas para ajudar na tomada de decisão.

(Texto traduzido).

 

No fim do dia o que, de fato, consigo fazer com essa ferramenta tão interessante? Com vontade e um pouco de criatividade as alternativas de respostas para essa pergunta tendem ao infinito.

Vamos a alguns exemplos práticos pelos quais utilizo diariamente. Para melhor ilustrar, criei alguns Dashboards:

 

Visualização real-time de eventos gerados através do Sistema de monitoração:

(Figura 2: dash de Monitoração)
(Figura 2: dash de Monitoração)

Nesse dashboard consigo acompanhar de forma bem prática como anda a saúde dos ambientes, com termômetro por equipe, linha do tempo por tipo de alarme/sintoma, região/data-center e por último uma visualização das 10 maiores flapadas de eventos entre Crítico / OK nas últimas 4 horas.

Acompanhamento de equipe

(Figura 3: KPIs de Atendimentos)
(Figura 3: KPIs de Atendimentos)

 

Estes são apenas alguns exemplos. Utilizo até mesmo para acompanhar o crescimento vegetativo do uso de licenças de usuários do Sistema de Service Desk, sendo fonte de informação para definição do Orçamento do ano seguinte em relação aquisição de novas licenças.

Certo dia utilizei para fazer uma análise em um arquivo de texto (extraído do Excel) com uma lista de e-mails. O objetivo foi encontrar padrões para aplicar uma regra de bloqueio de cadastro.

(Figura 4: usando a aba “Patterns”)
(Figura 4: usando a aba “Patterns”)

No exemplo da figura 4, foi utilizada a aba Patterns, pouco explorada por nossos colegas nas pesquisas e investigações; recomendo consultar a documentação (observe o link para a doc no canto direito) para entender um pouco mais a respeito.

Com tantos recursos esse tal de Splunk® deve custar uma fortuna, afinal, com ele consigo fazer “miséria”, certo?! Errado meu caro. Você pode começar a “brincar” utilizando a licença Free em seu próprio desktop (vide figura 4 – localhost) ou em algum servidor, coletando algumas métricas de um Domain Controller ou do Exchange corporativo de uma pequena empresa, por exemplo; a limitação da licença free é indexar 500MB/dia. Lembre-se esse volume é diário e se você indexar dados por 1 ano terá mais de 178GB de dados históricos para analisar; ou seja, embora não seja muito, conseguirá resolver questões para pequenos ambientes de TI; e o melhor – de graça.  Importante mencionar que acima de 500MB/dia é necessário adquirir a licença Enterprise com custos variados por GB/dia.

Neste ponto você está se perguntando: O que fazer para começar a utilizar o Splunk? Bom, seguem algumas dicas.

Há algumas instâncias do Splunk® no UOLDIVEO, você também poderá baixar e instalar na sua máquina pessoal clicando aqui (http://www.splunk.com/pt_br/download.html). Nas instâncias corporativas, basta se autenticar usando seu usuário corporativo (na máquina local os dados de acesso são criados por você), após se autenticar, clique no App padrão “Search & Reporting”, então aparecerão algumas guias, com a guia “Search” aberta por padrão conforme figura abaixo.

(Figura 5: Aba Search)
(Figura 5: Aba Search)

Observe na figura 5 que marquei algumas informações que considero importantes. Ao lado da pesquisa você define o tempo retroativo da busca da mesma e pode ser “All time” (padrão) podendo variar até o instante mais recente possível, executando em determinados índices no modo Real-time (on-line);

Dica: mude para um período curto para que o resultado de sua pesquisa seja mais rápido.

Conforme você constrói sua query aparece abaixo uma caixa de ajuda com o Matching searches e o Command history, para facilitar sua vida mostrando sugestões de como completar a query.

Do lado direto da mesma caixa de ajuda encontrará uma breve descrição do comando utilizado, alguns exemplos e um link que utilizo com frequência; Help, clicando neste link irá abrir a documentação online do Splunk®.

(Figura 6: página de documentação do Splunk®)
(Figura 6: página de documentação do Splunk®)

Considero que ler a documentação é o grande “pulo do gato”. A documentação online do Splunk® é bastante rica no detalhamento da sintaxe dos comandos e exemplos práticos, aliás, tive vários insights vendo os exemplos dos comandos.

Outra abordagem prática para facilitar o aprendizado é abrir um dashboard (clique na aba Dashboards) criado por algum colega e “Clonar” (figura 7), criando o seu próprio dashboard ou também visualizar em uma nova aba a query que gerou um Painel específico para entender como foi gerado e até mesmo modificar um determinado Painel do dashboard ao seu gosto (figura 8).

(Figura 7: Clonando um dashboard existente para modificá-lo ao seu gosto)
(Figura 7: Clonando um dashboard existente para modificá-lo ao seu gosto)

 

(Figura 8: Veja a query que gerou um determinado Painel do Dashboard)
(Figura 8: Veja a query que gerou um determinado Painel do Dashboard)

Não me aprofundarei nesse momento na utilização de queries (Search) em si, mas uma dica valiosa é saber que o pipe (barra vertical: “|”) é utilizado no Splunk® seguindo o mesmo conceito do shell no Linux, ou seja, a saída ou resultado de um comando é a entrada para o comando seguinte, não deixe de ler sobre Search (http://docs.splunk.com/Documentation/Splunk/6.3.0/Search/GetstartedwithSearch).

Também, ficará para outra oportunidade detalhar sobre os “Search Commands” e Functions, tais como chart, timechart e stats, mas seria interessante a leitura sobre o tema.

O Splunk tem alguns coletores padrões que já vêm configurados de fábrica, outros tantos foram configurados/adicionados após a instalação, mas há uma vastidão de Apps e Add-ons, inclusive para vários players de Mercado (Microsoft, Cisco, F5, Oracle etc), sugiro fortemente que visite o portal https://splunkbase.splunk.com e consulte a base de Apps e Add-ons disponíveis.

Esta é apenas uma breve introdução à utilização do Splunk, espero ter colaborado de alguma forma para que desperte sua curiosidade em conhecer um pouco mais dessa fantástica ferramenta.

Por fim, vale lembrar que não comentei sobre Pivot, Report, Alert, data inputs e uma infinidade de coisas, portanto, não se limite a este artigo, vá além; busque, pesquise, investigue. Qualquer dúvida não hesite em me procurar, no pior caso, aprenderemos algo novo juntos.

Fontes de consulta e pesquisa:
http://docs.splunk.com
https://en.wikipedia.org/wiki/Splunk
http://www.splunk.com/
http://www.splunk.com/web_assets/pdfs/secure/Operational_Intelligence_Executive_Summary.pdf
https://splunkbase.splunk.com

Monitoração: você irá fracassar na escolha de uma solução.

Não quero assustá-lo, mas posso garantir que você irá fracassar na escolha da solução para monitorar o ‘negócio’ da sua empresa. Esta afirmação pode parecer um pouco arrogante, mas acredite, ela é verdadeira.

A explicação para isto é simples. Não existe solução pronta que irá atender a sua necessidade!

Siga o seguinte raciocínio:

  1. Quantas empresas estão focadas em sua área de atuação?
    Centenas, milhares talvez.
  2. Dentre estas empresas, quantas atuam em seu segmento de mercado?
    Dezenas, centenas talvez.
  3. Quantas destas possuem as mesmas regras de negócio?
    Algumas poucas talvez.
  4. E quantas possuem a mesma estratégia adota pela sua Empresa?
    Provavelmente nenhuma.
  5. Os processos de gestão são iguais?
    Com certeza não.

Com apenas 5 perguntas em uma visão macro ficou claro que mesmo empresas que atuam no mesmo nicho de mercado nunca terão exatamente a mesma ‘personalidade’. A ‘personalidade’ da empresa é única.

Por isto lhes afirmo, não existe solução pronta para a sua necessidade.

Feche seus ouvidos para os discursos decorados oferecidos pelos fornecedores sobre ferramentas perfeitas. A verdadeira solução de monitoração não será entregue por nenhuma ferramenta, ela está baseada em um conjunto de ferramentas integradas trabalhando em busca de um propósito único. Atender sua necessidade.

Justamente por isto não tenho como lhe indicar a melhor ferramenta para monitorar o negócio da sua empresa, mas posso te mostrar o caminho que você deve seguir para conseguir arquitetar a solução perfeita para a sua necessidade.

Em uma visão macro, para a sua solução de monitoração ser bem sucedida ela deve preocupar-se com as seguintes camadas:00

  • Escolher a Ferramenta de Monitoração: o único objetivo desta camada é realizar a coleta e processamento da informação, sendo que estas atividades não necessariamente precisam ser realizadas pela mesma ferramenta. Sua solução poderá contar com ‘n’ ferramentas de coleta e processamento, cada uma preparada para atender necessidades específicas;
  • Garantir Integração com a Ferramenta de Incidentes: é fundamental que todo alarme gerado pela monitoração reflita em um incidente na fila da Operação. O que muitos ignoram é a qualidade da informação disponibilizada no Incidente. Por isto é fundamental incluirmos nesta etapa as análises do Catálogo de Serviços e do CMDB;
  • Realizar Analytics dos Eventos: todos os eventos gerados devem ser indexados em uma ferramenta de analytics. Esta camada lhe trará inteligência para entender e trabalhar os dados coletados. Alguns exemplos interessantes do que pode ser extraído da camada de analytics são análises preditivas, indicadores operacionais e indicadores gerenciais;
  • Apresentar Métricas de Consumo: dar visibilidade à Operação de como está o comportamento dos ICs que suportam o ‘negócio’ da sua empresa é fundamental para a administração do dia a dia e para a análise de troubleshooting em momentos de crises;
  • Correlacionar Eventos: em muitas soluções de monitoração a correlação de eventos se resume em apontar as dependências entre ICs, quando na verdade o maior ganho desta camada é entender o comportamento do seu ambiente e filtrar as informações que realmente geram valor à Operação;
  • Provisionar novos Equipamentos: realizar o fluxo de provisionamento através de automação lhe permite garantir que todos ICs do seu ambiente possuem monitoração. Sempre que possível elimine atividades manuais, assim você irá mitigar consideravelmente falhas humanas no processo de monitoração;
  • Integrar todas as Camadas: o maior valor nesta solução é trabalhar com camadas independentes e não buscar que uma única ferramenta atenda a todas as camadas como um ‘monobloco’. Hoje em dia existe uma tendência muito forte de ferramentas se especializarem em determinados casos de usos. Além de ganharmos em qualidade no serviço prestado, teremos flexibilidade para montar ou alterar nossa solução. Para que isto ocorra é necessário desenvolver a integração que garanta os fluxos de comunicação e as regras de negócio entre cada camada.

Reflita sobre como sua solução de monitoração está atuando em cada uma das camadas citadas acima.

Nos próximos posts irei detalhar cada uma destas camadas, abordando a estratégia de implantação e cases que exemplificam o ganho real no dia a dia da Operação.