segunda-feira, 5 de março de 2012

Problema? De quem será culpa ehh?

# Deu problema a culpa da Ti, que pensamento fora da realidade.....

Há sempre alguém para culpar por um problema de TI


De quem é a culpa quando a TI para? Nem sempre o responsável é o time interno de operações do data center. O problema pode ter sido ocasionado por erros cometidos pelo parceiro de OEM,  integrador de sistemas ou prestador de serviço terceirizado. O velho jogo de empurra-empurra continua acontecendo.
Um agressor muitas vezes deixa impressões digitais claras que mostram que um componente foi erroneamente alterado ou que um processo não foi atualizado. Em outros casos, um incidente pode ser o resultado de descuidos por várias partes.
Mas com a possível exceção de um ataque de meteoros, há sempre alguém para culpar por um problema do data center. Na maioria das vezes os acusados são os terceiros, tais como empreiteiros ou fornecedores. É atribuída a eles uma parcela considerável de culpa quando os data centers falham, segundo dados de um relatório realizado pelo Uptime Institute.
O estudo do Uptime Institute relata dados de incidentes de data centers reportados pelos seus clientes desde 1994. A pesquisa aponta que há muitos casos de falhas envolvendo times internos de TI e fornecedores. Porém, nem sempre o departamento assume essa responsabilidade.

Geralmente, os fornecedores estão dispostos a assumir a responsabildade por um problema, mesmo quando sabem que houve descuido das operações internas.

"Os fornecedores são pegos em um ponto sensível", disse Ahmad Moshiri, diretor de suporte técnico da Emerson Network Power Liebert Services. Os fabricantes evitam colocar o gerente de TI de seu cliente em situação delicada.

Causas dos incidentes
Membros do Uptime Institute,  gerentes de data centers de vários setores – concordaram voluntariamente reportar incidentes e anomalias. Como resultado desse trabalho, o instituto contabilizou 5 mil incidentes de banco de dados que diminuíram o seu desempenho em razão de erros em equipamentos ou componente de infraestruturas.

Os dados compilados pelo Uptime revela que 34% dos incidentes reportados em 2009 foram atribuídos à equipe de operações. Em 2010, esse índice subiu para 41% e em 2011 ficou em 40%.

Os times externos que trabalham no data center do cliente ou que  implementam sistemas, incluindo fabricantes, prestadores de serviços terceirizados, instaladores, integradores e outros parceiros foram responsáveis por 50% a 60% dos incidentes reportados nesses anos, de acordo com Uptime .
Entre 5% a 8% dos incidentes a cada ano foram ocorrências ligadas à sabotagem, incêndios e falhas de outros usuários da infraestrutura compartilhada. Cerca de 10% de todas as ocorrências relatadas são resultaram perda de poder das equipes internas, estimulando as empresas a terceirizarem seus data  centers.

Os dados do Uptime mostram que as equipes internas são responsáveis pela maioria (60%) desses incidentes, que incluem interrupções e incidentes de perda de dados.
Embora a equipe interna sempre leve a culpa, "é o projeto, a fabricação e instalação de processos que deixam cascas de banana nas quais os operadores de data center podem escorregar e cair ", diz Hank Seader, responsável pela pesquisa do Uptime.

David Filas, engenheiro do centro de dados de Trinity Health, relata que um vendedor de sistemas de incêndio realizou uma manutenção de rotina em um sistema de supressão de fogo no data center da companhia e desencadeou um Desligamento de Emergência (EPO).
Na verdade, não foi um problema, mas um erro de construção do circuito EPO que interrompeu o funcionamento do data center. Descobriu-se que o circuito de bypass EPO não foi feito corretamente quando o centro de processamento foi construído anos antes.
Filas acredita que "forças externas podem derrubar o data center tão facilmente quanto as forças internas". Mas ele também vê níveis crescentes de risco, especialmente quando os centros de dados confiam mais em fornecedores externos.
Fornecedores de eletricidade, por exemplo, podem não entender as necessidades específicas de data center. "Somos questionados frequentemente sobre a razão de termos alimentação redundante para racks", diz Filas.
Jeff Pederson, gerente de operações de recuperação de dados da Kroll Ontrack, afirma que os problemas são causados tanto pelo pessoal interno quanto pelos fornecedores externos. Ele conta que há muitos casos de equipamentos instalados pelos fornecedores que são entregues funcionando bem, mas que mais tarde geram uma série de danos.
"O único objetivo [de alguns técnicos de serviços] é entregar equipamentos e sistemas funcionando e não necessariamente proteger os dados do cliente ", diz Pedersen.
O executivo da Kroll acrescenta que a consequência de tais atitudes muitas vezes causa reclamação dos usuários: "Meu sistema funciona agora, mas não há garantias de que meus dados estarão protegidos ".

Perdas de dados e interrupções são as piores incidentes em data centers, embora o número de ocorrências esteja reduzindo. O relatório do Uptime revela que nos últimos anos a quantidade de falhas caiu de duas dezenas para sete em 2011.
A queda do número de interrupções coincidiu com o menor nível de instalações de equipamentos nos data centers desde 2008, contabiliza Seader. Outro fator é que as companhias melhoram processos e procedimentos.

Problemas com manutenção
Moshiri da Emerson Network Power Liebert Services, menciona que erros de processos são uma das principais causas de problemas, especialmente quando vários fornecedores estão envolvidos na coordenação de um projeto.

Muitas vezes sistemas críticos de informação ou mesmo a localização física do equipamento apresentam desatualizações incompletas, disse Moshiri.

A manutenção é outro problema, disse Moshiri. Gerentes de instalações às vezes ignoram recomendação de um OEM que diz que determinado tipo de dispositivo precisa passar por manutenção duas vezes por ano.

Steve Fairfax, presidente da MTechnology, acredita que avaliação probabilística do risco (Probalistic Risk Assessment - PRA), que é aplicada na indústria nuclear, pode ser levada para equipamentos de TI.

O modelo PRA utiliza todos dados de componentes individuais e combinam com um método matemático para avaliar como funciona um sistema inteiro de uma usina nuclear ou data center.
Fairfax explica que seus modelos matemáticos fazem com que a quantidade de manutenção em data center se torne excessiva para evitar inatividade. "Mexer com o equipamento em perfeito funcionamento é altamente rentável", avalia ele.

O executivo compara que os data centers são como aviões que precisam oferecer alto nível de confiabilidade. Para isso, precisam passar por manutenções parecidas com as que são realizadas nas aeronaves e utilizar simuladores de operação.



Nenhum comentário: