Há sempre alguém para culpar por um problema de TI
De quem é a culpa quando a TI para? Nem sempre o responsável é o time
interno de operações do data center. O problema pode ter sido
ocasionado por erros cometidos pelo parceiro de OEM, integrador de
sistemas ou prestador de serviço terceirizado. O velho jogo de
empurra-empurra continua acontecendo.
Um agressor muitas vezes deixa impressões digitais claras que mostram
que um componente foi erroneamente alterado ou que um processo não foi
atualizado. Em outros casos, um incidente pode ser o resultado de
descuidos por várias partes.
Mas com a possível exceção de um ataque de meteoros, há sempre alguém
para culpar por um problema do data center. Na maioria das vezes os
acusados são os terceiros, tais como empreiteiros ou fornecedores. É
atribuída a eles uma parcela considerável de culpa quando os data
centers falham, segundo dados de um relatório realizado pelo Uptime
Institute.
O estudo do Uptime Institute relata dados de incidentes de data
centers reportados pelos seus clientes desde 1994. A pesquisa aponta que
há muitos casos de falhas envolvendo times internos de TI e
fornecedores. Porém, nem sempre o departamento assume essa
responsabilidade.
Geralmente, os fornecedores estão dispostos a assumir a responsabildade por um problema, mesmo quando sabem que houve descuido das operações internas.
"Os fornecedores são pegos em um ponto sensível", disse Ahmad Moshiri, diretor de suporte técnico da Emerson Network Power Liebert Services. Os fabricantes evitam colocar o gerente de TI de seu cliente em situação delicada.
Causas dos incidentes
Membros do Uptime Institute, gerentes de data centers de vários setores – concordaram voluntariamente reportar incidentes e anomalias. Como resultado desse trabalho, o instituto contabilizou 5 mil incidentes de banco de dados que diminuíram o seu desempenho em razão de erros em equipamentos ou componente de infraestruturas.
Os dados compilados pelo Uptime revela que 34% dos incidentes reportados em 2009 foram atribuídos à equipe de operações. Em 2010, esse índice subiu para 41% e em 2011 ficou em 40%.
Os times externos que trabalham no data center do cliente ou que implementam sistemas, incluindo fabricantes, prestadores de serviços terceirizados, instaladores, integradores e outros parceiros foram responsáveis por 50% a 60% dos incidentes reportados nesses anos, de acordo com Uptime .
Geralmente, os fornecedores estão dispostos a assumir a responsabildade por um problema, mesmo quando sabem que houve descuido das operações internas.
"Os fornecedores são pegos em um ponto sensível", disse Ahmad Moshiri, diretor de suporte técnico da Emerson Network Power Liebert Services. Os fabricantes evitam colocar o gerente de TI de seu cliente em situação delicada.
Causas dos incidentes
Membros do Uptime Institute, gerentes de data centers de vários setores – concordaram voluntariamente reportar incidentes e anomalias. Como resultado desse trabalho, o instituto contabilizou 5 mil incidentes de banco de dados que diminuíram o seu desempenho em razão de erros em equipamentos ou componente de infraestruturas.
Os dados compilados pelo Uptime revela que 34% dos incidentes reportados em 2009 foram atribuídos à equipe de operações. Em 2010, esse índice subiu para 41% e em 2011 ficou em 40%.
Os times externos que trabalham no data center do cliente ou que implementam sistemas, incluindo fabricantes, prestadores de serviços terceirizados, instaladores, integradores e outros parceiros foram responsáveis por 50% a 60% dos incidentes reportados nesses anos, de acordo com Uptime .
Entre 5% a 8% dos incidentes a cada ano foram ocorrências ligadas à
sabotagem, incêndios e falhas de outros usuários da infraestrutura
compartilhada. Cerca de 10% de todas as ocorrências relatadas são
resultaram perda de poder das equipes internas, estimulando as empresas a
terceirizarem seus data centers.
Os dados do Uptime mostram que as equipes internas são responsáveis pela maioria (60%) desses incidentes, que incluem interrupções e incidentes de perda de dados.
Os dados do Uptime mostram que as equipes internas são responsáveis pela maioria (60%) desses incidentes, que incluem interrupções e incidentes de perda de dados.
Embora a equipe interna sempre leve a culpa, "é o projeto, a
fabricação e instalação de processos que deixam cascas de banana nas
quais os operadores de data center podem escorregar e cair ", diz Hank
Seader, responsável pela pesquisa do Uptime.
David Filas, engenheiro do centro de dados de Trinity Health, relata que um vendedor de sistemas de incêndio realizou uma manutenção de rotina em um sistema de supressão de fogo no data center da companhia e desencadeou um Desligamento de Emergência (EPO).
David Filas, engenheiro do centro de dados de Trinity Health, relata que um vendedor de sistemas de incêndio realizou uma manutenção de rotina em um sistema de supressão de fogo no data center da companhia e desencadeou um Desligamento de Emergência (EPO).
Na verdade, não foi um problema, mas um erro de construção do
circuito EPO que interrompeu o funcionamento do data center.
Descobriu-se que o circuito de bypass EPO não foi feito corretamente
quando o centro de processamento foi construído anos antes.
Filas acredita que "forças externas podem derrubar o data center tão
facilmente quanto as forças internas". Mas ele também vê níveis
crescentes de risco, especialmente quando os centros de dados confiam
mais em fornecedores externos.
Fornecedores de eletricidade, por exemplo, podem não entender as
necessidades específicas de data center. "Somos questionados
frequentemente sobre a razão de termos alimentação redundante para
racks", diz Filas.
Jeff Pederson, gerente de operações de recuperação de dados da Kroll
Ontrack, afirma que os problemas são causados tanto pelo pessoal interno
quanto pelos fornecedores externos. Ele conta que há muitos casos de
equipamentos instalados pelos fornecedores que são entregues funcionando
bem, mas que mais tarde geram uma série de danos.
"O único objetivo [de alguns técnicos de serviços] é entregar
equipamentos e sistemas funcionando e não necessariamente proteger os
dados do cliente ", diz Pedersen.
O executivo da Kroll acrescenta que a consequência de tais atitudes
muitas vezes causa reclamação dos usuários: "Meu sistema funciona agora,
mas não há garantias de que meus dados estarão protegidos ".
Perdas de dados e interrupções são as piores incidentes em data centers, embora o número de ocorrências esteja reduzindo. O relatório do Uptime revela que nos últimos anos a quantidade de falhas caiu de duas dezenas para sete em 2011.
Perdas de dados e interrupções são as piores incidentes em data centers, embora o número de ocorrências esteja reduzindo. O relatório do Uptime revela que nos últimos anos a quantidade de falhas caiu de duas dezenas para sete em 2011.
A queda do número de interrupções coincidiu com o menor nível de
instalações de equipamentos nos data centers desde 2008, contabiliza
Seader. Outro fator é que as companhias melhoram processos e
procedimentos.
Problemas com manutenção
Moshiri da Emerson Network Power Liebert Services, menciona que erros de processos são uma das principais causas de problemas, especialmente quando vários fornecedores estão envolvidos na coordenação de um projeto.
Muitas vezes sistemas críticos de informação ou mesmo a localização física do equipamento apresentam desatualizações incompletas, disse Moshiri.
A manutenção é outro problema, disse Moshiri. Gerentes de instalações às vezes ignoram recomendação de um OEM que diz que determinado tipo de dispositivo precisa passar por manutenção duas vezes por ano.
Steve Fairfax, presidente da MTechnology, acredita que avaliação probabilística do risco (Probalistic Risk Assessment - PRA), que é aplicada na indústria nuclear, pode ser levada para equipamentos de TI.
O modelo PRA utiliza todos dados de componentes individuais e combinam com um método matemático para avaliar como funciona um sistema inteiro de uma usina nuclear ou data center.
Moshiri da Emerson Network Power Liebert Services, menciona que erros de processos são uma das principais causas de problemas, especialmente quando vários fornecedores estão envolvidos na coordenação de um projeto.
Muitas vezes sistemas críticos de informação ou mesmo a localização física do equipamento apresentam desatualizações incompletas, disse Moshiri.
A manutenção é outro problema, disse Moshiri. Gerentes de instalações às vezes ignoram recomendação de um OEM que diz que determinado tipo de dispositivo precisa passar por manutenção duas vezes por ano.
Steve Fairfax, presidente da MTechnology, acredita que avaliação probabilística do risco (Probalistic Risk Assessment - PRA), que é aplicada na indústria nuclear, pode ser levada para equipamentos de TI.
O modelo PRA utiliza todos dados de componentes individuais e combinam com um método matemático para avaliar como funciona um sistema inteiro de uma usina nuclear ou data center.
Fairfax explica que seus modelos matemáticos fazem com que a
quantidade de manutenção em data center se torne excessiva para evitar
inatividade. "Mexer com o equipamento em perfeito funcionamento é
altamente rentável", avalia ele.
O executivo compara que os data centers são como aviões que precisam oferecer alto nível de confiabilidade. Para isso, precisam passar por manutenções parecidas com as que são realizadas nas aeronaves e utilizar simuladores de operação.
O executivo compara que os data centers são como aviões que precisam oferecer alto nível de confiabilidade. Para isso, precisam passar por manutenções parecidas com as que são realizadas nas aeronaves e utilizar simuladores de operação.
Nenhum comentário:
Postar um comentário