Neste case, a história de como auxiliamos uma empresa Provedora de Internet a fazer manutenção e substituição de SSDs de um de seus em Servidores.
Desafio Enfrentado:
Após abertura de chamado, a Empresa relatou que o equipamento utilizado indicava uma iminente falha nas SSDs (Solid State Drive ou unidade em estado sólido) do servidor.
O principal desafio dos técnicos da ON.LOC era lidar com o impacto que o desligamento do servidor teria nas operações do cliente, uma vez que toda a atividade da empresa dependia desse servidor.
Solução Encontrada:
Para lidar com o desafio, adotaram-se as seguintes soluções:
Montagem de uma máquina similar: Foi criada uma máquina similar à do cliente, que recebeu uma série de testes para simular o procedimento de substituição das SSDs. Essa etapa, até então, permitiu antecipar possíveis problemas e desenvolver um procedimento seguro para a troca do hardware solicitada com menos tempo de impacto possível.
Alinhamento com o parceiro: Deu-se início ao contato com os técnicos da Empresa para entender a rotina dos serviços do cliente e determinar o melhor momento para realizar a troca das SSDs. Essa colaboração ajudou a minimizar o impacto da manutenção no cliente, evitando interrupções críticas durante sua operação.
Plano B: Caso houvessem imprevistos, foi desenvolvida uma segunda alternativa para manutenção. Foram preparados todos os recursos necessários para a troca das SSDs, e a equipe da Empresa se disponibilizou a reinstalar o sistema do zero, caso necessário.
Resultados:
Durante o atendimento, surgiram dois “imprevistos” que precisam ser ressaltados:
Sistema Operacional incorreto: Foi constatado que o Sistema Operacional informado pela equipe da Empresa não correspondia ao que havia sido relatado anteriormente, o que dificultou a aplicação do plano B. Essa situação exigiu uma análise adicional e ajustes para garantir que o plano de contingência ainda fosse viável.
Sincronização da RAID lenta: Verificou-se que o tempo de sincronização da RAID era mais longo do que o esperado, impossibilitando a realização da tarefa em segundo plano. Isso impactou o trabalho do cliente e exigiu 5 horas para verificar o sucesso de apenas 1 das 2 etapas planejadas. Foi necessário estabelecer uma estratégia conjunta com o cliente para minimizar o impacto da segunda etapa e evitar um tempo de inatividade prolongado.
Próximo Passo:
Atualmente, estão sendo realizados testes para validar nossas soluções de hardware que possam minimizar problemas semelhantes aos relatados pelo cliente Empresa no futuro. Informamos ao cliente sobre o impacto que pode ocorrer na pior das hipóteses, deixando a reflexão sobre agendamentos periódicos para futuras manutenções.
Após finalizar o atendimento, ficou claro para a Empresa que o horário inicial para este tipo de manutenção não foi uma boa escolha, já que por conta de imprevistos, se estendeu ao longo de todo horário comercial, momento de pico de usuários acessando os servidores da empresa. Portanto, no futuro, a empresa buscará uma abordagem mais estratégica para agendar manutenções, considerando o impacto no cliente e buscando minimizar interrupções em suas operações.
Leave a Comment