Nas últimas semanas, muitas das maiores empresas globais enfrentaram sérias dificuldades devido a uma atualização de software defeituosa que interrompeu as operações de centenas de companhias aéreas, bancos, varejistas e agências governamentais que utilizam o sistema operacional Windows. Para ajudar as empresas a se protegerem contra falhas semelhantes e estarem preparadas para mitigar maiores dificuldades caso ocorram, o diretor executivo de Serviços de Nuvem, Infraestrutura e Segurança da DXC Technology, Chris Drumgoole, preparou algumas dicas essenciais baseadas na experiência da companhia durante a falha.
Plano de contingência é fundamental:
- Formação rápida de equipes: ao saber da interrupção, formamos uma equipe de comando e controle dentro de uma hora. Isso nos auxiliou a atuar de forma mais ágil e coordenada.
- Priorização crítica: não é possível resolver tudo de uma vez. Priorizar sistemas críticos permitiu que restaurássemos as operações principais em 72 horas.
- Reavaliação de práticas de software: o incidente destacou a necessidade de testes robustos, avaliação de riscos e comunicação clara para prevenir interrupções generalizadas.
- Incluir a cadeia de suprimentos: planejar para riscos de terceiros é crucial, pois eles podem impactar seu negócio durante interrupções ou ameaças cibernéticas.
Compromisso ininterrupto:
- Capacidade de resposta 24/7: interrupções de TI podem ocorrer a qualquer momento. Manter uma resposta vigilante e constante é essencial.
- Monitoramento contínuo da rede: monitorar a rede continuamente e responder rapidamente a incidentes ajuda a minimizar os impactos.
- Gerenciamento de recursos: garantir que os recursos estejam prontos e disponíveis para uma restauração rápida dos serviços.
O toque humano é essencial:
- Equilíbrio entre tecnologia e presença humana: mesmo com a adoção de IA, a interação humana é vital. Técnicos da DXC trabalharam diretamente com usuários finais, orientando-os no processo de restauração.
- Interação direta: a correção remota não era suficiente em todos os casos. A interação direta ajudou a resolver problemas complexos e a restaurar a confiança dos clientes.
- Paciência e empatia: em muitos casos, foi necessário trabalhar por telefone com usuários não técnicos, exigindo paciência e empatia, explicando passo-a-passo para solucionar questões.
Relacionamentos com fornecedores são importantes:
- Colaboração estreita: atuar de perto com fornecedores permitiu resolver problemas rapidamente.
- Contato regular fora de crises: manter contato regular com fornecedores e compreender seus processos de atualização são essenciais para uma resposta eficaz a incidentes.
- Linhas de comunicação diretas: ter canais de comunicação estabelecidos com fornecedores facilita a resolução rápida de problemas.
Canais de comunicação eficazes são essenciais:
- Informar prontamente os clientes: comunicação clara e rápida durante a crise é essencial para manter os clientes informados e gerenciar expectativas.
- Transparência e atualização constante: estabelecer canais de comunicação confiáveis garante transparência e minimiza confusões.
- Feedback dos clientes: ouvir a experiência dos clientes durante o incidente ajuda a refinar estratégias de resposta e a estar mais bem preparado para futuras crises.
Com essas ações conseguimos mitigar de forma ágil e eficaz os problemas, tornando a situação menos crítica e mais fluida para nossos clientes. A dedicação das equipes da DXC foi crucial para garantir a rápida restauração das operações dos clientes. Um exemplo é o trabalho com uma companhia aérea regional, que, apesar de atrasos, conseguiu completar todos os voos e transportar os passageiros com poucas conexões perdidas. Na tarde de sexta-feira do incidente, a companhia estava quase de volta à operação normal, com algumas ações de acompanhamento para recuperar serviços não críticos restantes. Esses exemplos reforçam o compromisso da DXC como um parceiro global confiável.
Imagem: Divulgação.