Por Chris Drumgoole (*) 

Muitas das maiores empresas do mundo enfrentaram uma série de dificuldades significativas quando uma atualização de software defeituosa encerrou as operações de centenas de companhias aéreas, bancos, agências governamentais e retalhistas que executam o sistema operativo Windows. Compreendemos o impacto que o tempo de inatividade do sistema pode ter nos negócios, e alguns especialistas em TI consideram a situação do CrowdStrike a maior perturbação da história.

Na DXC Technology, orgulhamo-nos de ser um parceiro global de confiança para muitas das maiores empresas do mundo nos sectores público, serviços financeiros, automóvel, indústria transformadora, cuidados de saúde e ciências da vida, o que significa que trabalhamos em estreita colaboração com os nossos clientes, não apenas no seu percurso de modernização, mas também quando enfrentam desafios como os provocados pela questão CrowdStrike.

Felizmente, existem formas de minimizar o impacto que uma interrupção tão grande como esta pode ter numa empresa. À medida que continuamos a orientar os nossos clientes durante a interrupção, eis alguns pontos-chave a considerar:

O planeamento de emergência é fundamental

À medida que o serviço foi sendo restabelecido, surgiram debates em todo o sector sobre as vulnerabilidades, as salvaguardas dos dados, o impacto nas cadeias de abastecimento entre outras questões.

Dada a nossa profunda experiência com estas questões, reunimos uma equipa uma hora após a interrupção ser conhecida para começar a operar como comando e controlo e iniciámos a implementação de um plano baseado na experiência prévia acumulada na organização.

Em situações como esta, não se pode fazer tudo ao mesmo tempo. A definição de prioridades é fundamental, concentrando-se no que é mais crítico para a empresa e recuperando isso em primeiro lugar. No nosso caso, os sistemas mais críticos foram reparados nas primeiras 72 horas.

As organizações devem reavaliar as práticas aceites para a implementação de software e a concessão de direitos de atualização. O incidente da CrowdStrike sublinha a necessidade de testes robustos, avaliação de riscos e canais de comunicação definidos para evitar perturbações generalizadas e minimizar os danos.

Tal também significa ter em conta toda a cadeia de abastecimento nos exercícios de planeamento de contingência, uma vez que o risco de terceiros pode afetar a empresa durante uma interrupção de serviço ou uma ameaça cibernética.

Compromisso permanente

O incidente reforçou a importância de manter uma capacidade de resposta vigilante, 24 horas por dia, 7 dias por semana, para gerir emergências imprevistas.

Um compromisso de monitorização contínua da rede, resposta rápida a incidentes e gestão de recursos garante o restabelecimento atempado dos clientes afectados.

O contacto humano é essencial para a resolução de problemas

Embora as soluções técnicas sejam imperativas, particularmente à medida que a indústria abraça um mundo tecnológico liderado/impulsionado pela IA, o elemento humano ainda desempenha um papel fundamental. Esta interrupção destacou como o setor das TI está a enfrentar o desafio de incorporar as melhores práticas para a infraestrutura de TI baseada na cloud, mantendo, simultaneamente, o fator humano no circuito para testar a tecnologia.

Na DXC, os nossos técnicos contactam  regular e diretamente os utilizadores finais, orientando-os através do complexo processo de restauro.

Em alguns casos, tivemos de trabalhar por telefone com utilizadores não técnicos, o que exemplifica a paciência e a empatia necessárias durante incidentes como o evento CrowdStrike.

As relações com os fornecedores são importantes

A DXC possui um ecossistema global de parceiros e a colaboração estreita com os nossos fornecedores permite-nos resolver o problema rapidamente.

O envolvimento regular com os fornecedores, i.e., nos períodosf ora de uma crise, a compreensão dos seus processos de atualização e a existência de linhas de comunicação directas são também essenciais para uma resposta eficaz a incidentes.

Canais de comunicação eficazes são fundamentais

A comunicação clara é essencial durante uma crise. Testemunhámos a importância de informar prontamente os clientes sobre a situação, fornecer actualizações e gerir as expectativas. Estabelecer canais de comunicação fiáveis ajuda a garantir a transparência e minimiza a confusão.

Mesmo que uma interrupção de serviço seja de curta duração, os seus efeitos podem perdurar, afetando a forma como os seus clientes veem a sua resposta. Ouvir diretamente os clientes sobre a sua experiência durante o incidente é especialmente útil para aperfeiçoar as estratégias de resposta e estar mais bem preparado para a próxima vez.

Manter os  clientes em funcionamento é sempre a nossa prioridade, e estou grato pela dedicação demonstrada pelas  equipas na DXC para garantir que os  clientes voltassem em funcionamento o mais rapidamente possível.

Por exemplo, trabalhámos com uma companhia aérea regional com rapidez e urgência. Apesar de terem sofrido muitos atrasos, conseguimos concluir todos os voos e transportar todos os passageiros com o mínimo de ligações perdidas. Na tarde de sexta-feira após o incidente, estavam quase de volta ao funcionamento normal e ao desempenho atempado, com algumas acções de acompanhamento para recuperar os restantes serviços não críticos.

São estes casos que reforçam ainda mais o nosso objetivo de nos afirmarmos diariamente como  um parceiro global e fiável para os nossos clientes.

(*) Managing Director of Cloud & Infrastructure and Security Services da DXC Technology