
Na segunda-feira, dia 20 de outubro, o mundo acordou para um “apagão” em muitos serviços, plataformas, redes sociais e até jogos. De Fortnite a Snapchat, muitos dos serviços estiveram algumas horas em baixo. O problema teve origem no mesmo local: uma falha e erros no endpoint DynamoDB da Amazon Web Service, na região US-EAST-1 (Virgínia do Norte), que afetaram os serviços alojados na plataforma de cloud. Apesar do problema ter sido detetado no centro de dados nos Estados Unidos, a infraestrutura de cloud da AWS teve impacto a nível global.
Não perca nenhuma notícia importante da atualidade de tecnologia e acompanhe tudo em tek.sapo.pt
Começam a ser publicados os primeiros relatórios e comentários dos especialistas na área de cibersegurança, relativos ao apagão da AWS. Rui Duro, Country Manager de Portugal da Check Point Software, salienta que “a falha é mais um lembrete de que o mundo digital não tem fronteiras, uma avaria local pode propagar-se por todo o planeta em minutos”. Acrescenta que apesar da conveniência sobre os sistemas partilhados, a resiliência continua a depender das pessoas e processos.
A Ookla também publicou um relatório sobre a falha no servidor da cloud e deixa o alerta para uma chamada de atenção para as infraestruturas críticas. Salienta como uma uma falha lógica conseguiu derrubar uma das infraestruturas de cloud mais robustas e paralisar um ecossistema altamente concentrado.
Para se ter uma ideia do alcance global da falha na AWS, cita dados do Downdetector, onde foram registados mais de 16 milhões de registos de falhas de utilizadores, um aumento de 960% da média diária. Foram também registadas falhas em mais de 3.500 empresas espalhadas por mais de 60 países, tornando-se uma das maiores falhas na internet alguma vez registadas no Downdetector.
Veja na galeria mais informações:
Numa análise aos países mais afetados, os Estados Unidos registaram, segundo do Downdetector, mais de 6,3 milhões de falhas, seguindo-se o Reino Unido com 1,5 milhões, Alemanha com 774 mil, Países Baixos com 737 mil e o Brasil com 589 mil. Já os serviços mais afetados foram o Snapchat, com cerca de 3 milhões, a própria AWS com 2,5 milhões, o Roblox com 716 mil, Amazon 698 mil e o Reddit com 397 mil.
O apagão afetou todos os sectores, do entretenimento às redes sociais, ferramentas de educação e até sistemas de IoT dependentes desta infraestrutura, como as campainhas inteligentes da Amazon, o Ring e o assistente Alexa. o relatório aponta ainda que o apagão variou mediante o fuso horário, começando com a Europa que acordou de manhã para ver os serviços em baixo, depois a segunda parte para a América do Norte mais tarde. Desta forma, os problemas afetaram os serviços pelo menos durante a manhã. Ainda assim, a AWS detetou relativamente rápido o problema, passando a mitigar nas horas seguintes.
A culpa foi da API DynamoDB
Como referido, a AWS foi rápida a descobrir o problema, o DynamoDB API, pertencente ao US-EAST-1 é considerado o mais velho e mais utilizado hub da AWS. Apesar da concentração regional, as apps globais ancoram neste hub. E quando uma dependência regional falha, como neste caso, o seu impacto propaga-se a nível mundial porque muitas das “stacks” globais passam, eventualmente, por Virgínia.

As apps modernas encadeiam-se juntas através de serviços como armazenamento, esperas e funcionalidades que não dependam de servidores. Como explica a Ookla, se o DS não conseguir resolver endpoints críticos, como neste caso, a API DynamoDB, gera uma cascata de erros através de APIs de upstream, causando falhas visíveis nas apps dos utilizadores, mesmo não associadas à AWS, como nos exemplos dados como o Snapchat, Roblox, Fortnite, etc.
Outro factor de complicação da falha foi a autenticação. O DynamoDB afetou a autenticação IAM, que gere as permissões e autenticações. Mesmo as equipas não conseguiram autenticar-se na consola da AWS. “Quando as equipas não conseguem autenticar-se nas ferramentas que mudam as definições, movimentar o tráfego ou reiniciar os serviços, torna-se muito difícil de aplicar correções, por isso a recuperação abranda, mesmo depois dos sistemas principais voltarem a funcionar. Nesse sentido, mesmo depois da AWS ter mitigado completamente o problema, as mensagens de tentativas, timeouts e backlogs demoram tempo a limpar.
O relatório da Ookla deixa também um alerta às empresas que dependem destas plataformas. Uma resposta prática para um apagão desta magnitude passa por desenhar os sistemas preparados para falhar, assumindo que uma região de cloud pode ser desligada. Ou seja, não estar dependente apenas de uma região, neste caso o US-EAST-1 para os sistemas críticos, optando por correr os serviços em múltiplas regiões.
Assine a newsletter do TEK Notícias e receba todos os dias as principais notícias de tecnologia na sua caixa de correio.
Em destaque
-
Multimédia
YANGWANG U9 Xtreme é o novo automóvel de produção mais rápido do mundo -
App do dia
Focus Friend: E se um feijão o ajudasse a passar menos tempo “colado” ao smartphone? -
Site do dia
Magic Translate traduz texto em imagens para mais de 100 idiomas através de IA -
How to TEK
O seu computador está mais lento? Conheça algumas das causas e como resolver
Comentários