Esta publicação tem por objetivo detalhar os eventos que envolveram o incidente do dia 15/09 ocasionando intermitências em operações que dependem do cadastro de produtos do Hiper Gestão. No decorrer do relatório será apresentado a descrição do incidente, causas, linha do tempo e próximos passos.
Código: 2025091501
Data: 15/04/2022, segunda-feira
Horário de início: 09h19 (horário de Brasília)
Horário de resolução: 11h26 (horário de Brasília)
Tempo total de impacto: 02 horas e 07 minutos
Impacto: intermitência em operações que utilizam dados do cadastro de produtos do Hiper Gestão.
O quê e por que o incidente aconteceu?
Foi identificada uma falha de escalabilidade na infraestrutura do banco de dados que armazena as informações relacionadas ao cadastro de produto. A infraestrutura de banco de dados que hospeda essas informações opera em um cluster de alta disponibilidade, ao analisar o problema, identificamos que uma das instâncias de replica utilizada para operações de leitura apresentou falhas durante seu processo de upgrade. O processo de upgrade é uma operação natural deste cluster que tem como objetivo garantir a performance das requisições, independente do volume transacionado. O cluster de banco de dados é hospedado em nuvem e a falha foi originada na infraestrutura deste servidor.
Durante o incidente, requisições enviadas para o servidor que apresentava a falha possuíam um tempo de resposta muito alto ou resultavam em erros. Devido ao fato de o serviço de armazenamento rodar em cluster, o incidente não foi identificado por todos os clientes, pois dois terços das requisições foram direcionadas para os servidores que estavam saudáveis naquele momento.
Linha do tempo
A seguir vamos apresentar uma linha do tempo de tudo o que aconteceu, desde o início do incidente, passando por todas as ações executadas para conter o impacto, até a solução definitiva do problema.
09h36: foi identificado que operações no faturamento do Hiper Gestão que utilizam o contexto de produto apresentavam lentidão
09h38: foi iniciada a tratativa do incidente para mitigar o impacto e identificar a causa raiz
09h49: foi identificado que uma das instâncias de réplica do
cluster de banco de dados que hospeda as informações do cadastro de produto estava apresentando falha
10h34: nossos times realizaram a distribuição da carga de leitura que apresentava falhas para os servidores que estavam saudáveis, com o objetivo de mitigar os impactos do incidente. Ao finalizar este processo, foi identificado que os dois servidores não seriam suficientes para acomodar toda a carga de requisições
10h45: nossos times iniciaram um segundo processo de
upgrade do cluster com o objetivo de garantir que com duas instâncias saudáveis todas as requisições fossem respondidas corretamente
11h26: a instância que apresentava falha voltou a responder corretamente e o tempo de resposta das requisições normalizou
11h30: o segundo processo de
upgrade foi concluído e nenhum impacto residual foi identificado
Próximos passos
Após a solução do incidente e coleta de todos os eventos realizados para contenção e identificação das causas, foi realizado o processo de revisão e post-mortem com o objetivo de identificar ações que possam eliminar a recorrência deste incidente originado pela mesma causa. Considerando que a causa do incidente foi uma falha interna com o provedor de serviços, junto ao terceiro, vamos avaliar oportunidades de melhoria na gestão de capacidade ou realocação do cluster para regiões que não estejam enfrentando problemas de disponibilidade.