[Plataforma] Instabilidade
Incident Report for Huggy
Postmortem

Sumário

Este relatório reúne informações do incidente que impactou a plataforma Huggy nos dias 8, 10 e 13 de fevereiro de 2024.

Identificamos que o nosso provedor de serviços de infraestrutura sofreu uma instabilidade que afetou o desempenho dos servidores da Huggy, causando lentidão nos recursos da plataforma.

Embora a instabilidade ainda esteja acontecendo do lado do provedor, encontramos uma solução técnica viável que permitiu normalizar o funcionamento do sistema.

Liberamos essa solução no formato de uma correção crítica às 19h do dia 13 de fevereiro de 2024.

Linha do tempo

  • 📆 08/02/2024 08:45 (GMT-3): Identificação da instabilidade
  • 📆 08/02/2024 09:30 (GMT-3): Normalização da plataforma
  • 📆 10/02/2024 08:45 (GMT-3): Segunda recorrência da instabilidade
  • 📆 10/02/2024 09:40 (GMT-3): Normalização da plataforma
  • 📆 13/02/2024 11:48 (GMT-3): Terceira recorrência da instabilidade
  • 📆 13/02/2024 12:20 (GMT-3): Normalização da plataforma
  • 📆 13/02/2024 13:20 (GMT-3): Quarta recorrência da instabilidade
  • 📆 13/02/2024 13:45 (GMT-3): Normalização da plataforma
  • 📆 13/02/2024 15:00 (GMT-3): Descoberta da causa raiz do incidente
  • 📆 13/02/2024 19:00 (GMT-3): Correção crítica do sistema

Causa raiz do incidente

O nosso provedor de serviços de infraestrutura sofreu uma instabilidade que afetou o desempenho dos servidores da Huggy, causando lentidão nos recursos da plataforma.

Impacto

O incidente provocou lentidão e dificuldade de acesso a algumas telas do painel, como a de Login e do módulo de Atendimentos. Observamos também um atraso na resposta de recursos que dependem da nossa API.

Os episódios de lentidão duraram entre 5min e 25min, impactando a plataforma Huggy por mais tempo no dia 13 de fevereiro.

Plano de ação

Entramos em contato com o nosso provedor de serviços para saber mais detalhes sobre a instabilidade e solucionar o incidente.

Nessa ocasião, descobrimos que o tempo de resposta de alguns recursos provisionados para os nossos servidores estava muito mais lento que o normal.

Embora a instabilidade ainda esteja acontecendo do lado do provedor, encontramos uma solução técnica viável que permitiu normalizar o funcionamento do sistema. Liberamos essa solução no formato de uma correção crítica às 19h do dia 13 de fevereiro de 2024.

Apesar da lentidão e dificuldade de acesso à plataforma, não houve perda de mensagens e informações trocadas usando a Huggy. Porém, entendemos que incidentes como esse não são desejáveis e trazem impactos negativos em sua operação.

Nosso time de infraestrutura está se empenhando para melhorar os processos internos e garantir que a nossa plataforma permaneça estável e segura.

Posted Feb 19, 2024 - 09:27 GMT-03:00

Resolved
Realizamos algumas alterações em nossa infraestrutura para corrigir as instabilidades de lentidão que ocorreram nos últimos dias. Acompanharemos de perto nos próximos dias. Pedimos desculpas pelo inconveniente. 🙏
Posted Feb 13, 2024 - 19:30 GMT-03:00
Monitoring
A navegação na plataforma voltou a funcionar normalmente.
Continuamos investigando e vamos manter esse Status aberto para continuar monitorando e trazer mais detalhes nas próximas horas.
Posted Feb 13, 2024 - 13:45 GMT-03:00
Investigating
Voltamos a passar por uma instabilidade que está dificultando o login, e a navegação em alguns módulos como o de atendimento e contato.
Estamos analisando com prioridade novamente.
Posted Feb 13, 2024 - 13:20 GMT-03:00
Monitoring
A navegação na plataforma foi normalizada, ainda estamos investigando a causa. Continuaremos monitorando e em breve traremos mais informações.
Posted Feb 13, 2024 - 12:20 GMT-03:00
Investigating
Detectamos uma perda de performance na plataforma que está afetando o carregamento de algumas telas do sistema, como login, atendimento e contato. Estamos investigando com prioridade.
Posted Feb 13, 2024 - 11:48 GMT-03:00
This incident affected: Core.